機械学習:パラメーターと変数について

IT業界で機械学習プロジェクトなどで、インフラ系エンジニアと会話すると、普通に正しく理解せずに、パラメーターという言葉を使う人が多いように感じます。機械学習で、パラメーターと説明変数、目的変数がごっちゃにつかわれて、すべてをパラメーターとして表現する人をみかけます。

 

たとえば、野球場でビールが何本売れるかを予測することを考えます。

例えば、

ビールの販売本数= A × 観客数 + B x 気温 + C

というシンプルな重回帰モデルを仮定します。

 

この時に、A,B,Cがパラメータで、分析者が計算・推定するもので、

観客数や気温は、説明変数としてインプットするデータ、ビールの販売本数は目的変数としてインプットするデータです。

インプットデータをもとに学習して、パラメータであるA,B,Cを推定する(数学的なアプローチで算出する)わけですが、すべてをいっしょくたにして、インプットデータである、観客数や気温をパラメーターと呼ぶ人がいますので注意が必要です。

 

ちなみに、ディープラーニングで学習する際に、各変数へのインプットデータ以外に、内部で使うアルゴリズムの仕様を決める値を事前に決める必要があり、それらをハイパーバラメーターと呼びます。一般に、これの最適値を数学的に求めることは困難で分析者が決める必要がありますが、トライ&エラーの繰り返しとなります。