銀行員 RとPythonに出会う

Rネタを中心に、いろいろと更新していきます

AIC

今日は理論の話

最近、この本を読み直しています。

第4章のAICについての記述で考えさせられたので、備忘を兼ねまとめます。

AICはモデル選択基準の一つです。

最尤推定したパラメーターの個数がkであるとき、以下の通り定義されます。

  AIC = -2(logL^* - k)

 ※logL^*は最大対数尤度

 

 なぜAICでモデル選択してよいのか?

この本の第4章でのメインテーマですが、著者が指摘する「AICについてのいろいろな誤解」をしている”人たち”に自分が該当していることに気づき、はっとした思いになりました。

 

データ解析の中でモデル選択をしている人たちを観察していると、AICについてはいろいろな誤解をしていることがわかります。

まず、基本的な注意としては、AICは「あてはまりの良いモデル」を選ぶ基準ではないし、AICによって「真のモデル」が選ばれるわけでもない。

 

引用元 データ解析のための統計モデリング入門 4章6節

「あてはまりの良いモデル」や「真のモデル」ではなく、「良い予測をするモデル」を選ぶのがAICであると説明されています。

この「良い予測をするモデルを選ぶのがAIC」というところ、何も考えてないと見落としてしまいがちです。

でも、だとすればここで疑問が生まれるのですが、AIC最小化でモデル選択(変数増減法で変数選択等)を行ったとして、例えば選ばれた変数のp値が有意水準(5%)を超えている場合どう考えたら(対処したら)よいのでしょうか?

 

・・・結局のところ、明確な答えはないのだと思います。

少し脱線するかもしれませんが、p値至上主義の流れに対してはアメリ統計学会が声明を発表しているようです。

下記のブログで見つけました。

統計の誤解と濫用や「p値至上主義」を憂慮しp値の6原則を発表したASAの声明に対する統計学徒の素人意見 - ★データ解析備忘録★

 

いずれにせよ、「係数の符号の向きが逆転している変数はないか」だとか「分析対象に対するドメイン知識と重ね合わせたときに違和感がないか」など試行錯誤的な取り組みが大事だということなのだと思います。

気づくと、「AIC最小化」や「p値(有意水準)」、「ROC,GINI」といった面々に気を取られすぎてしまうので、分析対象・ビジネス面のドメイン知識とのすり合わせを常々意識して”思考”を止めないようにしたいと思います。

 

結果、(相対的な)統計指標の改善に注力しすぎるより、むしろ、モデルを使う対象となる”ビジネス”そのものの運用や設計に目を向けたほうが良い場合もあるかもしれません。

 

脱線気味なのでまとめると、AICは「あてはまりの良いモデル」でなく「良い予測をするモデル」を選ぶ基準であるということ。改めてすごく考えさせられました。