実践統計学入門 重回帰分析

はじめに

前回は説明変数と目的変数が1つづつの場合を単回帰分析として扱った。

今回は複数の説明変数と量的な目的変数1つを重回帰分析として扱う。このとき重要な言葉を前回に引き続いて覚えて欲しい。

多重共線性:説明変数間の相関。説明変数間は独立というか、なるべく相関がない方がいい。判定基準は説明変数間のVIF値が10以上、相関係数なら0.95以上あれば、説明変数のどちらかを落として回帰分析を行う。

報復

おい、おれはお前に気温と売上高の関係を調べろといったはずだよなッ

……はあ、そうですが

じゃあ、なんで因果関係が弱いような気がするだの、説明変数を多くしろだのとごたくを並べたんだ?

まあ、その方が親切じゃないのかなあ、なんて思っちゃったりして……

お前、おれのことをバカにしてんじゃねえのかッ

滅相もない。

ほら、ここにお前がいったようなデータを用意しておいたから、明日の朝一番で提出しろッ。いいな

はぁ、……いまからやるのか

説明変数と目的変数の設定

与えられたデータ。説明変数・目的変数ともに数量データ。単位は省略

この場合、説明変数となるのは接客、品揃え、面積、立地、であり、目的変数は売上高となる。
ここで、接客と品揃えは数人の店舗管理担当者の評点であり、面積と立地そして売上高は実測値である。

目的変数のチェック
目的変数の基本統計量とコルモゴロフースミルノフ検定の結果 

目的変数は正規性ありとみなすことができるので、推定・検定が可能となる。

ヒストグラムと箱ひげ図 飛び離れた値はないようである
説明変数のチェック

目的変数を入れた説明変数間の相関係数行列

これをみると、説明変数間で多重共線性はなさそうである。

多重共線性の判断基準はVIF値が10以上、相関係数が0.95以上が一般的に使われる指標となるが、たとえば製造業であればVIF値は一般的な10以上、医療統計ではVIF値は3以上あれば変数を削除するなど、分野によってさまざまである。

重回帰分析

重回帰分析の結果

予測値と実測値の散布図 とくに予測値から飛び離れた値は存在していない
 チェックポイント

寄与率:この4つの説明変数から売上高の変動は80%説明できることがわかる。

残差 :残差が正規性をもてば、重回帰分析は成功である。

AIC :重回帰式のあてはまり度を示す尺度。相対量なので計算経過のなかで小さい値を採用する。

DW比:ダービン=ワトソン比。実測値と理論値の差に相関があるかないかを示す尺度。2よりかなり大きければ負の相関、2よりかなり小さければ正の相関、2前後のときは相関なしと判断する。もちろん2前後の値がいい。

重回帰分析の精度を高くする

この重回帰分析の式で悪くはないが、さらに精度をたかめるために、

変数増減法、変数増加法、変数減少法

の3つがある。ここでは一番精度が高いと言われている変数増減法で再度重回帰分析を行う。(一般的には変数減少法がやりやすいというが、それは解析プログラムにかかっているので、深入りはしない)

変数増減法によるステップの記録

AICが一番小さくなっている接客と品揃えだけで重回帰分析を行ってみる。

接客と品揃えだけで行った重回帰分析の結果

これを見ると、寄与率は80%から76%に落ちているが、これは説明変数の数が多ければ多いほど寄与率は増加するので、とくに心配する必要はない。気になる人は自由度調整済み寄与率、この場合は0.757から0.727へ落ちているだけなので、この程度ならば十分に許容できる。

AICをみてみると、255.9577から248.6044と値が小さくなっている。

残差、重回帰式の有効性、DW比も合格である。

この重回帰分析の結果から、説明変数は接客と品揃えだけでいいと考えられる。

重回帰分析のもうひとつの側面は要因分析といって、t値の絶対値を用いる方法によって、売上高を説明できる有力な変数を見つけることであるが、ここでは、そういった観点はとらない。ここで行った精度の高い分析だけで十分であると考えるからである。(この精度の高い重回帰分析のt統計量を考えれば、品揃え3.271が1番の要因となる)

マンションをゲットせよ

おい、おれもいよいよマンションへ引っ越そうかと考えとるんだ

そりゃあ、おめでたいことですなぁ。いい物件は見つかりましたか?

それがなかなかこれはっていうものがなくてな。おまえは独りもんだから気楽でいいだろうが、おれはそうはいかんのだよ

おっしゃる通りで……

そこで、データを掻き集めてきたんだ。ほれ、これだ

私用ですよね?いいんですか

馬鹿か、おまえは。これはな、マンションの価格とその要因に関するレッキとしたものだ。おれが公私混同するようなやつに見えるか?

いえ、すぐに取り掛かります

説明変数と目的変数の設定

与えられたデータ。説明変数・目的変数ともに数量データ。単位は省略

この場合、説明変数となるのは徒歩時間、距離、築後年数、延床面積、であり、目的変数は価格となる。
徒歩時間(分)と距離(m)は駅までのものであり、価格は(万円)である。

目的変数のチェック
基本統計量とコルモゴロフースミルノフ検定の結果

この結果から、目的変数である価格は正規性があることにより、推定・検定が可能である。

ヒストグラムと箱ひげ図 飛び離れた値はないようである。この結果から、価格に飛び離れた値は存在しない。

説明変数のチェック

目的変数を入れた説明変数間の相関係数行列

ここで黄色くした距離と徒歩時間には、強い相関があり多重共線性があることがわかる。

どちらの変数を落とすべきか?

本来はどちらでもよいのであるが、一定の基準を設けた方が解析しやすいだろう。通常は相関係数行列の目的変数との相関の絶対値が小さい方を落とすのであり(徒歩時間は0.238、距離は0.229)、この場合は距離に決定した。大雑把な目安としては0.95以上(VIF値は10)は甘すぎるので、ここでは0.9以上とした。

重回帰分析

重回帰分析の結果

予測値と実測値の散布図 とくに飛び離れた値は存在していない

この結果を見ると、寄与率が78%とあてはまりが悪くないといったところだが、残差の正規性があり、有効性もあることから重回帰分析は成功である。まだDW比が2前後であるが、もう少し精度を高くした重回帰分析が欲しいところである。

偏回帰係数と検定の値
重回帰分析の精度を高くする(変数減少法)

ギリギリまで説明変数を絞り込んだことで、変数増減法は使用できなかった。代わりに変数減少法を用いた解析結果を示す。

変数減少法を用いた重回帰分析の過程

これをみるとAICが0.0003低くなっただけ(209.016から209.0157)でありであり、精度としては、一番初めに行った重回帰分析で十分だといえる。

とりあえず、でいいのか?

おい、うちの広告ってやつは効果があるのか?

……、さぁ……、広報部にでも行ったらどうです?

向こうでも、さぁ、だってよ。折込チラシ、テレビ広告、新聞広告ととりあえずのことはやっているとさ

なら、それでいいじゃないですか

バカッ。バカ高い広告費を払って売上に結びつかなきゃ意味ねえじゃねえか

そりゃあ、まあそうですが

ほれ、ここ二十年間の広告費と売上のデータだ。明日までだからな。わかっているよな

はい、はい。十分承知しております

説明変数と目的変数の設定

与えられたデータ。説明変数・目的変数ともに数量データ。単位は省略

この場合、説明変数となるのは折込チラシ、テレビ広告、新聞広告であり、目的変数は売上金額となる。
徒歩時間(分)と距離(m)は駅までのものであり、価格は(万円)である。

目的変数のチェック
基本統計量とコルモゴロフースミルノフ検定の結果

この結果から、目的変数である売上金額は正規性があることにより、推定・検定が可能である。

ヒストグラムと箱ひげ図

この結果から、グラフは右側(売上金額の多い方)に偏っているが、基本統計量とコルモゴロフースミルノフ検定により正規性が担保されているので分析を開始する。

説明変数のチェック

目的変数を入れた説明変数間の相関係数行列

これを見ると、折込チラシと新聞広告に強い相関があるが、0.95よりは小さいので、先ほどは0.90以上としたが、ここでは一般的な0.95以上(VIF値は10以上)を多重共線性ありとすることに決定した。
理由は説明変数の数である。先ほどは4つあったので、1つを落としても大丈夫だろうという判断があったのだが、ここでは3変量しかないので、へたに落として情報量が減るのを防ぎたかったのである。

統計分析のこういったあいまいさが統計解析の面倒くささでもあり、使えない分析、に陥るひとつの原因である。

重回帰分析

重回帰分析の結果

実測値と予測値の散布図。とくに飛び離れた値は存在しない

寄与率が79%であり、残差の正規性、重回帰式の有効性ともに合格なので、重回帰分析は成功した。ただし、DW比が2よりはるかに小さくなっている。これは説明変数の多重共線性を一般的な0.95以上にしたためだと思われる。精度の高い分析を行って、それでもダメなようならば、変数を落とすしか方法はない。

偏回帰係数と検定の値

重回帰分析の精度を高くする(変数増減法)

変数増減法のステップの過程。AICはいいにしても、DW比に問題がある。


これによると、新聞広告と多重共線性があった折込チラシが排除され、テレビ広告と新聞広告のみで説明できることがわかったが、問題はDW比(ダービン=ワトソン比。異なる誤差項間には相関がないことが仮定されている)が2よりはるかに小さく、つまり正の相関を持ってしまっている(自己相関という)。時系列データでは周期性を見る指標に自己相関を用いるが、ここでは割愛する。

おばちゃんを助けろ

おい、食堂のおばちゃんが嘆いているぞ

なんです?藪から棒に

自動食器洗い機がぶっ壊れたんだそうだ

そりゃあ、大変だ。手洗いは指先にひび割れが起こって痛いからなあ

ほれ、これがアンケート結果と売上高だ。極秘で他社から手に入れたんだぞ。おれの力を思い知ったか

思い知りましたよ。それで……この中からよさそうな商品を選んでくれということですか?

そうだ

そういうと思いましたよ……

説明変数と目的変数の設定

他社から仕入れたアンケートと売上高のデータ

電気代とは安ければ安いほど評価が高い。同様の考え方で汚れ落ちが良ければよいほどよく、操作性は簡単であればあるほどよく、簡単操作とは使いやすさのことであり、小サイズとは機械の大きさが場所を取らず、小さい方がいい、ということを示し、これらはすべて説明変数として用いる。

売上高が目的変数であり、すべて量的なデータである。

目的変数のチェック
基本統計量とコルモゴロフースミルノフ検定の結果

この結果から、目的変数である売上高は正規性があることにより、推定・検定が可能である。

ヒストグラムと箱ひげ図 飛び離れた値はないようである

この結果から、ヒストグラムは真ん中どこらがへこんだ形になっているが、箱ひげ図を見る限りではとくに問題はなさそうであり、基本統計量とコルモゴロフースミルノフ検定により正規性が担保されているので分析を開始する。

説明変数のチェック

目的変数を入れた説明変数間の相関係数行列

この結果をみると、説明変数間の相関係数が0.9以上のものはないので、このまま重回帰分析を開始する。

重回帰分析

重回帰分析の結果

実測値と予測値の散布図

この結果をみると、残差に正規性があり、重回帰式は有効である。また寄与率も83%で散布図にもとくべつ飛び離れた値はなさそうであり、当てはまりは上々である。DW比もまあ2に近いといえば近いのでいいとする。AIC値がもう少し小さくなれば最適な重回帰式となるのだが、この段階では重回帰式は成功したと考えてもよい。

偏回帰係数と検定の結果
重回帰分析の精度を高くする(変数増減法)

変数増減法による重回帰式。説明変数が3つに減っている

AIC値は説明変数をすべて入れた場合(253.348)と比べてほんの僅かだが(253.1788)小さくなっている。こちらで重回帰式をつくった方が説明変数が少ないだけいい。電気代、汚れ落ち、操作性(使いやすさよりも手入れなど簡単な操作で機械が動かせること)の3変数を中心におばちゃんたちに評価してもらえばよさそうである。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。