実践統計学入門 相関 単回帰分析

はじめに

前回は1変量でバラツキを中心に問題解決法を基本的な事柄に対して提示した。

今回は2変量の問題解決法の基本的な事柄を提示するが、その前に知っておいて欲しい専門用語があるので、それを解説する。

相関  :2つの変量(変数)の直線的な関係の度合い。尺度は相関係数で見る。

因果関係:原因と結果のこと。

目的変数:Y軸にとる。因果関係の結果のこと。

説明変数:X軸にとる。因果関係の原因のこと。

実測値 :観測して現実に入手したデータ。

回帰分析:目的変数を予測するためにたてる数式とその値。

予測値 :回帰式に実測値をいれた値。

残差  :回帰分析で予測した値と実測値の差のこと。

ここで、注意して欲しいのは次の点である。

注意

相関があるからといって因果関係が必ずしもあるとは限らない。
逆に
因果関係があれば相関関係は必ず存在する

たとえば、マーケティングの方でよく知られた例であるが、30代の男性でビールを買う人は子供用の紙パンツも買う、という例である。

たしかにこの間には相関があったのだろう。ただし、因果関係はどうかというと疑問符をつけざるを得ない。

因果関係の説明として、30代の男性はビールを買いに行くついでに、子供用の紙パンツも買ってくるように奥さんに頼まれるからだ、ということだが、こういうのを屁理屈という。

この論調が通るなら、妊婦さんがいる市町村では交通事故は少ない、というのもなりたつだろう。因果関係は妊婦さんに気を使ってみんな車の運転に気を付けるからだ、となってしまい、なんでもありの世界になってしまう。

このビールの例を恥ずかしげもなく「大発見」と称する馬鹿野郎どもが日本には多いが、それでは日本の酒屋に紙パンツがおいてあるかと言えば、どこにもおいてない。
そりゃあ、ドラックストア、ディスカウントショップ、ホームセンター、中型大型スーパーには缶ビールも紙パンツもおいてあるが、それは品ぞろえというだけであり、とくべつ30代の男性の売上を見込んでのことではない。

軽々に統計をつかうから、いつまでたっても統計学は「使えない分析」になってしまうのである。つじつま合わせばかりせず、きちんと物事の本質を観なければならないのが統計学を使えなくしているひとつの原因である。

仕入れ個数を予測せよ

おい、うちの搾りたてセブンなんだがな

あれは美味いなあ。野菜と果物の7種類を客の前でミキサーにかけて、そのあとお好みでオレンジ・グレープフルーツ・レモン・夏みかんなんかを手て搾っていれてくれるんだよね。断然夏みかんがいいなあ

お前の好みなんて聞いてねえ。販売員からどのくらい手搾りの果物を仕入れたらいいか、相談を受けてな

ふぅ~ん。まあ、しぼんだ果物じゃあ客の前に出せないからな。冷蔵庫にも限りはあるし……

それで、おまえに仕事をやろうと思ってな。20歳~30歳代の女性が搾りたてをよく頼むらしいんだが、おまえにいったい何人の女性がきたら何個ぐらい仕入れればいいかを予測して欲しいんだよ

予測って……。おれは神様じゃないんだから……

おまえが神様じゃないってことは、おれが一番よく知っているさ。ほれ、これがこのひと月分のデータだ。明日までに結果をだしておけよ

ふぅ。……

説明変数と目的変数の設定

手渡されたデータ。人数は20代~30代までの女性。仕入れ個数は手絞り果物類の総数

女性が来店したときにでる果物の個数ということだから、説明変数は女性の人数、目的変数は仕入個数とすればいいだろう。

目的変数のチェック

目的変数が正規性があるかどうかをチェックしなければならない。目的変数が正規分布に従っているかどうか。従っていなければ予測ができず、逆に正規分布とみなせれば、推定、検定が可能となる。

目的変数の左は基本統計量、右はコルモゴロフースミルノフ検定による正規性の検定

ヒストグラムと箱ひげ図を書いて、飛び離れた値があるかどうかをチェックする。

左がヒストグラム、右が箱ひげ図 この結果から飛び離れた値はないと考えられる
説明変数と目的変数の相関関係
相関係数は0.755、散布図を見ても飛び離れた値は確認できない

これらの結果から、単回帰分析を行っても不都合なことはなさそうである。ちなみにt統計量というのは影響度を調べるための指数であり、説明変数がどのていど目的変数に影響を与えているかを示す。この場合、6.085なので、相関係数と相まって予測はできそうである。

回帰分析

回帰分析の結果
チェックポイント

回帰式仕入個数=0.2895*人数+7.5070

寄与率:回帰直線の当てはまりの良さを示す値。1に近いほど回帰式の精度がいいということになる。この場合、約57%なので対して良くはない。

残差の正規性:正規性がなければならない。この場合は正規性がある。
正規性がなければ回帰分析は失敗となる。失敗した場合、説明変数を人数ではなく例えば気温とかなにかに変えなければならない。

F統計量:有効性あり。
回帰式そのものが目的変数に対して効果があるかを判定するときに使用する。

係数a:回帰式の傾きのこと。回帰式の有効性の検定と一致する。
個々の説明変数が目的変数に与える影響に有意性が認められるどうかを判断する。

係数b:回帰式の切片のこと。気にしなくてもよい。

予測値を出す回帰分析に対しての手順はこれが基本であり、赤字の部分は必須である。

相関のおおよその目安として、|0.8|以上であれば強い相関(説明変数と目的変数に強い関係性がある)、|0.5|以上であれば相関がある(説明変数と目的変数に関係性がある)、と考えてよい。0は無相関であり、説明変数と目的変数に関係性がない。

上記の結果を踏まえて言えば、回帰直線の当てはまり具合は57%とたいして当てにならないだろう。ないよりはマシといった程度と考えればいい。

再挑戦

おい、なんだこりゃ。全然、まったくもって、ダメダメな予測じゃねえか

はぁ……、だから私は神様じゃないといったでしょうが

はぁ、じゃねえ。だからは余分だ。いいか、おれはお前のために一所懸命なんだぞ

そりゃあ、どうも……

今度は気温と搾りたてセブンの売上個数のデータを持ってきてやったんだぞ。感謝しろ

感謝しております……

手順

手順はいままで通りである。

説明変数と目的変数の設定 ⇒ 目的変数のチェック ⇒ 説明変数と目的変数の相関関係 ⇒ 回帰分析

説明変数と目的変数の設定

気温と売上個数のグラフ

気温によって売上個数がどう変化するのか、をみるのがふつうである。逆に売上個数から気温の変化がわかるとしたら、気象庁はいらないだろう。

気温は説明変数、売上個数は目的変数と決定した。

目的変数のチェック
目的変数の左は基本統計量、右はコルモゴロフースミルノフ検定による正規性の検定

正規性の検定によって、目的変数は正規性あり、となったことより解析を進めることができる。

左がヒストグラム、右が箱ひげ図 この結果から飛び離れた値はないと考えられる
説明変数と目的変数の相関関係
相関係数は0.943、散布図を見ても飛び離れた値は確認できない

これらの結果から、単回帰分析を行っても不都合なことはなさそうである。ちなみにt統計値というのは影響度を調べるための指数であり、説明変数がどのていど目的変数に影響を与えているかを示す。この場合、13.6062なので、相関係数と相まって予測はかなり正確にできるはずである。

回帰分析

回帰分析の結果
チェックポイント

回帰式:売上個数=11.7648*気温℃+30.2120

寄与率:回帰直線の当てはまりの良さを示す値。1に近いほど回帰式の精度がいいということになる。この場合、約89%なので非常によい。

残差の正規性:正規性がなければならない。この場合、正規性がある。
正規性がなければ回帰分析は失敗となる。失敗した場合、説明変数を気温ではなく例えばすべての来店客数とかなにかに変えなければならない。

F統計量:この場合、有効性あり。
回帰式そのものが目的変数に対して効果があるかを判定するときに使用する。

係数a:回帰式の傾きのこと。この場合、回帰式の有効性の検定と一致する。
個々の説明変数が目的変数に与える影響に有意性が認められるどうかを判断する。

係数b:回帰式の切片のこと。気にしなくてもよい。

上記の結果を踏まえれば、回帰直線の当てはまり具合は89%なので、明らかに気温と売上個数に関係、しかも強い関係があると判断できる。

売上高を上げろ

おい、いよいよ21店舗目が開店の運びとなったぞ。

はぁ、そうすか

バカやろう。よろこべ

そりゃ、おめでたいことですなぁ

そうだろう?だがな、売り場面積をどの程度の大きさにすれば売上高がどのくらい大きくなるのかがわからんのだ

……、つまり、売り場面積と売上高には関係がある、というんですか?

普通に考えたって、売り場面積が大きければ品揃えも豊富になるから、その分売上も増すだろうが

でも大ききゃいいってもんじゃないと思うんですが。なかを歩くのも大変だし、探すのも容易じゃないでしょうに

ふん。そう思うんなら、ほれ、いままでの店舗のデータの売り場面積と初月の売上高のデータだ。特別にお前のために用意してやったんだ。

あのぉ……これを使って……

そうだ。これを使ってやるんだ。

……そうなんだ……

手順

手順はいままで通りである。

説明変数と目的変数の設定 ⇒ 目的変数のチェック ⇒ 説明変数と目的変数の相関関係 ⇒ 回帰分析

説明変数と目的変数の設定

売り場面積と売上高のデータ


売り場面積によって売上高がどう変化するのかをみろ、ということだろう。

売り場面積は説明変数、売上高は目的変数と決定した。

目的変数のチェック
目的変数の基本統計量とコルモゴロフースミルノフ検定の結果。正規性あり

目的変数は正規性をもつことにより、解析を進める。

目的変数のヒストグラムと箱ひげ図をみても、飛び離れた値はないと考えられる
説明変数と目的変数の相関関係
相関係数は0.984、散布図をみても飛び離れた値は確認できない

これらの結果から、単回帰分析を行っても不都合なことはなさそうである。ちなみにt統計値というのは影響度を調べるための指数であり、説明変数がどのていど目的変数に影響を与えているかを示す。この場合、8.4866なので、相関係数と相まって予測はかなり正確にできるはずである。

回帰分析

回帰分析の結果
チェックポイント

回帰式:売上高=0.9669*売り場面積+329.7659

寄与率:回帰直線の当てはまりの良さを示す値。1に近いほど回帰式の精度がいいということになる。この場合、約80%なので非常によい。

残差の正規性:正規性がなければならない。この場合、正規性がある。
正規性がなければ回帰分析は失敗となる。失敗した場合、説明変数を売り場面積ではなく例えば品揃えの数とかなにかに変えなければならない。

F統計量:この場合、有効性あり。
回帰式そのものが目的変数に対して効果があるかを判定するときに使用する。

係数a:回帰式の傾きのこと。この場合、回帰式の有効性の検定と一致する。
個々の説明変数が目的変数に与える影響に有意性が認められるどうかを判断する。

係数b:回帰式の切片のこと。気にしなくてもよい。

上記の結果を踏まえれば、回帰直線の当てはまり具合は80%なので、明らかに売り場面積と売上高に関係、しかも強い関係があると判断できる。

しかし、因果関係が弱いような気はする。売上高を分析するのに、説明変数が1つというのに無理があるからだろう。仮に売り場面積が大きくても、寂れた店では売上高はないのだから、説明変数に来店客数、立地条件、駐車場の大きさなどといったものを追加する必要があると思われる。

予測の注意点

回帰直線に数値を入れて予測をするときには、原則として(というか、必ずといってもいい)得られたデータの範囲内で行うこと(これを内挿という)。データの得られた範囲外で予測する(これを外挿という)と、とんでもない予測値が出てしまう。

未来を予測できるほど統計というのは便利な道具ではないのである。
予測はあくまでも得られたデータの範囲内
ということを心得ていてもらいたい。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。