実践統計学入門 主成分分析 クラスター分析

はじめに

主成分分析とは、説明変数のみのデータ群を扱う(もし、ここに目的変数が入れば重回帰分析となる)。このデータ群を第一主成分、第二主成分に分類するのでデータの要約という言い方をする方もいる。

第一主成分は総合力、第二主成分は個別力と解釈すれば間違いはない。ただし、総合力と個別力がなにを意味するかはデータ群と解析者の判断にゆだねられる。

店舗を総合評価せよ

おい、そろそろ店舗を評価する時期になったぞ

年度終わりじゃないんですか?

評価は年2回だ、バカ。1月から12月までは店舗の評価、4月から翌年の3月が会計での評価だろうが

ふうん、そうでしたか

ほれ、データだ。さっさと仕上げろよ

はぁ、……できるだけ……

主成分分析のデータ

店舗評価のデータ。店舗とトイレは清潔感を表す
データ群の正規性の検定
コルモゴロフースミルノフ検定の結果

すべてに正規性があることより、等固有値の検定が可能であるが、用語とともに、ここでは割愛する。

主成分分析

主成分分析の固有値、寄与率、固有ベクトル

寄与率はどのくらい説明できるのかをしめしている。第一主成分だけだと38.4%しか説明できていない。これを累積寄与率で第二主成分まで加味すると62.4%まで説明できることになる。

いい方を変えれば、このデータ群で店舗の評価は62.4%しか説明できない、ということである。

第一主成分はすべて正の値をとる。これが総合力と言っている理由である。

第二主成分は正負となっているが、正だから評価がいい、とか負だから評価が悪いということではなく、これはたんにグループ分けである。
正のレイアウト、接客、トイレの清潔感、と負の品揃え、処理時間、店舗の清潔感と二つに分かれていることを示している。

因子負荷量と主成分得点のグラフ
左が因子負荷量、右が主成分得点のグラフという

第一主成分(横軸、X軸)は、主成分得点でみると、右へ行くほど総合力が高いことを示している。この右のグラフだと店舗1,8,7,2などが高い。

第二主成分(縦軸、Y軸)は、因子負荷量とあわせてみると総合力1位の店舗1はトイレの清潔感、接客、レイアウトでは店舗4よりは低い。強化すべきはトイレの清潔感、接客、レイアウトである。

店舗4の総合力は中間だがトイレの清潔感、接客、レイアウトでは他店に比べて高い。これを加味すれば、店舗4の総合力を上げるには、店舗の清潔感、処理時間、品揃えを充実させれば総合力があがると考えられる。

第一主成分で1番総合力が低い店舗6は第二主成分のグループわけでも特に特徴がないので、抜本的に店舗を改善しなければならない。

このようにして各店舗を評価していくのが主成分分析である。

お断り

本来であれば、共分散行列か相関行列(基準化するか否か)を出発点にして因子負荷量、主成分得点を求めなければならないが、ここでは、手順と解釈の仕方を述べるに留める。以下、簡単に用語だけを説明する。

主成分得点とは、散布図において「最も幅が広くなるように」引っ張た線のことで、一番幅が広いのが第一主成分、二番目が第二主成分とよび、これを直交座標に回転させたもの。従って、第一主成分がX軸(横軸)、第二主成分がY軸(縦軸)となる。

因子負荷量とは、元の変数と各主成分との相関関係を表す値。

固有ベクトルとは、第一主成分、第二主成分、……の直線の係数を求めるためのものである。

詳しい内容は福山教授のマニュアル(gmanual03_1)の主成分の項を参照して欲しい。

クラスター分析 デンドログラム

距離測定法は平方標準化ユークリッド距離、クラスター構成法は最長距離法を用いる。

店舗評価のクラスター分析 デンドログラム

このデンドログラムから、大きく2つに分けるとすると、

1・8・4・7 

2・10・5・3・8・9

となり

3つに分けると

1・8・4・7

2・10・5

3・8・9

と主成分得点のグラフを集団分けした場合と一致する結果になる。

注意

主成分分析が説明変数を第一主成分、第二主成分……のように、要約していくのに対して、クラスター分析は各変数を距離という概念を用いて結合し集団を構成している点に注意して欲しい。

今回用いたものも含めて、距離の概念と集団(クラスター)の形成にも使う種類と理屈があるので、詳しくは福山教授のマニュアルを参照して欲しい。

練習問題

問題1)

身長、体重、胸囲、座高の30人分のデータ
解答)

主成分分析のデータ
右が因子負荷量、左が主成分得点

第一主成分で9番の人は全体としては中肉中背であるが、第二主成分を加味すると胸囲と体重が大きいため、全体としては肥満気味であるといえる。

第一主成分で27番の人は全体としては小柄な部類であり、第二主成分を加味すると身長と座高があるため、やせ型で背が高いということがいえる。

クラスター分析 デンドログラムの結果

この結果から集団を4つに分け、主成分分析と合わせると以下のように解釈できる。(ただし、この見方が正解とは限らないので、各人によって解釈の仕方は異なるだろうが、大きく違っていることはない)

1~17:原点付近に固まっている集団であり、標準的な体格であると判断できる。

6~16:小柄でやせ型か標準の体重の体格を持っている人と判断できる。

2~13:大柄で標準的な体格を持っている人と判断できる。

4~9  :標準的な体格で肥満気味の人と判断できる。

問題2)

40人分の5教科のデータ

問題2)
解答)

固有値、寄与率、累積寄与率、固有ベクトル、因子負荷量 一覧

1)

1)の解答

2)の解答

題意に沿った解答

3) 1)の累積寄与率の第二主成分をみると0.925となるので、約93%説明できる。

4)

第一主成分は総合力を表すので、総合的な学力を意味する。

第二主成分の因子負荷量

第二主成分は、理系と文系に分かれている。

5)

基準化しない主成分得点

一番目の人の第一主成分得点はー1.78、第二主成分得点は1.6となる。
6)

1番目の人の主成分を見る

1番目の人は総合的な学力は低いが理系が得意である。

問題文にはないがここでもクラスター分析を行い、デンドログラムを書いてみる。

クラスター分析 デンドログラムの結果

この集団を5つに分けて、主成分分析とくらべてみると以下のようになる。

1~38:学力が低く理系の人

8~30:学力が低く文系の人

2~40:平均的な学力で理系の人

3~33:平均的な学力で文系の人

24と29:理系の総合力が1番の人と文系の照合力が1番の人

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。