実践統計学入門 判別分析

はじめに

判別分析とは、既知の質的データをグループ分けし、未知のデータがどのグループに属するのかを予測する手法である。

最初の手順としてはグループの正規性と等共分散性のチェックが前提となる。また、正規性と等共分散性でないものについても、分析だけはできることを示す。

判別分析 2群の場合 

問題1

おい、今年の新入社員の学力と適性の検査結果が出たんだが

はぁ、そうですか。いい人は入りましたかな?

おまえのいういい人ってやつなんだがな

はあ

人事の方でやっているんだが、いままでの経験則が幅を利かせているようなんだ

それでも、会社が潰れなきゃいいんじゃないんですかねぇ

呑気なことをいうな。ほれ、データだ。これを使ってグループ分けしとけよ

はぁ、またですか

問題文

問題文:適性の有無(1は有、2は無)と適性検査・SPIの結果

このデータを使って判別分析を行う。

正規性と等共分散性のチェック

正規性の検定には、コルモゴロフースミルノフ検定を行う。

正規性の検定結果。すべて正規性ありとなった。

共分散性の検定結果。等共分散性ありとなった。

以上により、判別分析可能である。

判別分析

判別分析の結果

線形判別関数は

 判別得点=-0.190*適性検査+0.645*SPIー20.467

となる。

この結果から、判定に及ぼす影響が大きいのはSPIの方である。

実測値から求めた誤判別の割合は

 1群を2群とする誤判別の割合は5.3%、2群を1群と誤判別する割合は9.5%である。

No1の人の判別得点は

  -0.190*55+0.645*40ー20.467

 =-5.117

適性検査50点、SPI55点の新規データが届いた。この人の判別得点と適性の有無を調べてみると

 判別得点=-0.190*50+0.645*55-20.467

     =5.508

となり、判別の分点が0より、判別得点が正なら有、負なら無となる。この場合は正の値より、適性あり、と判断できる。

問題2
問題文

問題文:(1は合格、2は不合格)と勉強時間と平均点
正規性と等共分散性のチェック

正規性の検定には、コルモゴロフースミルノフ検定を行う。

正規性の検定結果。すべて正規性ありとなった。

共分散性の検定結果。等共分散性ありとなった。

以上により、判別分析可能である。

判別分析

判別分析の結果

この結果より、判別得点は

 判別得点=2.246*勉強時間+0.201*平均点ー23.019

となる。

この結果から、判定に及ぼす影響が大きいのは勉強時間の方である。

実測値から求め誤判別の割合は

 1群を2群とする誤判別の割合は7.7%、2群を1群と誤判別する割合は5.9%である。

No1の人の判別得点は

  2.246*5.6+0.201*70.2ー23.019

 =3.6688

勉強時間2.5時間、平均点48点の新規データが届いた。この人の判別得点と合否を調べてみると

 判別得点=2.246*2.5+0.201*48ー23.019

     =-7.756

となり、判別の分点が0より、判別得点が正なら合格、負なら不合格となる。この場合は負の値より、不合格、と判断できる。

判別分析 3群の場合

これから行う例は、有名なフィッシャーのあやめに対する判別分析の例である。

ところが、このデータは正規性がなく、等共分散性もないのである。これでは判別分析ができないと考えるのがふつうだが、福山教授の見解を引用しておく。(データ分析はその後に行う)

福山教授の見解

正準判別分析の散布図 楕円は1.5σ


あやめのデータは、正規性も等共分散性も満たしていませんが、判別の精度は抜群です。判別分析の利用可能性は誤判別確率がカギになるようです。ただその際の係数の検定や理論的な誤判別確率の値はあまり信用できないと思わなければならないでしょう。

問題文
No がくの長さ がくの幅 花弁の長さ 花弁の幅
1 1 5.1 3.5 1.4 0.2
2 1 4.9 3 1.4 0.2
3 1 4.7 3.2 1.3 0.2
4 1 4.6 3.1 1.5 0.2
5 1 5 3.6 1.4 0.2
6 1 5.4 3.9 1.7 0.4
7 1 4.6 3.4 1.4 0.3
8 1 5 3.4 1.5 0.2
9 1 4.4 2.9 1.4 0.2
10 1 4.9 3.1 1.5 0.1
11 1 5.4 3.7 1.5 0.2
12 1 4.8 3.4 1.6 0.2
13 1 4.8 3 1.4 0.1
14 1 4.3 3 1.1 0.1
15 1 5.8 4 1.2 0.2
16 1 5.7 4.4 1.5 0.4
17 1 5.4 3.9 1.3 0.4
18 1 5.1 3.5 1.4 0.3
19 1 5.7 3.8 1.7 0.3
20 1 5.1 3.8 1.5 0.3
21 1 5.4 3.4 1.7 0.2
22 1 5.1 3.7 1.5 0.4
23 1 4.6 3.6 1 0.2
24 1 5.1 3.3 1.7 0.5
25 1 4.8 3.4 1.9 0.2
26 1 5 3 1.6 0.2
27 1 5 3.4 1.6 0.4
28 1 5.2 3.5 1.5 0.2
29 1 5.2 3.4 1.4 0.2
30 1 4.7 3.2 1.6 0.2
31 1 4.8 3.1 1.6 0.2
32 1 5.4 3.4 1.5 0.4
33 1 5.2 4.1 1.5 0.1
34 1 5.5 4.2 1.4 0.2
35 1 4.9 3.1 1.5 0.2
36 1 5 3.2 1.2 0.2
37 1 5.5 3.5 1.3 0.2
38 1 4.9 3.6 1.4 0.1
39 1 4.4 3 1.3 0.2
40 1 5.1 3.4 1.5 0.2
41 1 5 3.5 1.3 0.3
42 1 4.5 2.3 1.3 0.3
43 1 4.4 3.2 1.3 0.2
44 1 5 3.5 1.6 0.6
45 1 5.1 3.8 1.9 0.4
46 1 4.8 3 1.4 0.3
47 1 5.1 3.8 1.6 0.2
48 1 4.6 3.2 1.4 0.2
49 1 5.3 3.7 1.5 0.2
50 1 5 3.3 1.4 0.2
51 2 7 3.2 4.7 1.4
52 2 6.4 3.2 4.5 1.5
53 2 6.9 3.1 4.9 1.5
54 2 5.5 2.3 4 1.3
55 2 6.5 2.8 4.6 1.5
56 2 5.7 2.8 4.5 1.3
57 2 6.3 3.3 4.7 1.6
58 2 4.9 2.4 3.3 1
59 2 6.6 2.9 4.6 1.3
60 2 5.2 2.7 3.9 1.4
61 2 5 2 3.5 1
62 2 5.9 3 4.2 1.5
63 2 6 2.2 4 1
64 2 6.1 2.9 4.7 1.4
65 2 5.6 2.9 3.6 1.3
66 2 6.7 3.1 4.4 1.4
67 2 5.6 3 4.5 1.5
68 2 5.8 2.7 4.1 1
69 2 6.2 2.2 4.5 1.5
70 2 5.6 2.5 3.9 1.1
71 2 5.9 3.2 4.8 1.8
72 2 6.1 2.8 4 1.3
73 2 6.3 2.5 4.9 1.5
74 2 6.1 2.8 4.7 1.2
75 2 6.4 2.9 4.3 1.3
76 2 6.6 3 4.4 1.4
77 2 6.8 2.8 4.8 1.4
78 2 6.7 3 5 1.7
79 2 6 2.9 4.5 1.5
80 2 5.7 2.6 3.5 1
81 2 5.5 2.4 3.8 1.1
82 2 5.5 2.4 3.7 1
83 2 5.8 2.7 3.9 1.2
84 2 6 2.7 5.1 1.6
85 2 5.4 3 4.5 1.5
86 2 6 3.4 4.5 1.6
87 2 6.7 3.1 4.7 1.5
88 2 6.3 2.3 4.4 1.3
89 2 5.6 3 4.1 1.3
90 2 5.5 2.5 4 1.3
91 2 5.5 2.6 4.4 1.2
92 2 6.1 3 4.6 1.4
93 2 5.8 2.6 4 1.2
94 2 5 2.3 3.3 1
95 2 5.6 2.7 4.2 1.3
96 2 5.7 3 4.2 1.2
97 2 5.7 2.9 4.2 1.3
98 2 6.2 2.9 4.3 1.3
99 2 5.1 2.5 3 1.1
100 2 5.7 2.8 4.1 1.3
101 3 6.3 3.3 6 2.5
102 3 5.8 2.7 5.1 1.9
103 3 7.1 3 5.9 2.1
104 3 6.3 2.9 5.6 1.8
105 3 6.5 3 5.8 2.2
106 3 7.6 3 6.6 2.1
107 3 4.9 2.5 4.5 1.7
108 3 7.3 2.9 6.3 1.8
109 3 6.7 2.5 5.8 1.8
110 3 7.2 3.6 6.1 2.5
111 3 6.5 3.2 5.1 2
112 3 6.4 2.7 5.3 1.9
113 3 6.8 3 5.5 2.1
114 3 5.7 2.5 5 2
115 3 5.8 2.8 5.1 2.4
116 3 6.4 3.2 5.3 2.3
117 3 6.5 3 5.5 1.8
118 3 7.7 3.8 6.7 2.2
119 3 7.7 2.6 6.9 2.3
120 3 6 2.2 5 1.5
121 3 6.9 3.2 5.7 2.3
122 3 5.6 2.8 4.9 2
123 3 7.7 2.8 6.7 2
124 3 6.3 2.7 4.9 1.8
125 3 6.7 3.3 5.7 2.1
126 3 7.2 3.2 6 1.8
127 3 6.2 2.8 4.8 1.8
128 3 6.1 3 4.9 1.8
129 3 6.4 2.8 5.6 2.1
130 3 7.2 3 5.8 1.6
131 3 7.4 2.8 6.1 1.9
132 3 7.9 3.8 6.4 2
133 3 6.4 2.8 5.6 2.2
134 3 6.3 2.8 5.1 1.5
135 3 6.1 2.6 5.6 1.4
136 3 7.7 3 6.1 2.3
137 3 6.3 3.4 5.6 2.4
138 3 6.4 3.1 5.5 1.8
139 3 6 3 4.8 1.8
140 3 6.9 3.1 5.4 2.1
141 3 6.7 3.1 5.6 2.4
142 3 6.9 3.1 5.1 2.3
143 3 5.8 2.7 5.1 1.9
144 3 6.8 3.2 5.9 2.3
145 3 6.7 3.3 5.7 2.5
146 3 6.7 3 5.2 2.3
147 3 6.3 2.5 5 1.9
148 3 6.5 3 5.2 2
149 3 6.2 3.4 5.4 2.3
150 3 5.9 3 5.1 1.8
判別分析

判別分析の結果

この結果より3つの判別得点を求める。

判別得点1=23.554*がくの長さ+23.588*がくの幅ー16.431*花弁の長さ
      ー17.398*花弁の幅ー85.210

判別得点2=15.698*がくの長さ+7.03*がくの幅+5.211*花弁の長さ
      +6.434*花弁の幅ー71.754

判別得点3=12.446*がくの長さ+3.685*がくの幅+12.767*花弁の長さ
      +21.079*花弁の幅ー103.270

実測値からもとめた誤判別率は

 第一群を他の群は0,第二群を他の群は0.040、第三群を他の群は0.020

である。

No1の判別得点は

 第一群は90.940、第二群は41.644、第三群は-4.808

となり、一番得点が高いものが所属群となるので、No1は第一群となる。

判別分析 演習

No 合否 内申 模試1 模試2
1 1 3.5 73 81
2 1 3.8 75 66
3 1 3.2 65 67
4 1 4 71 91
5 1 3.9 74 85
6 1 3.7 83 77
8 1 3.4 64 86
10 1 3.3 62 75
12 1 3.9 74 74
13 1 3 55 69
15 1 3.1 60 82
16 1 3.1 61 54
19 1 3.6 67 79
20 1 2.9 63 62
21 1 3.6 72 77
22 1 3.5 68 75
23 1 3.3 65 75
27 1 3.3 67 77
31 1 3.8 85 85
32 1 3.5 63 70
35 1 3.7 75 80
36 1 3.7 67 89
40 1 3.6 62 78
41 1 3.6 67 82
42 1 3.6 70 86
43 1 2.9 61 72
44 1 3.1 67 66
45 1 3.4 66 68
46 1 3 60 73
47 1 3.5 69 89
48 1 3.5 67 71
49 1 2.8 59 64
50 1 3.5 61 83
52 1 3.4 58 66
53 1 3.8 82 75
59 1 3.9 80 66
60 1 3.8 77 71
61 1 3.2 69 65
63 1 3.1 75 72
64 1 3.4 64 86
66 1 3.5 64 84
68 1 3.5 53 66
70 1 3.3 55 77
71 1 3.2 70 65
75 1 3.7 60 72
76 1 3.8 83 78
81 1 3.2 77 65
85 1 3.5 64 67
87 1 3.3 69 78
88 1 3.3 71 61
89 1 3.4 82 67
91 1 3.3 70 84
93 1 3.3 55 60
97 1 3.9 72 76
7 2 3 54 62
9 2 2.7 56 61
11 2 3.1 63 60
14 2 3.4 53 71
17 2 3.5 57 61
18 2 3 60 77
24 2 3.2 44 65
25 2 2.5 36 53
26 2 3.2 66 67
28 2 3.1 57 65
29 2 2.7 57 58
30 2 3.3 63 66
33 2 3.1 56 67
34 2 3 57 72
37 2 3.1 66 58
38 2 2.9 55 62
39 2 3.1 50 67
51 2 3 63 54
54 2 2.8 59 67
55 2 3.1 60 73
56 2 3 66 66
57 2 2.8 46 58
58 2 2.8 49 76
62 2 2.9 60 68
65 2 3.5 56 80
67 2 2.4 49 46
69 2 2.7 55 63
72 2 3.1 51 59
73 2 3 54 68
74 2 2.8 49 53
77 2 2.7 47 69
78 2 3.1 62 63
79 2 2.6 59 45
80 2 2.6 52 65
82 2 3.3 55 50
83 2 3 56 77
84 2 2.8 53 60
86 2 3.6 71 65
90 2 3.1 54 67
92 2 2.6 62 50
94 2 3.3 57 62
95 2 3.5 62 68
96 2 2.5 55 62

このデータに対して判別分析を実施可能かどうかチェックする。

正規性と共分散性のチェック

コルモゴロフースミルノフ検定による正規性のチェック。

すべてにおいて正規性が確認された

等共分散性が認められた

以上により、判別分析が可能である。

判別分析

判別分析の結果

判別得点は

 判別得点=2.100*内申+0.163*模試1+0.103*模試2-23.980

となる。

判別の分点は0である

実測値から求めた誤判別の割合は

 合格を不合格とする割合は18.5%、不合格を合格とする割合は14%

となる。

各係数の有効性の検定で、5%の有意水準で有意でない変数は

 一番右端の確率値で0.05より大きいものなので、内申となり、確率は0.0954

となる。

こんどは内申を取り除いた2群のデータで再度判別分析を実施する。

新しい判別分析
No 合否 模試1 模試2
1 1 73 81
2 1 75 66
3 1 65 67
4 1 71 91
5 1 74 85
6 1 83 77
8 1 64 86
10 1 62 75
12 1 74 74
13 1 55 69
15 1 60 82
16 1 61 54
19 1 67 79
20 1 63 62
21 1 72 77
22 1 68 75
23 1 65 75
27 1 67 77
31 1 85 85
32 1 63 70
35 1 75 80
36 1 67 89
40 1 62 78
41 1 67 82
42 1 70 86
43 1 61 72
44 1 67 66
45 1 66 68
46 1 60 73
47 1 69 89
48 1 67 71
49 1 59 64
50 1 61 83
52 1 58 66
53 1 82 75
59 1 80 66
60 1 77 71
61 1 69 65
63 1 75 72
64 1 64 86
66 1 64 84
68 1 53 66
70 1 55 77
71 1 70 65
75 1 60 72
76 1 83 78
81 1 77 65
85 1 64 67
87 1 69 78
88 1 71 61
89 1 82 67
91 1 70 84
93 1 55 60
97 1 72 76
7 2 54 62
9 2 56 61
11 2 63 60
14 2 53 71
17 2 57 61
18 2 60 77
24 2 44 65
25 2 36 53
26 2 66 67
28 2 57 65
29 2 57 58
30 2 63 66
33 2 56 67
34 2 57 72
37 2 66 58
38 2 55 62
39 2 50 67
51 2 63 54
54 2 59 67
55 2 60 73
56 2 66 66
57 2 46 58
58 2 49 76
62 2 60 68
65 2 56 80
67 2 49 46
69 2 55 63
72 2 51 59
73 2 54 68
74 2 49 53
77 2 47 69
78 2 62 63
79 2 59 45
80 2 52 65
82 2 55 50
83 2 56 77
84 2 53 60
86 2 71 65
90 2 54 67
92 2 62 50
94 2 57 62
95 2 62 68
96 2 55 62
正規性と等共分散性のチェック

コルモゴロフースミルノフ検定による正規性のチェック。

正規性のチェック。すべてに正規性が認められた

等共分散性が認められた

以上により、内申を除いたデータで判別分析を実施する。

判別分析

判別分析の結果

判別得点は

 判別得点=0.199*模試1+0.131*模試2ー21.348

となる。

実測値から見た誤判別の割合は

 合格を不合格とする割合は14.8%、不合格を合格とする割合は14%

である。

以上により、内申を入れた判別分析と内申を取り除いた判別分析に大した差はないと判断できる。

No1の判別得点は3.782となる。

新しいデータで、内申3.4、模試1で65、模試2で70をとった人の判別得点は

  0.199*65+0.131*70-21.348

 =0.757

となり、判別の分点が0より大きいので合格となる。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。