実践統計学入門 t検定(量的データ)

はじめに

統計検定のなかで、量的データを扱うt検定のうち3種類を扱う。検定の手順は大まかにいえば決まっていて、以下のようになる。

t検定の概略図

このうち判断が難しいのが母平均との比較、2群間の比較、対応のあるなし、である。

母平均と2群間の違いは、集計表のデータが一次元(たとえば1列)の場合は母平均、それ以外(たとえば2列)の場合は2群間となる。

対応のあるなしは、1つの個体が2つの集団に属する場合は対応があるという。
たとえば、ある健康サプリメントを飲む前と後では一人の人間が飲む前の集団と飲んだ後の集団の両方に属するので、対応がある、という。

これ以外はすべて対応がないと判断する。

正規性に関しては、シャピローウィルク(S-W検定)でおこない、正規確率紙へのプロットで確認する。

等分散性に関しては、F検定で行う。(F検定とは等分散性を検定する手法である)

2群において、一方が正規性あり、一方が正規性なし、の場合は正規性なしとみなして検定する。

F検定の場合、一方が等分散、一方が異分散の場合は等分散性なしとする。

ミカンは甘いか酸っぱいか

おい、このミカンを喰ってみろ

うぁ……、こりゃあ、酸っぱいですなぁ

そうだろう。こっちを喰ってみろ

こっちは甘い。いけますな

酸っぱい方は肥料Aで作ったもの、甘い方は肥料Bで作ったものなんだ

なら、肥料Bで決まりですな

軽々しく断定するんじゃねえッ。本当のことをいえば肥料AにもBに負けないぐらい甘いものがあったんだ。ほれ、データだ。肥料AとBに差があるかどうか調べろッ。いいな

そういう魂胆だったんですな

2群間の比較と対応

この場合、肥料A、Bとあるので2群間の比較となる。ひとつのミカンはひとつの集団(たとえば肥料AならA)にしか存在しないので、対応はなし、となる。

従って、解析手法は正規性と等分散性を調べて決定すればいい。

データと正規性の検定

与えられた2群のデータ 対応はない
肥料A,Bの基本統計量とS-W検定による正規性の確認
肥料A,Bの正規確率紙へのプロット
等分散性の検定

肥料A,BのF検定の結果

2群に対応がなく、肥料A,Bに正規性と等分散性があることにより、t検定で解析する。

t検定

t検定の結果

この結果により、肥料A,Bの間に差はあり、肥料Bの方が甘いと判断できる。

埼玉県と千葉県、どっちが偉いか

おい、お前は埼玉と千葉どっちが偉いと思うか?

……なんなんです、いきなり。そんなもの尺度が違えば結果も違うでしょうに

だから、お前はバカだというんだ。いいか。オレたちがもっているのは埼玉県と千葉県の出店数と売上だけだろうが

……そりゃ、そうですが……

だからよぉ、そいつを比較してどっちが偉いか決めてくれや。ほれ、データだ

ふぅ……。(思いつきでやられたんじゃ、たまらんな)

2群間の比較と対応

埼玉県と千葉県の店舗であるので、ひとつの店が両方にまたがることはないので、対応がない、と判断する。

データと正規性

埼玉県と千葉県のデータ
埼玉県と千葉県の基本統計量とS-W検定

正規確率紙へのプロット

埼玉県は正規性があるが、千葉県は正規性がない。そこで正規性なしとしてウィルコクソンの順位和検定を実施する

ウィルコクソンの順位和検定

ウィルコクソンの順位和検定の結果

この結果により、差があるとはいえない(つまり、差がないとみなすことができる)ので、埼玉県も千葉県も両方とも偉いのである。

お客の心をくすぐれ!

おい、販売を促進するために、1000円以上お買い上げのお客にはポイント5倍というのを考えたんだ

(なんと、まあ、安直な)……とてもいい考えだと思います

それでな、3カ月が過ぎたんでデータが採れたんだ。あとはわかっているよな、ええッ

十二分に……

2群間の比較と対応

ポイント5倍の前と後で、ふたつの集団のなかにひとつの個体(お客)が入っていると考えられるので、対応がある、と判断する。

データと正規性の検定

対応のあるデータ
基本統計量とS-W検定の結果

正規確率紙へのプロット

この結果から、販促前は正規性があるが、販促後は正規性がない。対応のある2群間のデータで正規性がないとみなして、ウィルコクソンの符号付順位和検定を実施する。

 

 

ウィルコクソンの符号付順位和検定

ウィルコクソンの符号付順位和検定の結果


この結果より、販促前と販促後では差があり、販促は十分に機能したと判断できる。

練習問題(gmanual02_1基本統計量1.pdf より抜粋)

問題1

問題1
解答

この場合、データが一列のみであるので、母平均との比較を実施する。

S-W検定の結果と正規確率紙へのプロット

この結果より、正規性があることから、母平均のt検定を実施する。

母平均のt検定 結果

従って、差がない、といえる。

問題2

問題2
解答

S-W検定の結果と正規確率紙へのプロット

この結果により、正規性はない、と判断できるのでウィルコクソンの符号付順位和検定を実施する。

検定結果

これにより、差がある、といえる。

問題3

問題3のデータ
解答

S-W検定の結果と正規確率紙へのプロット

この結果により、正規性がある、と判断できるので母平均のt検定を行う。

母平均のt検定 結果

これにより、差があるとはいえない

問題4
演習6.txtのデータ

性別で1が男子、2が女子

問題4
解答

1)分割表の作成により、男女の数を一元分割表にまとめる。 

分割表により男女の数を求める

2)基本統計量を求めて、平均値、中央値、標準偏差を求める。

基本統計量のなかから、題意にそうものを拾い出す

3) 2)より標準偏差の広がりが大きいものは英語である。

4)英語・数学・国語の順でヒストグラムが並んでいるので、最頻値は50~60の間であることより、55点となる。

5)性別による基本統計量を求める。

性別で分けたそれぞれの統計量

6)ヒストグラムから40点~50点のところが最頻値となるので、45点となる。

7)

S-W検定の結果

正規性がみとめられるのは、数学(確率は0.3859)と国語(確率は0.5390)である。また正規性がみとめられないのは英語(確率は0.0007)である。

8)

性別による英語の正規性

この結果より、性別(男子の確率は0.0038、女子の確率は0.0065)による正規性は認められない。

9)

男女別の数学の結果

S-W検定の結果、男子は確率0.1569で正規性があり、女子は確率0.5716で正規性がある。

10)

男女別の国語の結果

S-W検定の結果、男子は確率0.8307により正規性があるとみなすことができるが、女子は確率0.0401により正規性はないとみなされる。

11)

英語の正規性の検定

S-W検定の結果、正規性がないことより、ウィルコクソンの符号付順位和検定を用いる。

検定結果

英語の検定の結果、確率0.4269で、差があるとはいえない。

12)

数学の正規性の検定

S-W検定の結果、数学は正規性があるといえる。

数学の母平均のt検定の結果

母平均のt検定の結果、数学は確率0.0000で、平均値との間に差があるといえる。

13)

性別:2>が女子である。正規性の検定結果

S-W検定の結果、女子の英語に正規性はないと判断できる。

性別:2>が女子。ウィルコクソンの符号付順位和検定の結果

この結果より、女子の英語は確率0.0237で差があるといえる。

問題5

2群のデータ
解答

2群の正規性の検定 この結果より、2群それぞれで正規性があるとみなされる。

2群の正規確率紙へのプロット。左が1群、右が2群

2群には対応がなく、正規性があることより、F検定を用いて等分散性を調べる。

F検定の結果

与えられたデータに対応がなく、1群と2群に正規性と等分散性があるとみなすことができるので、t検定を用いる。

t検定の結果

t検定の結果により、確率0.0228で平均値に差があるといえる。

問題6

与えられた2群間のデータ
解答

正規性の検定

与えられたデータに対応がなく、一方(1群)が正規性があり、他方(2群)に正規性がないとみなすことができるので、正規性なし、としてウィルコクソンの順位和検定を実施する。

ウィルコクソンの順位和検定の結果

確率0.3403で、2群の中央値の間に差があるとみなすことはできない。

問題7

与えられたデータと問題
解答

この2群間のデータには対応がないので、正規性の検定を行う。

正規性の検定の結果 1群、2群ともに正規性があるとみなすことができる

正規確率紙へのプロット

2つの群に対応がなく、正規性があることにより、F検定を用いて等分散性を調べる。

F検定の結果 等分散性がみとめられる

以上の検定結果より、t検定を用いて2つの群の関係を調べる。

t検定の結果 差があるとはいえない

確率0.1217で2群の平均値間に差があるとはいえない。

問題8

与えられたデータと問題
解答

この2つの群の間には対応がないので、正規性を調べる。

正規性の検定の結果 1群、2群ともに正規性があるとみなすことができる

正規確率紙へのプロット

以上より、対応がなく、正規性があるとみなすことができるので、F検定で等分散性を調べる。

F検定の結果 等分散性がみとめられない

以上の結果、対応なし、正規性あり、等分散性なし、ということよりウェルチのt検定を実施する。

ウェルチのt検定の結果

確率0.1401で2つの群の間に差があるとはいえない。

問題9

与えられたデータと問題
解答

与えられたデータから、対応はないので、正規性の検定を行う。

S-W検定の結果 2つの群に正規性がみとめられる

正規確率紙へのプロット

以上のことにより、対応なし、正規性あり、となったので、F検定を行い、等分散性を確認する。

F検定の結果 等分散性がみとめられる

これらのことにより、対応なし、正規性あり、等分散性あり、となったのでt検定を実施する。

t検定の結果

確率0.0246で、2つの群の間に平均値間に差があるといえる。

問題10

問題4の演習6.txtのデータを用いて次の問いに答えよ

問題1)~14)まで
解答

1)

1は男子、2は女子 一元分割表

これにより、男子は20名、女子は22名となる。

2)

基本統計量のなかから、題意にそうものを拾い出す

解答

3)

基本統計量のなかから、題意にそうものを拾い出す

解答

4)

2)の平均値より国語(62.024)、3)より標準偏差が一番大きい英語(15.9)となる。

5)

相関係数行列 解答

6)

対応なしの条件のもとで、正規性の検定を行う。

英語に正規性なし、数学に正規性ありとみなせる

この結果により、英語と数学には正規性なしと判断する。

ウィルコクソンの順位和検定の結果

確率(0.8334)で中央値間に差があるとはいえない。

7)

対応なしの条件のもとで、正規性を検定する。

正規性の検定の結果 数学、国語ともに正規性があるとみなすことができる

数学・国語ともに正規性があることにより、F検定から等分散性を検定する。

F検定の結果 等分散性がみとめられない

対応なし、正規性あり、等分散性なし、ということより、ウェルチのt検定を実施する。

ウェルチのt検定の結果

これにより、数学と国語の平均値間に差があるとはいえない。

8)

対応がない、という条件のもとで正規性の検定を行う。

正規性の検定の結果 英語は正規性なし 国語は正規性ありとみなせる

正規性の検定より、正規性なし、と判断してウィルコクソンの順位和検定を実施する。

ウィルコクソンの順位和検定の結果

確率(0.7643)で、英語と国語の中央値間に差があるとはいえない。

9)

基本統計量のなかから、題意にそうものを拾い出す 1は男子 2は女子

10)

基本統計量のなかから、題意にそうものを拾い出す 1は男子 2は女子

11)

男女間となっていることにより、対応はなし、と判断できる。正規性を検定する。

男女別の英語の結果

正規性がないことより、ウィルコクソンの順位和検定を実施する。

内容

両側確率(0.0189)<0.05より、男女間に差があるといえる。

12)

男女間となっていることにより、対応はなし、と判断できる。正規性を検定する。

正規性の検定の結果

対応なし、正規性あり、ということより、F検定で等分散性を検定する。

F検定で等分散性の検定の結果

片側確率(0.02)<0.025より等分散性はないと判断できる。これによりウェルチのt検定を実施する。

ウェルチのt検定の結果

確率(0.1956)>0.05より、男女間に差があるとはいえない。

13)

男女間となっていることにより、対応はなし、と判断できる。正規性を検定する。

男子の国語は正規性があるが、女子の場合は正規性がない

対応がなく、正規性がないことより、ウィルコクソンの順位和検定を実施する。

ウィルコクソンの順位和検定の結果

確率(0.0051)<0.05より男女間に差があるといえる。

14)

対応のない2群間の量的データの比較の検定手法で、最も一般的に使えるのは
ウィルコクソンの順位和検定 ]検定で、逆に最も制約が多いのは[]検定である。しかし[正規性 ]や等[分散性 ]などの制約が満たされるとき、後者は最も2群間の差を見つけ[やすい]検定となる。 

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。