実践統計学入門 実験計画法 分散分析 直交表

はじめに

実験計画法とは

①異なるいくつかの条件下でデータを求めること

②①の間に差があるかどうかを検討すること

総称である。

重要

①の代表格は直交表への割り付け、etc

②の代表格は分散分析、etc

②をもう少し詳しく述べると、

2群間の量的データの比較ではt検定

3群以上(2群でもかまわないが)の比較では分散分析

と使い分けるのがいい。

t検定と分散分析の違いは、t検定は平均値を用いて、群間に差があるかどうかを調べるのに対して、分散分析は分散を用いて、群間に差があるかどうかを調べる方法である。

1元配置分散分析

おい、3つの条件で商品の売上を調査したんだ

ご苦労様です

ほれ、これがデータだ

これは対応のあるデータですか?

知らん。ある場合とない場合にわけて結果をだしてくれ。いいな

また無茶ぶりですか……

1元配置分散分析(対応がない場合)

実験計画法を用いて検定することにする。

実験計画法の流れ。対応のあるデータにチェックをいれると繰り返しのない2元配置分散分析とフリードマン検定が選択可能になる。

渡されたデータ。有意水準5%で判定を行う

群別データにチェックを入れて、正規性の検定をシャピローウィルク検定で行う。

シャピローウィルク検定の結果。すべてに正規性がある。

2群の場合はF検定を実施したが、3群以上の場合はバートレット検定で等分散性を検定する。

バートレット検定の結果

確率0.92で等分散性があるといえるので、一元配置分散分析を行う。

一元配置分散分析の結果。

検定確率0.0028で、条件の間に差があるといえる。

プルドt検定の結果。有意水準0.05以下のものが、条件間に差があると判定する

この表から、有意水準5%より小さいものに差があるので、その条件どうしは、条件1と条件2、条件2と条件3となる。(条件1と条件3の間には差がない)

1元配置分散分析(対応がある場合)

対応のあるデータからにチェックをいれて、正規性の検定を行う。

シャピローウィルク検定の結果。すべてに正規性がある。

すべてに正規性があることより、繰り返しのない2元配置分散分析を行う。

繰り返しのない2元配置分散分析の結果

分散分析表

この結果より、検定確率0.0088で有意水準0.05より水準間に差があることがわかる。

2元配置分散分析

問題1

作物の品種と肥料の組み合わせによる収穫量を表したデータである。2 元配置分散分析を用いて判定せよ。

収穫量に対する品種と肥料の2元配置データ
解答1

先頭列で群分けにチェックをいれて、二元配置分散分析を実施する。

2元配置分散分析結果

分散分析表

以上により、品種水準間と肥料水準間に差はなく、交互作用のみに差がある。ここで、重要なのは、2元配置分散分析では、交互作用まで評価できることである。

演習

問題1

以下のデータは3つの工場群の不良品率を与えたものである。各群に差があるといえる
か、実験計画法を用いて有意水準 5%で検討せよ。

3群の不良率のデータ
解答1

シャピローウィルク検定の結果。すべてに正規性がある。

バートレット検定の結果。検定確率0.7269より等分散性が認められた。

以上より1元配置分散分析を実施する。

1元配置分散分析の結果

検定確率0.0047より、群別の平均間に差があるといえる。

プルドt検定の結果。有意水準0.05以下のものに差があると判定する

この結果より、不良率1と不良率2,不良率1と不良率3の条件間に差があるといえる。

問題2

4つの群のデータであるが、各群に差があるといえるか、実験計画法を用いて有意水準 5%で検討せよ。 

与えられたデータ
解答2

正規性の検定。すべてに正規性があると認められる

バートレット検定の結果。等分散性は認められなかった。

以上により、クルスカルーウォリス検定を実施する。

クルスカルーウォリス検定の結果

検定確率0.2371より、群間に差があるとはいえない。

直交表

直交表分散分析とは、少ない実験回数で要因の効果と要因間の交互作用を測定し、分析する方法である。

コンジョイント分析とは、は直交表分散分析と数量化Ⅰ類を合わせた分析である。直交表分散分析では直交表によって実験の組み合わせを考え実験計画を立てるが、コンジョイント分析ではアンケートの中で商品の特徴を効率よく組み合わせるために直交表が使われる。

コンジョイント分析は数量化Ⅰ類(0/1 データに変換して重回帰分析)の処理を行うのであり、マーケティングへの応用というとらえ方の他に、直行表実験計画法の処理のひとつというとらえ方も必要である。

問題1

以下のデータは直交表に要因A,Bと交互作用A*Bを割り付けたものである。有意水準5%で分析せよ。

要因A,Bと交互作用A*Bを割り付けたL8直交表
解答1

P値をみると有意水準5%以下になっているものはA*Bの交互作用のみである

この最小水準と最大水準は次の通り。

最小水準と最大水準。A*Bの交互作用のみ抽出されている

次にこの実験計画に対して、コンジョイント分析(数量化Ⅰ類)を行う。

カテゴリウェイト

水準グラフ

この結果より、dataに効果があるのはA1、B2、A*B2である。

数量化Ⅰ類の直線はカテゴリウェイトを用いて

 0*A1+1.25*B2+3.75*A*B2+66.5

となる。

寄与率が0.783より約78%がこの式で説明できることを示している。

結合確率によって、Bが一番重要性が高い。

P値が0.0018で、P値<0.05より各要因は有意であるといえる。

問題2

以下のデータは直交表に要因A,B,Cと交互作用A*B、A*Cを割り付けたものである。有意水準5%で分析せよ。

要因A,B,Cと交互作用A*B、A*Cを割り付けたL8直行表
解答2

P値をみると有意水準5%以下になっているものはA*Bの交互作用のみである

最小水準と最大水準。A*Bの交互作用のみ抽出されている

次にこの実験計画に対して、コンジョイント分析(数量化Ⅰ類)を行う。

カテゴリウェイト

水準グラフ

この結果より、dataに効果があるのはA2、B1、C2、A*B2、A*C2である。

数量化Ⅰ類の直線はカテゴリウェイトを用いて

 1*A2+0*B1+0.5*C2+4*A*B2+1.5*A*C2+19.75

となる。

寄与率が0.949より約95%がこの式で説明できることを示している。

結合確率によって、Cが一番重要性が高い。

P値が0.0210で、P値<0.05より各要因は有意であるといえる。

おわりに ブラックボックス化のすすめ

統計手法はパソコンの発展にともない、無料で十分な機能を持ったものが多く登場している。Rをはじめとして、ここで採用したCAnalysis、HADなど数え上げればきりがないほどである。

エンドユーザーとして統計を使うものにとっては(解析には理論が必要になるのだが)もはや理論は必要ない。ブラックボックス化しても十分に役割を果たすことができると考えている。

エンドユーザーは、解析に時間をつかうより、インプットであるデータの構造、つまり何のためにそのデータを集め、どういう構造でデータを整理し、どんな手法で解析するかに心を砕くべきであり、アウトプットをキチンと解釈することに時間を費やすべきである。解析はブラックボックスで構わない。

これは経営ダッシュボードにもいえる話である。グラフの作成は重要だが、なにを知りたくてそのグラフを描いたのかを十分に把握していなければ、徒労に終わる。

ここで紹介した統計手法と経営ダッシュボードを駆使すれば、医療関係など特殊な分野は別にして、解析に不満はないはずである。

解析の目的は、大雑把にいえば次のステップ、次の一手、次のアクションを求めるためであり、解析自体を目的にしてはならない。

読者諸賢が有意義な解析を行って、次のアクションへと進んで欲しい。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。