実践統計学入門 コンジョイント分析

はじめに

ここでは、実験計画法の応用であるマーケティング分野のコンジョイント分析を行う。

コンジョイント分析とは、説明変数が0,1のダミー変数で、この変数を統計学の1分野である実験計画法の直交表に割り付けているのが特徴である。目的変数は量的な変数であるところはいままでと変わりはない。解析手法は重回帰分析を使う。

お断り

実験計画法では、要因、水準といった用語があるが、解析手法が重回帰分析なので、いままで通り、目的変数、説明変数という言い方をする。いままでの要因といった言葉も使うが、これは実験計画法とは無関係だと考えていただきたい。

ただし、目的は重回帰式を作ることではなく、目的変数に対してどの要因が利いているのかを調べることにある。

重回帰分析は重回帰式によって予測を中心に行ってきたが、重回帰分析との違いはコンジョイント分析は要因分析に特化しているところである。(もちろん重回帰分析も要因分析の側面を持っていることは明らかであるが)

注意

説明変数が0,1のダミー変数で目的変数が量的なものに、数量化Ⅰ類がある。もちろん説明変数が直交表に割り付けてあっても構わないし、直交表と無関係でもかまわない。
数量化Ⅰ類も重回帰分析の1種類であるからコンジョイント分析に適用できるのだが、混乱する原因となるので、コンジョイント分析は重回帰分析を使う。

女性専用の弁当を作れ!

おい、あの弁当屋、どうやら女性専用の弁当を企画しているらしいぞ

ほう……、まあ、あそこはガッツリ系というか、男性向けとスポーツ関係の人が多いらしいですからね

そこで、弁当屋の大将が女性向け専用を作って客層の幅を広げたいんだそうだ

そうですか。しかし……、よくそんな情報を仕入れられますねぇ

まあ、おれの幅広い人脈の一環としておこうか

(幅広い人脈って……大物政治家や大企業じゃないんだ)……、大したものですね。どんなものができるか楽しみですね

別に楽しみじゃねえ。なぜかわかるか?おまえがこのアンケート結果を集計して作るからさ

え、私が……

物はL18直交表に割り付けたアンケート調査だ。いいな、おれに恥をかかせるなよ

……、はあ、まあ、できる限りやってみますゎ

目的変数のチェック

L18直交表の18行に対して食べたいかどうかを点数づけして平均したもの

点数は食べたいが10点、普通が5点、食べたくないが0点とした3段階の平均値である。

目的変数の基本統計量とコルモゴロフースミルノフ検定
ヒストグラムと箱ひげ図 飛び離れた値は存在しない

この結果から、満足かどうかの目的変数は正規性があり推定・検定が可能である。また飛び離れた値は存在しないので、このまま解析してもよさそうである。

注意

今回はL18直交表により、目的変数の数が18あったので、いつも通りの正規性の検定などを行うことができたが、直交表でL4・L8・L9といったものを検定するのは難しい。この場合、統計ではとても便利な言葉があって

目的変数は正規分布に従うと仮定すると

といった表現である。これが免罪符となって解析が可能となる。

説明変数のチェック

直交表に割り付ける最大の利点は各説明変数が独立(つまり無相関)であるということである。多重共線性などの心配はなく、そのまま解析できる点が非常にいい。

ただ割り付けをダミー変数に変換するのに骨が折れるかもしれないが、いまの統計解析ソフトはそれも自動でやってくれるので、割り付けだけに集中すればいいということになる。

主菜・副菜・味・量などといったものを要因、直交表に割り付けた魚・肉、和・洋・中などを水準というが、お断りで書いたように説明変数で通す。

各要因と水準の関係は次の通りである

主菜は魚と肉
副菜は甘い・中辛・辛い
味(テイスト)は和風、洋風、中華風
量(野菜の量)は少ない・普通・多い
栽培(野菜の栽培方法)は慣行栽培・減農薬栽培・有機栽培
米(米の種類)は白米・玄米・五穀米
熱量(Kcal)は500・600・700

価格(円)は470円・550円・640円

直交表に割り付けたものを、0,1のダミー変数に置き換えた表
コンジョイント分析
注意

解析方法で、冗長化を防ぐためという理由で、各説明変数を1列づつ削って解析する方もいる。ここでは削らずに解析を進め、のちに冗長化を排した方法でもう一度解析をするので結果を見比べて欲しい。

コンジョイント分析の結果 寄与率は0.994と非常に高い

各説明変数のウェイトを表したグラフ

ここで、コンジョイント分析では各説明変数のうち値の大きいものを選択して、この場合は弁当を作成するのである。

表からは、主菜は肉、副菜は辛い、味は和風などといったように取り上げる。

グラフからは、左から5番目(表で確認すると栽培があてはまる)がもっとも関心がある項目ということがわかる。(その次が熱量(カロリー)である)

こういったことをまとめると、女性専用弁当の全体図は次のようになる。

主菜は肉(0.6967)、副菜の味付けは辛い(1.3167)、味は和風(1.06)、野菜の量は普通(0.375)、野菜の栽培は有機農法(2.805)、米は玄米(0)、熱量(カロリー)は600Kcal(0.4833)、価格が550円(0.755)、そして定数項が0.5483

満足度は上にあげた数値を定数項まで加えれば、8.04となり(3段階評価で10点がもっとも高いのでそれに近い数値がでた)、寄与率も0.994と非常に高いので、これだけで十分な弁当が作れるはずである。

冗長化の排除(ランク落ちを防ぐ)は必要か

冗長化を防ぐために説明変数の1つをおとして解析する方もいると書いた。ここまでは冗長化を承知の上で解析したのであるが、果たして、違いが出るのかどうかをここで確認する。

目的変数は正規分布に従っていると仮定し、各説明変数の1列を落とした。

落としたものは以下の通りである。

主菜は肉系、副菜は辛い、味付けは中華風、野菜の量は多め、野菜栽培種別は有機野菜、米の種類は五穀米、カロリーは700Kcal、価格は640円

0,1のダミー変数の表は以下のようになる。

0,1のダミー変数の表 各水準の1列を落とした。

これに対してコンジョイント分析を実行する。

コンジョイント分析の結果 重回帰ウェイトで落とした列は0になる

この表をまとめると以下のようになる。

主菜:魚系(-0.6967)、肉系(0)

副菜:酸っぱい(-0.9517)、マイルド(-1.3167)、辛い(0)

味(テイスト):和風(1.06)、洋風(0.8317)、中華(0)

量(野菜の量):少ない(0.1783)、普通(0.5533)、多い(0)

栽培(野菜の栽培方法):慣行栽培(-2.805)、減農薬栽培(-1.8433)、有機栽培(0)

米(米の種類):白米(0.4517)、玄米(0.905)、五穀米(0)

熱量(Kcal):500Kcal(1.3617)、600Kcal(1.845)、700Kcal(0)

価格(円):470円(-0.5467)、550円(0.2083)、640円(0)

この表のなかで数値が大きいものを選択すれば女性専用の弁当になる。

主菜は肉(0)、副菜は辛い(0)、味(テイスト)は和風(1.06)、量(野菜の量)は普通(0.5533)、栽培(野菜の栽培方法)は有機栽培(0)、米(米の種類)は玄米(0.905)、熱量(Kcal)は600Kcal(1.845)、価格(円)は550円(0.2083)、定数項は3.4683

満足度は上にあげた数値を定数項まで加えれば、8.0339となり(3段階評価で10点がもっとも高いのでそれに近い数値がでた)、寄与率も0.994と非常に高いので、これだけで十分な弁当が作れるはずである。

重要

この結果を見る限りにおいては、寄与率が冗長化なるものを排した方も0.994と結果が変わっていない。満足度もまったく変わらない(正確にいうと0.0061悪くなっている)。こんなものは誤差の範囲ですらないだろう。
また、取り上げる説明変数も同じものである。

この結果を踏まえれば、1列取り除こうがそのまま計算しようがどちらでもいい。というよりも冗長化というのはまったくの別物であって、少なくとも交互作用を考慮した直行表に割り付けていなければ気にする必要はないと考える(コンジョイント分析はその代表例である)。理由は説明変数間が独立(無相関)しているからである。

解析手順

説明変数、目的変数の設定(今回は省略)
目的変数のチェック(正規性、飛び離れた値など)

説明変数のチェック(直行表への割り付け、0,1のダミー変数へ変換など)

解析(重回帰分析)

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。