実践統計学入門 数量化Ⅰ類

はじめに

コンジョイント分析で数量化Ⅰ類でも可能だと記述した。今回は直行表に割り付けられていない説明変数の0,1のダミー変数を扱う。

数量化Ⅰ類も重回帰分析のひとつなのだが、力点は回帰式をつくることよりも、要因分析が主たる目的となる。

手順は重回帰分析と同様に次のようになる。

説明変数と目的変数の設定

目的変数のチェック(正規性、飛び離れた値など)

説明変数のチェック(0,1のダミー変数への変換、多重共線性など)

数量化Ⅰ類の解析

残差(正規性のチェック)

数量化Ⅰ類の分析

客足を増やせ!

おい、うちの店舗で客足が伸び悩んでいるところがあるんだ

……そうですか

そうですかっていう返事があるか。大ごとだと思わんのか?

思います

じゃあ、どうすりゃいいんだ?

店舗マネージャーや店長、エリア担当者にカツを入れればいいんじゃないんでしょうかねぇ

そんなことで、客足があがるんなら、どこだって苦労はせんわい

おっしゃる通りで……

ほれ、その店舗の1か月間の客数と曜日、天気、特売日のデータだ。なんとしても客足を伸ばす方策をたてるんだ。いいな

……まあ、……やってみますよ……

説明変数と目的変数の設定

与えられたデータを見てみる。

与えられたデータ 目的変数は数量だが説明変数は定性的なデータ

これを分析するには、数量化Ⅰ類を使うしか手はないだろう。

目的変数のチェック
目的変数の基本統計量とコルモゴロフースミルノフ検定
目的変数のヒストグラムと箱ひげ図

検定結果より、目的変数には正規性があり、グラフからも飛び離れた値は存在しないので、解析は実行できる。

説明変数のチェック

与えられたデータを0,1のダミー変数変数に変換する。

説明変数をダミー変数0,1に変換した表 これを使って数量化Ⅰ類を行う

多重共線性のチェックを行う。

説明変数間の相関係数行列 相関はほとんどない
数量化Ⅰ類の解析

数量化Ⅰ類の解析結果

寄与率が0.729とまあまあの値を示しているので、説明変数が目的変数に対しておよそ73%説明していると考えられるが、この段階でこれが成功したかどうかはわからない。残差を検討する。

残差
残差の基本統計量とコルモゴロフースミルノフ検定
残差のヒストグラムと箱ひげ図 飛び離れた値は存在しない

実測値と予測値の散布図

残差の検定で正規性があることより、数量化Ⅰ類の解析は成功したと判断できる。

数量化Ⅰ類の分析

数量化Ⅰ類の重回帰ウェイトを再掲しておく。

説明変数と重回帰ウェイトの表

この表により説明変数別の数量化Ⅰ類の回帰式が求まり、客足が予測できる。

【日曜日・雨・特売日の場合】

客数=172.3662+0+0+568.7092

  =741.0754

このようにして客足の予測ができるので、重回帰ウェイトの説明変数ごとの最大値をとって客足を予測する。

【日曜日・晴れ・特売日の場合】

客数=172.3662+98.7398+0+568.7092

  =839.8152

となり、約840人が来店すると予測できる。

最大の改善点は特売日の設定である。5のつく日を特売日に設定しても必ずしも日曜日になるとは限らないので、まず特売日の見直しをしなければならない。理由は特売日中止の場合、約247人が来店しないからである。

また、定休日も火曜日にした方がいい。晴れたとしても約99人の増加が見込めるだけで、特売日の有無を考慮すれば、休みにした方が固定費がかからずに済むだろう。

パチンコ必勝法

おい、昨日パチンコで大負けしちまったんだ

ふーん……、それはお気の毒に

そこでリベンジしてやろうと思ってな

はあ、立派なご決意で……

ほれ、パチンコ屋のデータだ。これで勝てるようにしてくれ

そんなの無茶ですよ。できるわけがないでしょうに

いいな。こんどオレ様が負けたら、負け金はお前持ちだからな

そんな、理不尽な……

説明変数と目的変数の設定

渡されたパチンコ屋の売上データ

この表から説明変数は曜日と天気、目的変数はパチンコ売上になる。

目的変数のチェック
目的変数の基本統計量とコルモゴロフースミルノフ検定
目的変数のヒストグラムと箱ひげ図

目的変数には正規性があり、グラフより飛び離れた値はなさそうなので、数量化Ⅰ類の解析はできる。

説明変数のチェック

説明変数をダミー変数0,1に変換した表 これを使って数量化Ⅰ類を行う

相関係数行列から多重共線性はない

説明変数に多重共線性はないので、数量化Ⅰ類の解析に入る。

数量化Ⅰ類の解析

数量化Ⅰ類の解析結果

寄与率をみると、曜日と天気で売上の86%を説明できることになる。さらにP値が0ということは、偶然に起こったものではない、何かしら意味がある、と考えてよさそうである。

残差
残差の基本統計量とコルモゴロフースミルノフ検定
飛び離れた値が確認できる

実測値と予測値の散布図 飛び離れた値が確認できる

残差を分析すると正規性があることから、飛び離れた値があるにせよ、この数量化Ⅰ類の解析モデルに特別な支障があるとは考えずらい。

数量化Ⅰ類の分析

説明変数とその重回帰ウェイト

パチンコ屋の売上が一番小さいときは、客足が遠のいているか、客が勝っている場合あるいはそのふたつがあわさっている場合だと考えられる。

従って、狙い目として取り上げる説明変数は以下のようになる。

曜日:木曜日

天候:曇り

この二つが重なった日にパチンコ屋へ行き、客が少なくなければ勝てるはずである。

混雑をさけろ!

おい、今度、姪っ子を連れてテーマパークへいくんだがな

そりゃあ楽しみですなぁ

だがな、オレは混雑は嫌いでな。待つのが嫌なんだ

そうですよね

ついでに言っておくと、野外のテーマパークだから雨も嫌なんだ

そりゃあ、そうでしょうな

ほれ、ここにそのテーマパークの半年分のデータがある。すぐにだからな。なんせオレは待つのが嫌いだからな

そうですか……はぁ

説明変数と目的変数の設定

半年分のデータを載せることは無理なので、説明変数は質的データ(曜日、天気、最高気温)、目的変数は入園者数で単位は千人である。

目的変数のチェック
目的変数の基本統計量とコルモゴロフースミルノフ検定

目的変数の正規確率紙へのプロット

検定結果と正規確率紙へのプロットを見ると、目的変数である入園者数に正規性はなかった。正規性がなければ推定・検定はできない。従って、解析はここまでである。この際だから、別のところへ行ってもらうしかないだろう。

仕方がないので、別のテーマパークの入園者数を目的変数として扱うことにした。説明変数は質的データ(曜日、天気、最高気温)、目的変数は入園者数で単位は千人であることに変わりはない。

再度目的変数のチェック
別のテーマパークの目的変数。基本統計量とコルモゴロフースミルノフ検定
目的変数のヒストグラムと箱ひげ図、正規確率紙へのプロット

これらの結果から、目的変数は正規性があると判断できるので、数量化Ⅰ類の解析へ進むことができる。

説明変数のチェック

説明変数の曜日、天気、最高気温を0,1のダミー変数へ置き換え(この表は割愛する)、次に多重共線性をチェックする。

相関係数行列から多重共線性はないと判断できる
数量化Ⅰ類の解析

数量化Ⅰ類の解析結果
残差

残差の基本統計量とコルモゴロフースミルノフ検定、および正規確率紙へのプロット

この結果から残差には正規性がないことがわかったので、数量化Ⅰ類の解析は失敗である。

これらのことから、テーマパークへは行きたい日に行ってもらうことになるだろう。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。