実践統計学入門 無料データ解析ソフトのダウンロード 1変量解析

はじめに

ここで行う統計解析は、数理統計学統計学の数学的背景、解釈の数学的・専門的なアプローチなどは一切行わず、統計を用いた問題解決のみに焦点を絞る。
基本的な事柄を提示し、なるべく専門用語を使わないように留意したので、曖昧で回りくどい表現が多くなることは承知しているが、致し方ないと考えている。

とくに断りがない限り本ブログの基本統計解析は以下に負っている。

【データ解析プログラム】

福井正康 教授(福山平成大学経営学経営学科)が開発した統計解析ソフト

福井正康 教授には素早い対応をしていただき、また快く承諾していただいたことを、心より感謝申し上げます。ありがとうございました。

【データ解析プログラム 無料ダウンロード】

福山教授が開発したソフトの無料ダウンロード先のリンク先

画面を下にスクロールしてCAnalysis.zipをクリックしてください。

Windows11では「WinidowsによってPCが保護されました」という警告メッセージが出ると思いますが、問題はありません。
左上の「詳細情報」クリックし、表れた「実行」ボタンをクリックして下さい。セキュリティソフトがブロックしなければダウンロードできます。

【無料統計ソフトの勧め】

いまの時代、EXCELの分析機能で統計解析をやるのは無理である。できないとはいわないが、機能はだいぶ限られている。

無料で高機能のソフト(福山教授のソフトもその1つ)がかなり出回っているのだが、ただ、Rとかは高機能すぎるしS言語も覚えないと使えないなど、初学者、入門者にとっては敷居が高すぎる。HADをはじめ無料統計解析ソフトはかなりあるので、そのなかで自分に見合ったソフトを見つけるのが一番いいと考えている。

福山教授のソフトの数ある利点のひとつはEXCELとの連携の上に成り立っていることである。EXCELでデータを作り、CAnalysisで解析し、結果をEXCELにコピペすれば解析は終わりである。

しかも、高機能なので、特殊な分野以外では不自由はないはずである。

また、マニュアルも充実しているので、自分の目的に合ったものをダウンロードすれば操作・解析に困ることはないだろう。

sites.google.com

CAnalysisを使いこなして、統計が誰にでも簡単に「使えるデータ分析」となりますように。

とんかつ増しまし丼を救え

本社にて

おい、とんかつ増しまし丼でクレームがかなり殺到しているんだ。なんでも肉の量がその日によって違うとかいってな

……、増しまし丼は人気商品ですよね?

ひと月かけて、工場長と現場主任に改善を命じたんだが、いまだに直ってないんだ。そこでお前に特別に仕事をやろうと思ってな

……、ヒェッ、なんです?なにをやるんです?

3日やる。その間に改善してこい。いいな。来週の月曜日までに改善できなければ販売中止になりかねないんだ。定価が高い増しまし丼がなくなると、売上にもひびくからな。わかったな。いますぐにでも現場へ行ってこい

いますぐに、ですか……(現場がひと月かかって改善できないものを、どうやって3日でやりゃいいんだ?)

さあ、早く行ってこい。吉報しか受け付けないからな。お前が行くことは現場に伝えてあるし、最大限の協力をするようにともいってある。不服か?

……いえ。ご期待にそえるようやってみます

現場にて

いつからクレームが多くなったんです?

それがですねぇ。おそらくスライサーの機械を導入してからなんですよ

機械のメーカーはなんといってました?

別に問題はなにもないと。しかしとんかつの量でクレームがでていることは事実ですし、現場でもなんども機械を調整しながらやったんですが……、でもクレームは増えるばかりで

データはできてますか?

先ほど本社から電話があって、ランダムサンプリングっていうんですか、とにかく偏りなく公平になるようにとんかつを抜き取って、とりあえず重量だけは……。でもこういっちゃあなんですが、こっちがひと月かかってもダメなのにいまさら重量のデータを採っても無駄だと思いますよ

やるだけはやってみないとね

サンプリングデータ(左)と基本統計量(右)
ヒストグラム(左)と箱ひげ図(右)

基本統計量からみると、平均値と中央値がほぼ同じ値であり、ヒストグラムの同じレンジに入っていることから、確かに機械自体に不具合はなさそうである。
ただ、ヒストグラムの最頻値に入っていないのは、バラツキ(ランダムサンプリングの標準偏差)が±35gと大きすぎるのが原因であろう。

さらに基本統計量のレンジ(最大値ー最小値)が153gというのも大きすぎる。

バラツキ(ランダムサンプリングの標準偏差)さえ押さえることができればいいのかもしれない。

それなら、機械はおかしくないのに、このバラツキはいったいどこからきたのだろう?

……、……、もしかしたら?

機械の稼働時間はどのくらいですか?

朝5:00:00から10:00までの5時間連続で、1分間に6枚とんかつを切断しています。計1800枚を切断しておけば、卸先もふくめて昼食の弁当には間に合いますから

機械を入れる前はどうしていたんですか?

2人の作業員が手作業でやっていました。しかし、人気が出て間に合わなくなったので機械を入れたんです

わかりました。実際に機械を稼働しているところを見たいんですが

いいですよ。でも明日の5:00に来てください。いまは機械を洗浄して乾かしているところですから

あと、明日の見学で私がストップといったところで一旦機械を止めてくれませんか

わかりました。この3日間はあなたの指示に従えということですので

機械稼働現場

機械は正確に1分間に6枚づつとんかつを切断していた。しかし、そんなところに興味はなかった。

観たかったのは、スライスする瞬間だった。2時間ほど経ったところで、狙った獲物をつかまえた確信を得た。

ストップ。スライサーの刃を新しいものに交換してもらいたい。いままでは10:00までぶっ通しで使っていたんだろう?

そうですが……わかりました。おーい、大至急あたらしい刃を持ってきて取り替えろ

さらに2時間ほど経ったところで、またスライサーの刃を新しいものに交換させた。10:00になってから、現場主任に指示を出した。

昨日と同じようにランダムに選んで重量を測って欲しい。データが取れたら持ってきて欲しいんだが

わかりました

待つほどもなく新しい重量データを現場主任が持ってきた。

これは感触なんですがね。いいような気がします

とにかく分析してみましょう

サンプリングデータ(左)と基本統計量(右)
ヒストグラム(左)と箱ひげ図(右)

これを見るとヒストグラムの最頻値のレンジに平均値と中央値が入っているので、ようやく切断作業が落ち着いたと考えてもいいだろう。それにランダムサンプリングした標準偏差は±35gから±11gとバラツキは±24g減少し、基本統計量のレンジ(最大値ー最小値)も153gから53gと100gも少なくなっている。

ただ、気になるのは箱ひげ図の飛び離れた値である。これはスライサーの刃を交換するタイミングが遅いということを示しているに違いない。

結局、何が悪かったんですか

機械は正確に1分間に6枚づつ切断していた。しかし、切断するにつれてスライサーの刃が油にまみれてとんかつを押し切り気味に切断し、しかも、油が付着した刃で切るものだから滑って安定しなかったんだよ

一件落着と考えてもいいんでしょうか?

うん。あとは、もう少し早く、少なくとも5時間のうちに3回はスライサーの刃を交換した方がいいね。それだけだよ

海鮮御前を主力商品にしろ

おい、うちの海鮮御前って知っているよな

もちろん……ですが……

そいつをな、うちの主力商品にしたいんだ。なにが足りないのかを調べてくれ

私がですか?……商品開発部とか企画部の範疇じゃないんですか

やつらが俺のいうことを聞くと思うか?ほれ、今月30日分の売上データだ。こいつを使って連中を動かすようなものを報告しろ。いいな

はあ……

30日分の売上データ。20.3千円とは2万300円のこと
基本統計量と度数分布表
1万円刻みで書いたヒストグラムと箱ひげ図 10とは1万円のこと

1万円刻みでレンジを作ったが、最頻値に平均値と中央値が入っている。30日分のバラツキ(標準偏差)は±7871円であり、30日分よりもずっと大きい全体を考慮したバラツキ(標準偏差)はさらに悪く±8006円である。

1日の売上の平均が25990円だから、例えば30日分でバラツキ(標準偏差)±7871円を考慮すれば18119円~33861円(25990円±7871円)となり、売上にかなりの差があることがわかる。

どういうことか確かめるために、早速1080円の海鮮御前を買ってきた。容器は大層立派であり、お節料理を入れるような箱で中身は蓋を開けるまで見えない。

開けてマグロ、エビ、イカ、ネギトロ、イクラなどの海鮮を取り除くと、残りはかんぴょう、千切りきゅうり、昆布の佃煮、どでかい卵焼き、漬物などであった。

ちらし寿司か?これじゃあ、リピーターはいないはずだ。このバラツキの原因は、物珍しさも手伝って初めは買うだろうが、中身を知って二度と御免だと、つまりコスパが悪すぎることが原因であろう。

これを商品化して店舗にだした責任者はいい度胸をしているとしか思えない。

領収書を片手に経理部へ向かった。きっと受理されないだろう。昼飯がわりに喰ったのだから。

力を入れるのはどっちだ?

おい、うちで出している焙煎オーレと煎茶ラテは知っているよな

ええ。もちろんです。

そこでな、どちらの商品に力を入れればいいかわからんのだ

……ふーむ……売上でも見て比較したらどうですか?

ところが売上の平均は同じなんだよ。そこでお前にお鉢が回ったというわけだ

……ああ、……そうなんだ……

今日中に結果をだせよ。これがここ1か月の売上データだ

……うぅ~

売上データ 単位は千円 たとえば105とは10万5千円のこと

基本統計量
左が焙煎オーレ、右が煎茶ラテ
箱ひげ図 左は焙煎オーレ 右は煎茶ラテ

1変数づつ基本統計量とグラフを描いたが、ヒストグラムはレンジ(最大値ー最小値)の違いがわかるだけであり、箱ひげ図では焙煎オーレに飛び離れた値があるにせよ、バラツキ(30日分の標準偏差)は焙煎オーレの方が小さく感じる。

そこで、基本統計量の具体的な数値で比較することにした。

平均が同じということは、合計売上高(平均値×30)も同じということ。

残るはレンジ(最大値ー最小値)とバラツキ(30日分の標準偏差)の比較しかない。

レンジ(最大値ー最小値)は煎茶ラテの方が大きく、またバラツキ(最大値ー最小値)も煎茶ラテの方が多い。

これはなにを意味しているのだろうか。

煎茶ラテのレンジ(最大値ー最小値)が大きいとは、売上が広く散らばり、売れた個数は少ない。(ヒストグラムを見ても明らかである)

バラツキ(30日分の標準偏差)も煎茶ラテの方が焙煎オーレの2倍であるから(焙煎オーレは±10.102円、煎茶ラテは±20.741円)、煎茶ラテはムラがあるというか、一度買って飲んだからあとはもういいか、となっているようだ。

レンジ(最大値ー最小値)とバラツキ(30日分の標準偏差)が小さい方がリピーターというか固定客が多く、顧客に受け入れられていると考えて差し支えないだろう。

力を入れるべきは焙煎オーレの方である。煎茶ラテは量産を控えても影響は少ないはずである。

サイトご利用方法

次のページ・前のページを利用するよりも、グローバルメニュー(ヘッダー部分にある項目)をクリックしていただければ、その項目の全体像が一目でみることができ、クリックすればそのサイトへ飛びます。

google、yahoo、Bingなどで検索する場合、検索ワードは先頭に、孤立じじい、と入力しその後に、ダッシュボード or インテリア or 統計 or 談話室、とどれかひとつを入力すると、その検索サイトが上位表示されます。