統計学が最強の学問である[実践編]

統計学が最強の学問である[実践編]――データ分析のための思想と方法

出版社：ダイヤモンド社

著者:西内啓

発売日: 2014/10/24

Amazon Kindle 楽天市場 Yahoo!ショッピング

統計学の活用方法には、以下の3パターンある。

人間の行動の因果関係を洞察する
現状の把握
今後の予測

ビジネスに必要なのは、人間を洞察するための統計学

洞察とは？

営業の仕事の場合、売り上げに繋がりやすい訪問先と繋がりにくい訪問先の違いはなにか。

人事の仕事なら、自社の利益に繋がる人材と繋がらない人材の違いを明らかにする

調達なら、価格交渉に成功する状況としない状況の違い

平均値、割合という現状把握のための手法からスタートして、データからいかにその背後の因果関係を洞察するかという目的のための統計学を説明する

平均と割合、標準偏差という最も基本的な統計学の道具の説明データを足してその数で割るという当たり前の計算過程ではなく、なぜそうした計算を行ったけっか得られる平均が、洞察の統計学で重要になるかを理解する
グループ間で平均値や割合に偶然の誤差ではないレベルの差があるかどうかという統計的仮設検定の考え方

たとえば、既存店舗と新店舗の平均客単価100円の違いは、意味のある違いなのか？

グループ間の違いだけでなく、ある値が増えれば増えるほど別の値は増える傾向にあるのか、それとも逆に減る方向にあるのか、関連性を分析するための回帰分析

「洞察」の統計的に必要な3つの知識

平均値や割合など統計指標の本質的な意味の理解
「データを点ではなく幅で捉える」という考え方
「何の値を何ごとに集計すべきか」という考え方

平均値と割合というのは本質的にはまったく同じである

量的変数

年齢、収入、購買金額といった数で表される情報。
「平均値」で集計
「量として大きいか小さいか」という情報

質的変数

性別、職業、商品ジャンルといった数ではなく文字で表される情報
それぞれの分類に該当するものの「割合」を集計する
「大小ではなく、そもそもの質が異なる」という情報

なぜ平均値と割合が本質的に全く同じことなのだろうか。

e.g. 100人に対する調査で60人が男性というデータが得られた場合。このとき、男性の割合は、60%

「男性である度合い」は？（調査の結果自分が男性であると回答した場合、1。そうでなければ、0という値。）

(1という値 60人分 + 0という値 40) / 100 = 0.6　「男性である度合い」の平均値

割合と平均値というまったく別物の集計方法が存在しているわけではなく、数の形で表現できない質的変数は、それぞれの分類についての1か0かという形で表現される「該当するか度合い」という量的変数を考え、その平均値を計算している。 p26

データを点ではなく幅で捉えるという考え方

点とは、平均値や割合

平均値や割合を計算することは、物体を1点で支えることができる重心を求めることと同義であり、これにより、データが何千、何万とあっても、この重心を見ることでわかりやすい目安を得ることができる。

ただし、これには落とし穴があり、データがどのように散らばっているかを理解することが出来ない。

よって、このように点ではなく、「おおよそデータはどこからどこまでの範囲に存在しているかという」幅で考えるべき！

何の値を何事に集計すべきか

最終的にコントロールしたい結果(アウトカム)とそれに影響を与えうる原因の候補という観点を持つべき。

アウトカム(成果指標)

「最終的にコントロールしたい結果」のこと。売り上げとか、PVとかデータ分析を価値につなげるには、最大化したり、最小化したりすべきゴールとなる項目が何なのかを考えなければならない

説明変数

アウトカムの違いに影響するかもしれない、あるいは、その違いを説明できるかもしれない要因のこと。

説明変数の優先順位で意識すべきこと

その因果関係が「当たり前すぎる」ものでないこと
アウトカムへの影響が明らかになったとしてその原因のコントロールが容易であること
いままでにあまり注目して分析されたことがないこと

平均値の話

平均値とは最小二乗方法に基づき、観測値に含まれるズレを最も小さくすると考えられる良い推定値である

よく、平均年収○○万円みたいな統計情報が出てくるのを見かける。その度に、一部の富裕層が、全体の平均年収を引き上げてるんだろうなぁとか、思う人もいるかもしれない。「平均値だけを見ても意味ないよ！」って思う人もいるかもしれない。

でも、本書を読むと、平均値を取り上げるからくりが読めてくる。それは、「現状把握」と「因果関係の洞察」で意味が変わってくるからである。

現状把握の統計学においては、中央値(メディアン)、最頻値(モード)を併せて使うべきだが、「因果関係の洞察」では、平均値で計算すべきであるということが分かってくる。 (なぜそうなるかは、本書を読んで欲しい。説明しろと言われると説明できない程度の理解)

中央値

真ん中の順位の値

最頻値

一番頻度の高い値

4分位点の考えを用いて、もう少しデータの分布の状況を把握することもできるかが、依然として、並べ替えるのが大変、数式展開が難しく、総量の差異を計算するのが難しいという点は依然として残っている。

そこで、「分散」の考え方が出てくる。

「ズレの二乗の合計値」のかわりに「ズレの二乗の平均値」を使ってデータのバラつきを表現してやればいい。

分散の√を計算して得られた値のことを標準偏差という。標準偏差とは、「標準的な平均値からの偏り」

データのバラつきがどのようなものであれ、平均値-2SD(標準偏差の2倍)〜平均値+2SDまでの間に必ず全体の4分の3以上のデータが存在することが証明されている

正規分布に従うデータであれば、この「4分の3以上」というボリュームはもっと大きくなり、平均値±2SD(正確には1.96SD)の範囲に95%のデータが存在する。

[こつこつ勉強]統計学入門#1