この本から何を得たいか?

  • 統計学の用語(キーワード)の理解
  • データをどう解釈するか
  • ビックデータという言葉に惑わされないため

統計学が最強の武器になるワケ ⇛ どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。

データをビジネスに使うための「3つの問い」

  1. 何かの要因が変化すれば利益は向上するのか?
  2. そうした変化を起こすような行動は実際に可能か?
  3. 変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

抑えておきたい用語

A/Bテスト

「A/Bテスト」とは、デザインにせよ機能にせよ、AパターンとBパターンを両方試してみて比較する、という意味である。

多くの場合はユーザのアクセスに対してランダムにAパターンとBパターンのサイトを開き、一定期間収集されたアクセスログをもとにAパターンとBパターンの比較を行うことになる(ランダムに表示を分けることが難しい場合、1週間などの決まった期間ごとに表示を変える場合もある)

統計学においては、ランダム化比較実験と呼ぶ。 AパターンとBパターンの条件の変え方にランダムさが含まれていない場合は準実験と呼ぶ。

カイ二乗検定

クロス集計表について「意味のある偏り」なのか、それとも「誤差でもこれぐらいの差は生じるか」といったことを確かめる解析手法

p値

「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」のこと。

このp値が小さければ(慣例的には5%以下)、結果が偶然得られたとは考えにくいと判断できる。

「フェアではない」ものをどうあつかうか

「フェアではない」とはどういったものかというと、比較する集団が同じ条件ではないということ。

本書の例では、暴力的なゲームと少年犯罪の関連性をみたいのであれば、「ほかの条件は全く同じだが、暴力的なゲームのプレーの有無だけが異なっている」という集団同士を比べれば理想的な比較になる。しかし、現実問題として、「ほかの条件」たとえば、親の性格や考え方、子供のもともとの心理的傾向なども異なるかもしれないため難しい。

統計学では、この問題に対して以下2つの解決方法がある。

  1. 「関連しそうな条件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも計測された条件については「フェアな比較」を行う
  2. 解析ではなくそもそものデータの取り方の時点で「フェアに条件を揃える」

ランダム化比較実験

人間の制御しうる何物についても、その因果関係を分析できる

ランダム化してしまえば、比較したい両グループの諸条件が平均的にはほぼ揃う。そして、揃っていない最後の条件は実験で制御しようとした条件だけであり、その状態で両グループに「誤差とは考えにくい差」が生じたのであれば、それは因果関係があると実証できることになる。

「諸条件をランダム化してしまえば、平均的に比較したい両グループ間で同じになる」

⇛ 顧客や従業員の年齢や性別、心理的特性といったものが仮に結果を歪める可能性があったとしても、「ある程度の数でランダム化してしまえば問題にならない」という性質を示す。

ランダム化 ランダム化比較実験で得られた仕事のアイデアに新規性があるならば、論文になる。

ある程度の数ってどのぐらい取ればいいのだろうか?

ランダム化の限界

  1. 現実の壁
  2. 倫理の壁
  3. 感情の壁

ケースコントロール研究

回帰分析

回帰分析とは、データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定する考え方。

こうした数式で記述される直線を回帰直線と呼ぶ

平凡への回帰、平均値への回帰

実際のデータは理論上の推測よりも「平均値に近づく」という意味。

「無制限にデータを得ればわかるはずの真の知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる

現実のデータから得られた回帰係数などの統計量はあくまでこの真値に対する妥当な推定値であり、それな真値に対してどの程度の誤差を持っているかを考えれば、間違った判断を犯すリスクは減らすことができる。

重回帰分析

重回帰分析は、説明変数(予測したい結果に影響する要因)が複数ある状況へ拡張された回帰分析

⇛ 「フェアな比較」を行うために重要な手法

ロジスティック回帰

ロジスティック回帰とは、もともと0か1という二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにしたもの

一般化線形モデル

表の使い方

男女別で顧客の一人当たりの売り上げを知りたい

顧客の一人当たりの売り上げ => 結果変数 連続値 男女別の違い => 説明変数 2グループ間の比較

2グループそれぞれの平均値を記述して、t検定によって得られた「この平均値の差は誤差の範囲と言えるかどうか」というp値や信頼区間を示す

来客回数が多い人ほど売り上げも高まるか?

売上金額 => 結果変数 連続値 来客回数 => 説明変数 連続値の多寡で比較

回帰分析を行い、回帰係数の推定値や信頼区間、p値を示す

連続値でもなく二値でもない、「何カテゴリーかに分類される」結果変数の扱い方

例えば、1.まったくない、2.あまりない、3.たまにある、4.よくあるというアンケート項目の場合、

  1. 1〜2、3〜4と二分して二値として扱う
  2. 「よくある」と「それ以外」
  3. 1〜4の連続値として扱ってしまう

参考