2013/09/22

「統計学が最強の学問である」を読んで

「統計学が最強の学問である」に書かれていたことで、その通りと思ったものがあります。
ビッグデータ時代と呼ばれる考え方に逆行するが、私は誰からデータ分析の相談を受けても「まず正しい判断に必要な最小十分のデータを扱うこと」を推奨している。

何かを分析する際に必要なデータを集める場合、全数調査とサンプリング調査の2つがあります。

全数調査とは字のごとく、全てのデータを集めて集計/分析をするケースです。イメージとしては、20代の日本人男性の睡眠時間を調べるために、20代男性全員に睡眠時間を聞くというもの。人数にしておそらくは700万人くらいの規模かと思いますが、一人残らず睡眠時間をヒアリングするのが全数調査。サンプリング調査とは、700万人にいちいち聞いていられないということで、20代男性の700人に聞いておけばいいんじゃないか、という感じ。

サンプリング調査で注意すべきは、この700人をどうやって選んだかです。仕事で忙しいような人ばかりでは睡眠時間が短い人が多そうなので、その結果は全数調査と比べて睡眠時間は短いという結果が出てしまうでしょう。これでは意味のあるデータにはなりません。そうならないために、700人が日本の20代男性全員を反映しているような均質な集団にする。

よくサンプリング調査の例えで使われるのは料理の味見です。料理の塩加減を知る正確な方法はその料理を全部食べてしまうことです。これが全数調査のイメージ。サンプリング調査とは、作った料理を全部食べずにちょっとだけ味見をして塩加減を確認すること。味見で注意すべきは、その前にちゃんとかき混ぜてからだと思いますが、これがさっきの「700人が日本の20代男性全員を反映しているような均質な集団にする」という作業です。

もちろん、全数調査のほうがサンプリング調査よりもデータ精度は高いです。全員に聞くので、誤差が発生しようもない。ただし、往々にして全数調査は現実的な手段ではありません。料理の味を確認するのに全部食べることはあり得ないように。だから大事なのは、サンプリング調査によってどの程度精度が低下するのか。判断や意思決定に影響しないような精度の向上はもはや意味がないのです。そのために費やす時間やコストは無駄です。

データ分析で重要だと思うのは、集計/分析は目的のための「手段」であること。分析結果を活かして何をするのか、どんな価値を得られるかの目的によって、手段は異なります。

「統計学が最強の学問である」という本で繰り返し述べられていたのは、そのデータや分析結果から得られたことが意味のある結果なのかを自分で判断できること、それが統計学の考え方では重要であると。

データ分析をするとは、何か知りたいことがあるといことです。真に知りたい値に対して、その結果はどこまで正しいのか。つまり、誤差はどの程度なのか。その誤差を考慮に入れたうえでも意味のある結果なのかということです。

誤差を見る上で大切なのは2つ。誤差の大きさと、その誤差の発生確率。後者はp値と呼ばれ、実際には何の差もないのに誤差や偶然によってたまたまデータのような差が生じる確率です。通常はp値は5%以下であれば、「この結果は偶然得られたとは考えにくい」と判断します。

最後に、もう1つ。大切にしたいと思っている指摘があったので引用しておきます。
データ分析においては重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点だ。


※関連記事
書評「会社を変える分析の力 」:データ分析をする時の4つの自問自答
書評:意思決定のための「分析の技術」
書評:「それ、根拠あるの?」と言わせない データ・統計分析ができる本
データ分析だけだとまだ五合目くらい




follow us in feedly このエントリーをはてなブックマークに追加

Facebook Page

最新エントリー

バックナンバー

Related Posts Plugin for WordPress, Blogger...