2013/06/23

因果関係よりも相関関係:ビッグデータがもたらすパラダイムシフト

母集団の値がわからないので、標本を使って母平均や母分散を推定する。いかに標本を正確に選ぶか、標本から得られた値はどの程度信頼できるのか(誤差はどれくらいか)、このあたりが統計の世界では重要です。

■母集団と標本

例えば、日本の30歳男性の平均身長を知りたい場合、理想的には30歳の日本人全員の身長データがあれば平均値の答えが出ます。ただ、全員の身長を把握するのは現実的ではありません。お金と時間がかかりすぎます。

だから実際にやることは、1000人くらいの30歳男性の身長を調査し、その平均値を30歳日本人男性全員の身長の平均値とするのです。母集団=30歳男性全員、標本=1000人の30歳男性。

標本サンプルという母集団の一部から母集団を推定するのに前提となっているのは、標本が偏っていないことです。専門的には「標本が母集団を代表している」と表現します。30歳男性を1000人集めてきても、もしその人達全員がバスケットボール選手、バレー選手だったとすると、それは偏った1000人だよね、となります。日本人全員の身長を推定するための標本としては適切ではない。

なので大事なのは、母集団を推定するための標本をどれだけ正確に集めてくるかになります。サンプリングの方法としては、1000人をランダムに集めてくる、東京だけで1000人ではなく全国でまんべんなく集める、47都道府県の人口構成に合うように1000人を集める、といったやり方が考えられます。

■ビッグデータがもたらす3つのパラダイムシフト

このあたりの母集団と標本の考え方を根本から覆しそうなことが書かれていたのが、「ビッグデータの正体 情報の産業革命が世界のすべてを変える」という本でした。

本書でおもしろかったのは、ビッグデータがもたらす3つのパラダイムシフト。
  • 限りなく全てのデータを扱う。n=全数
  • 量さえあれば精度は重要ではない
  • 因果関係ではなく相関関係が重要になる

1つ目は母集団と標本の話で、ビッグデータの世界では全部のデータが手に入るのだから、標本なんて作らなくてもいいよね、という。さっきの30歳男性の例に当てはめると、1000人からわざわざ全員を推定していたのはビッグデータ時代前の話で、ビッグデータの時代では80万人とかの全員のデータが簡単に手に入るから全員のデータを使うというイメージ。

2つ目の精度よりも量が大事というのも、いかに1000人を偏りなく選ぶための精度云々よりも、どれだけ数多くの人数のデータを集められるか、という話です。とにかく80万人に近いデータを入手できるか。

3つ目の因果関係ではなく相関関係が重要について。この論点は本書で最もインパクトがありました。分析において、因果関係を考えるのは基本的なことであり、そのために分析をすると言ってもいいです。ちなみに「相関関係がある」というのは、AとBという2つが同時に起こることで、「因果関係がある」というのは、Aが原因でBが起こることです。

■因果関係よりも相関関係

例えば、iPhoneを買った人と、Appleの広告への印象を調べるとします。おそらく買った人はApple広告に対して良い印象を持っている傾向にあり、この2つに相関関係が確認できます。

一方で、因果関係がどうなっているのかを確認するためには、もう1歩踏み込む必要があります。Appleの広告を見て良い印象を抱いたからiPhoneを買ったのか、それとも逆で、iPhoneを買ったからApple広告に好印象を持つようになったのか。因果関係における原因と結果のパターンがどちらも考えられるのです。

本書で主張されているのは、ビッグデータにおいては因果関係よりも、何と何に相関関係があるかさえわかればよく、その組み合わせを見つけることが重要であるという考え方。これまではAとBというわかりやすい相関しかわからなかったのが、大量のデータをとにかくまわすことで、AとTという一見何の関係もない2つに相関があることを発見できるかどうか。極端に言うと、なぜAとTにどういう因果関係があるかは気にしないというもの。

個人的には、どれだけ示唆に富む相関関係を発見できるかを重視し、因果関係は考えないというのは慣れない話です。因果についてWhyを考え、それを1つ1つ定量的に見ていくのが分析のおもしろさだと思っています。

これがビッグデータというあらゆるものについて大量に、全数でデータが安価/迅速に手に入るようになると、Whyではなく相関というWhatに軸足が移るようになっていくのか。分析という考え方自体も変わっていくのかもしれません。

★  ★  ★

本書はビッグデータについてよくまとまっています。上記の3つの変化がおもしろかったですが、他にも、ビッグデータを活用したビジネスや、プライバシー等の懸念事項も書かれています。ビッグデータをただ称賛するのではなく、マイナス面にも目が向けられています。

副題は「情報の産業革命が世界のすべてを変える」。データ分析が好きな方にはおもしろく読める本です。




follow us in feedly このエントリーをはてなブックマークに追加

Facebook Page

最新エントリー

バックナンバー

Related Posts Plugin for WordPress, Blogger...