2013/06/23

因果関係よりも相関関係:ビッグデータがもたらすパラダイムシフト

母集団の値がわからないので、標本を使って母平均や母分散を推定する。いかに標本を正確に選ぶか、標本から得られた値はどの程度信頼できるのか (誤差はどれくらいか) 、統計のアプローチです。

■ 母集団と標本

例えば、日本の30歳男性の平均身長を知りたい場合、理想的には30歳の日本人全員の身長データがあれば平均値の答えが出ます。しかし、全員の身長を把握するのは現実的ではありません。お金と時間がかかりすぎます。

実際にやるのは、1000人の30歳男性の身長を調査し、その平均値を30歳日本人男性全員の身長の平均値とするのです。母集団 = 30歳男性全員、標本 = 1000人の30歳男性です。

標本サンプルという母集団の一部から母集団を推定する場合に前提となっているのは、標本が偏っていないことです。専門的には 「標本が母集団を代表している」 と表現します。30歳男性を1000人集めてきても、もしその人達全員がバスケットボール選手、バレー選手だったとすると、それは偏った1000人です。日本人全員の身長を推定するための標本としては適切ではない。

大事なのは、母集団を推定するための標本をどれだけ正確に集めてくるかになります。サンプリングの方法としては、1000人をランダムに集めてくる、東京だけから1000人ではなく全国で一様に集める、47都道府県の人口構成に合うように1000人を集める、といったやり方です。

■ ビッグデータがもたらす3つのパラダイムシフト

母集団と標本の考え方を根本から覆すことが書かれていたのが、「ビッグデータの正体 情報の産業革命が世界のすべてを変える」という本でした。

本書でおもしろかったのは、ビッグデータがもたらす3つのパラダイムシフトです。

  • 限りなく全てのデータを扱う。N = 全数
  • 量さえあれば精度は重要ではない
  • 因果関係ではなく相関関係が重要になる

1つ目は母集団と標本の話で、ビッグデータの世界では全部のデータが手に入るのだから、標本なんて作らなくてもいいという考え方です。上記の30歳男性の例に当てはめると、1000人からわざわざ全員を推定していたのはビッグデータ時代前の話です。ビッグデータの時代では全員のデータが簡単に手に入るから、そのまま全員のデータを使います。

2つ目の精度よりも量が大事というのも、いかに1000人を偏りなく選ぶための精度よりも、どれだけ数多くの人数のデータを集められるかです。

3つ目の因果関係ではなく相関関係が重要になるについてです。分析において、因果関係を考えるのは基本的なことであり、そのために分析をすると言ってもいいでしょう。ちなみに 「相関関係がある」 というのは、A と B という2つが同時に起こることで、「因果関係がある」 というのは、A が原因で B が起こることです。

■ 因果関係よりも相関関係

例えば、iPhone を買った人と、Apple の広告への印象を調べるとします。おそらく買った人は Apple 広告に対して良い印象を持っている傾向にあり、この2つに相関関係が確認できます。

一方で、因果関係がどうなっているのかを確認するためには、もう1歩踏み込む必要があります。Apple の広告を見て良い印象を抱いたから iPhone を買ったのか、それとも逆で、iPhone を買ったから Apple 広告に好印象を持つようになったのかです。因果関係における原因と結果のパターンは、どちらも考えられるのです。

本書で主張されているのは、ビッグデータにおいては因果関係よりも、何と何に相関関係があるかさえわかればよく、その組み合わせを見つけることが重要であるという考え方です。これまでは A と B というわかりやすい相関しかわからなかったのが、大量のデータをとにかくまわせば、A と T という一見何の関係もない2つに相関があることを発見できるかどうかです。極端に言うと、なぜ A と T にどういう因果関係があるかは気にしないのです。

個人的には、どれだけ示唆に富む相関関係を発見できるかを重視し、因果関係は考えないというのは慣れない話です。因果について Why を考え、それを1つ1つ定量的に見ていくのが分析のおもしろさだからです。

これがビッグデータというあらゆるものについて大量に、全数でデータが安価かつ迅速に手に入るようになると Why ではなく、相関という What に軸足が移るようになっていくのでしょうか。

★  ★  ★

本書はビッグデータについてよくまとまっています。上記の3つの変化がおもしろかったですが、他にも、ビッグデータを活用したビジネスや、プライバシー等の懸念事項も書かれています。ビッグデータをただ称賛するのではなく、マイナス面にも目が向けられています。

本書の副題は 「情報の産業革命が世界のすべてを変える」 。データ分析が好きな方にはおもしろく読める本です。




follow us in feedly このエントリーをはてなブックマークに追加

Facebook Page

最新エントリー

バックナンバー

Related Posts Plugin for WordPress, Blogger...