ビッグデータの正体 - 情報の産業革命が世界のすべてを変える という本をご紹介します。
ビッグデータがもたらす3つのパラダイムシフト
本書で興味深かったのは、ビッグデータがもたらす3つのパラダイムシフトです。
- 限りなく全てのデータを扱う。N = 全数
- 量さえあれば精度は重要ではない
- 因果関係ではなく相関関係が重要になる
1. 限りなく全てのデータを扱う。N = 全数
統計の母集団と標本についてのパラダイムシフトです。
ビッグデータの世界では全部のデータが手に入るのだから、母集団の一部から抽出する標本はもはや作らなくてもいいという考え方です。ビッグデータの時代では全員のデータが簡単に手に入るので、全員のデータを使います。
2. 量さえあれば精度は重要ではない
いかに標本を偏りなく選ぶか精度よりも、ビッグデータの観点ではどれだけ数多くの人数のデータを集められるかです。
3. 因果関係ではなく相関関係が重要になる
分析において、因果関係を考えるのは基本的なことであり、そのために分析をすると言ってもいいでしょう。ちなみに 「相関関係がある」 というのは、A と B という2つが同時に起こることで、「因果関係がある」 というのは、A が原因で B が起こることです。
ビッグデータでは因果関係よりも相関関係が重要であるについて、以下で掘り下げます。
因果関係よりも相関関係
例えば、iPhone を買った人と、Apple の広告への好意度を調べるとします。買った人は Apple 広告に対して良い印象を持っている傾向にあり、この2つに相関関係が確認できるでしょう。
因果関係を確認するためには、もう一歩踏み込む必要があります。
Apple の広告を見て (原因) 良い印象を抱いたから iPhone を買ったのか (結果) 、それとも逆で、iPhone を買ったから (原因) Apple 広告に好印象を持つようになったのか (結果) です。因果関係の原因と結果のパターンは、どちらも考えられます。
本書で主張されているのは、ビッグデータにおいては因果関係よりも、何と何に相関関係があるかさえわかればよく、その組み合わせを見つけることが重要であるという考え方です。
というのは、これまでは A と B という人間にとって推測しやすい範囲での相関しかわからなかったのが、ビッグデータという大量のデータをまわせば、A と T という一見すると何の関係もない2つに相関があることを発見できるからです。
私は、この考え方には違和感があります。なぜなら、データ分析とは、いかに示唆に富む因果関係を発見できるかが肝だと考えているからです。因果という Why を考え、それを1つ1つ定量的・定性的に真実を見い出すことが分析の醍醐味だからです。
ビッグデータという全数データが安価かつ迅速に手に入るようになると、Why ではなく、相関という What に軸足が移るようになっていくのでしょうか。
最後に
本書はビッグデータについてよくまとまっています。上記の3つの変化の他にも、ビッグデータを活用したビジネス、プライバシー等の懸念事項も書かれています。ビッグデータをただ称賛するのではなく、マイナス面にも目が向けられています。
本書の副題は 「情報の産業革命が世界のすべてを変える」 です。仕事でデータ分析に従事されている方にはおもしろく読める本です。