IT社会が進んだ現代、『ビッグデータ』という言葉を聞くのもめずらしくなくなってきています。
ビッグデータとは
ビッグデータとは、読んで字のごとくそのまま「大きいデータ」ということになります。
近代のIT社会では、1日当たりEB(エクサバイト)の単位でデータが生まれていると言われています。
パソコンをいじっていておなじみなのは、KB(キロバイト)、MB(メガバイト)、GB(ギガバイト)、ちょっと知っている人でTB(テラバイト)といったところぐらいまでではないでしょうか。
1KBの1000倍が1MB、1MBの1000倍が1GB、1GBの1000倍が1TBになります。
1TB(テラバイト)の1000倍が1PB(ペタバイト)、さらにその1000倍が1EB(エクサバイト)になります。
実際の大きさとしては、1EBは、約115京バイトになります。
わかりやすく数字で並べてみると
1,150,000,000,000,000,000バイトということになります。
実際には、これよりもう少し絞られた情報の範囲を社会一般ではビッグデータと呼んでいます。
ビッグデータの例
ビッグデータの例としては、テレビや動画サイトなどのマルチメディアの配信サイトから提供される音声や動画データ、ウェブサイトのECサイトやブログなどに蓄積されている閲覧履歴や購入履歴、サイトで自動的に生成されるアクセスログやエラーログ、SNSなどに書き込まれるコメントやプロフィール、オフィスのパソコンで作成されているビジネス文書やメールなどもビッグデータになります。
交通系のICカードの利用状況などもビッグデータになります。
交通系のICカードで考えてみると、その利用状況を調べようとしたときに、カード利用者の全数の記録が得られるようになっています。
つまり母集団がどんなに大きくても、丸ごと観察して分析が可能になっていて、いわば統計でいえば全数調査に近いものになります。
統計学におけるビッグデータ
一方、統計学では、一般的にその多くがデータを集めて分析するのですが、一部のサンプルから全体像を把握・推定していきます。
代表的なものとしては、世論調査などがありますが、調査の対象、つまりサンプルは無作為に選ばれた一部の人のデータを集めて、そこから推測していく推測統計になります。
こう考えると、全数集めるビッグデータは優れているように思われますが、1つ問題があります。
それは抜けが生じてしまうことです。
国勢調査にしても、その回答率は80%を少し超えるぐらいです。つまり2割の漏れがあるわけです。
もれなく全数をカバーできればいいのでしょうが、このように漏れがあると、そこでデータの信頼性が下がってしまうのです。