Takaです。最近、いろいろなメディアで「ビッグデータ」という言葉を目にします。
この「ビッグデータ」の活用が国や企業の未来を決める大きな要因になると言われています。
でも、実際にビッグデータがどのように未来に関係するのかピンとこないのが実感です。
今回は、このこの「ビッグデータ」について少し考えてみました。
ビックデータの定義
「ビックデータ」ってどのようなものなのでしょうか?
最初は、明確な定義があるわけではなく企業向け情報システムメーカーのマーケティング用語として使われてきたようです。
私個人として体験してきた「ビックデータ」と言えば、オラクルやマイクロソフトなどの企業が提供するリレーショナルデータベースやデータウェアハウスの事をそのように呼んできたと思います。
無秩序なデータの蓄積ではなく何らかのデータストレージに格納され、分析や検索の為に、特別に整理されたデータを指していました。
でも、最近の「ビッグデータ」は、従来のデータベース管理システムでは記録や保管、解析が難しいような巨大なデータ群を指している事が多いように思います。
つまり、最近言われているビッグデータとは、単に量が多いだけでなく、様々な種類や形式が含まれる構造化されていない、非定型のデータに方向が変わっているのかもしれません。
また以前と比べて、日々膨大に累積する時系列なデータやリアルタイムのデータなどデータの鮮度への要求も以前と変わってきている気がします。
<総務省のホームページでは>
総務省のホームページでは、ビッグデータとは?
これについては、ビッグデータを「事業に役立つ知見を導出するためのデータ」とし、
ビッグデータビジネスについて、「ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業」など??と定義しています。
巨大なデータが戦略を決める時代に
国としても「ビックデータ」がビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まる考えているようです。
そして、「ビックデータ」の活用が国力を左右する要因になり、巨大なデータが戦略を決める時代になると推測しているようですね。
「ビックデータ」を処理・活用するためには
しかし、このような単に量が巨大であるだけでなく、構造化が難しく、非定型で時系列に増えて、リアルタイム性も求められるようなデータの管理や活用には、
今までのリレーショナルデータベースや分析統計ソフトでは取り扱うことが難しいと思われます。
そうなると、大量のデータを許容できる時間内に効率的に処理するための、数十~数千台のサーバー上で動作する超並列データベースや分散ファイルシステム、クラウドコンピューティング技術・・などの特別な技術が必要となると思われます。
身近な「ビックデータ」活用の成功例
上記のような新しい「ビックデータ」の処理技術を自分の仕事に関係した範囲で考えてみると
Googleの検索エンジンの技術がその成功例に思えます。
Googleの検索エンジンは、利用者には検索キーワードを指定する事で必要とするサイトや情報を探し出す事ができるシンプルなシステムに思えますが、
この「検索システム」の裏側では、極めて巨大な「ビックデータ」があり、複雑なコンピューターのネットワークがあります。
Googleは、この「検索システム」で扱う膨大なデータを処理する技術に従来のデータベースやスパコンを利用しているわけではなく、膨大な数のサーバーを組み合わせたコンピュータークラスターを構築し、これらを連携させて処理を行なっています。
扱うデータも日々世界中で増大しているでしょうし、多様な情報の集まりで、リアルタイム性も求められるデータ、まさに「ビックデータ」によって世界を変えるような(既に変えましたが)サービスを提供しています。
どうやら「ビックデータ」は最近脚光を浴びているようですが、既に我々はこの「ビックデータ」の恩恵にあずかっていると言う事ですね。
時代の流れは「ビックデータの処理技術」を必要としているようです
Googleは、この「ビックデータ」の管理に今のところ成功しているように思えますが
国や多くの企業がこの領域に挑戦する時、ビッグデータをどこまで有効に、安全に活用できるようになるかは不確実です。
また、巨大なデータベースと個人のプライバシー保護のバランスも重要になると思われます。
但し、多くの困難があるでしょうが、時代の流れは「ビックデータの処理技術」を確実に必要としているようですね。
それではまた