2016年01月01日
Data Lakes(データレイク)
ビックデータの湖
データレイクとは?
センサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった「非構造化データ」を管理するのに適した仕組みで、簡単に言うと「多種多様なデータ形式を飲み込んで貯めておけるような広大な領域」です。
一般的にデータ蓄積には、時系列で業務データを溜めていく「データウエアハウス」がよく適用されますが、これは目的をはっきりさせた上で設計を行い、収集するデータを必要なものだけに絞り込んで使用されます。そのため、ビックデータや IoT と言ったキーワードが世間で話題となり、後から「こんな分析をしたい!」と多様なニーズが出てきたとしても、データがないという場合がありました。
データレイクは、「様々なデータを最初から収集して、何か活用(分析)をしようと思い立った時、すぐに実行できること」が特徴となっています。
データレイクの仕組み
巨大な貯蔵領域にデータをまるごと格納する事になる為、データモデルは事前に設計しません。利用を進めていく中で、データにビューを設定していくなど、段階的に構築が進んでいく事となります。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト(OSS)(*1)の分散処理基盤である「Hadoop」(*2)に蓄積します。
*1『オープンソースソフトウェア』
https://kobelcosys-dev.demo.iqnet.co.jp/column/itwords/67/
*2『大規模データを効率良く活用!分散処理技術』
https://kobelcosys-dev.demo.iqnet.co.jp/column/itwords/215/
データレイクのメリット
データレイクを利用することで、新たな知見(洞察)を得るためのデータ分析を行うにあたり、以下のメリットを得ることが出来ます。
-
データの一元管理
これまでのシステムは個別にデータを最適化していましたが、データレイクにデータを集約することで、全体最適化できます。データ管理も一元管理により簡素化できます。
-
データ供給環境の整備
データ形式に関わらず、多様なデータを蓄積しておくため、欲しいデータを欲しい分だけ、容易に早く抜き出すことが可能になります。
逆にデメリットとして、データを分析するためのツール活用方法や、中にどのようなデータが存在するかを把握する時など、活用時に高度なスキルが必要になってきます。
データレイクの事例
「インダストリアル・インターネット」を提唱するGE社では、テラバイト(TB)規模に達する航空機の飛行データの管理や分析にデータレイクを採用しています。たとえば航空機のエンジンが通常より高温を報告した場合、エンジンの機種や使用年数、整備実績、その他の多くの要素に基づいて、即座に過去の類似案件を見つけ出すことができます。また、飛行データの分析結果を活用して年間燃料コストを削減するなど、航空会社に対するサービス提供に生かしています。
欧州の通信事業者も、データレイクで携帯情報端末のGPSデータなどを管理・分析し、顧客サービスの向上に活用しています。例えば、利用者の位置情報をリアルタイムで特定し、顧客にクーポンを発行するなどの取組み例があります。
製造業を中心に、IoT(Internet of Things *3)に対するニーズが飛躍的に高まっている日本でも、今後データレイクを採用する企業が増えてくると思われます。
*3『あらゆるモノがインターネットにつながる世界 ~「モノのインターネット(Internet of Things)」』
https://kobelcosys-dev.demo.iqnet.co.jp/column/itwords/227/
2016年1月
最新の記事
年別
ITの可能性が満載のメルマガを、お客様への想いと共にお届けします!
Kobelco Systems Letter を購読