はじめに
みなさんこんにちは。
マーケティング部の渡辺です。
データ活用の重要性がかつてなく強調されるようになった昨今ですが、その一方で、データ活用をうまく進められている組織は多くないのではないかと思います。
今回はこれまでに続いて、「データ分析基盤の組み合わせての利用」や、「データそのものを整備する」「データを活用して成果につなげる」ことをどうやって実現するかを考えます。
「業務を遂行するIT」が別にある
分析作業よりも「前処理」に手間がかかる
前々回、まず最初にいわゆるRDB(通常のデータベース)はDWH(データ分析基盤)ではないことを説明しました。
それはつまり、「業務を遂行するIT」がデータ分析を行う場所とは別になってしまうということです。データ分析基盤から見ると、分析に必要なデータは基本的に外部で発生し、それを取ってこないといけないということです。よって、データ分析基盤を活用するためには、データ連携の実現が欠かせなくなります。
そのためには、大量のデータを高速に流し込む処理や、データの変換処理や前処理、それぞれのデータソースのスキーマの違いを吸収する処理なども実現する必要があります。そのためデータ分析基盤を導入してみると、分析作業そのものよりもその前処理としてのデータを集める処理の方がむしろ大変にもなりがちです。
「前処理」の手間の問題を解消する「つなぐ」技術
そのような問題を解決するために、様々なデータソースに効率的に接続してデータを抜き出す処理(Extract)、変換処理の実施(Transform)、データ分析基盤に流し込む処理(Load)を効率的に実現するツールとして生まれたのが「つなぐ」技術のルーツの一つである「ETL」になります。
もし、データ分析基盤を導入したけれど、必要なデータの用意に苦労してうまく活用できていないのであれば(例えば、手作業でのデータの加工や出し入れで苦労しているなど)、「つなぐ」技術を利用いただくことで解決できる可能性があります。
分析結果を成果につなげる必要
データ活用で成果を出すには、分析を行うだけでなく、分析結果をビジネスのアクションにつなげてビジネス的な成果を実現する必要があります。そのためには、分析作業そのものの自動化や、外部システムとの連携機能を作りこむ必要が生じることがあります。
分析結果を可視化して理解しやすくするBIツールとの連携や、分析結果を外部システムに連携することで結果を業務に自動的に反映できるようにする、定期的なレポート作成を自動化することなどができます。
同じく、「つなぐ」技術によりこれらを効率的に実現することができます。
データを分析してビジネス的な成果を実現するためには試行錯誤が必要になることが多いとされます。そのため、エンジニアでなくてもデータ分析の一連の作業を迅速かつ効率的に作りこめる「つなぐ」技術が有用なことがあります。
データ分析基盤を組み合わせて利用する
「つなぐ」技術は、データ分析基盤そのものを組み合わせて利用する手段としても活用することができます。
例えば、従来からの定型的な分析作業は既に運用しているDWHでこれまでと同じく実施したいが、現場が試行錯誤してのデータ分析にも取り組みたいのでBigQueryも活用したい、そのような場合に「つなぐ」技術で複数のデータ分析基盤を組み合わせて利用することができます。
また例えば、Hadoopやオブジェクトストレージをデータレイクとして、外部から取得した様々なデータをひとまずとして受け入れる場所とし、その後、データを整えてDWHに投入して分析作業を分析するような組み合わせた活用の仕組みを、同じく「つなぐ」技術の活用により柔軟に実現することができます。
様々なデータ分析基盤を組み合わせて利用できれば、それぞれの良いところを組み合わせて活用する手段となるだけでなく、特定の製品やサービスにロックインされにくくなり、将来に登場する様々なサービスの活用も容易になります。
おわりに
データ活用を進めるためにどうしてデータ分析基盤の整備が必要なのか、それがどういうことなのかを簡単にですが紹介をさせていただきました。
データ自体の整備が必要であること、分析結果をビジネス的に活用して成果につなげる必要があること。そのためには試行錯誤が必要であること、そして、技術的な理由から分析作業のためのデータ基盤が必要であること。そして、データ分析基盤の活用にあたっては「つなぐ」技術が様々に役に立ちます。
本記事がデータ活用をうまく進める一助となれば幸いです。