#2 データ基盤にはどんなものがある?

Avatar
dstn

はじめに

みなさんこんにちは。

マーケティング部の渡辺です。

 

データ活用の重要性がかつてなく強調されるようになった昨今ですが、その一方で、データ活用をうまく進められている組織は多くないのではないかと思います。

今回は前回に続いて、「データ分析基盤」にはどのようなものがあるかを紹介します。

 

パッケージソフトウェアの「DWH(データウェアハウス)」

特にクラウド時代になるよりも前には、パッケージソフトウェアのDWHがデータ分析基盤として広く使われてきました。

今でも、外部に出したくないデータを取り扱っていてクラウドの利用が難しい場合や、自社でデータ分析基盤を運用することで、用途にあわせて分析の性能を出すためのチューニングなどをきちんと行いたい場合にはパッケージソフトウェアが望まれるでしょう。

一方で、いわゆるオンプレミスでの運用で必要にある手間、自前でソフトウェアやハードウェアを調達してセットアップし、運用を行う手間はかかります。

 

クラウドサービス上の「DWH(データウェアハウス)」

クラウド時代になり、DWHもクラウド上のサービスとして提供されるようになりました。

代表的なものには、AWSのサービスである「Amazon RedShift」があります。

クリック一つで利用開始でき、分析処理の処理能力の増強もすぐでき、従量課金で利用できるので初期費用がかからない。クラウドサービスの他の様々なサービスと組み合わせて利用しやすいなどのメリットがあります。

一方で、クラウド上にDWHがあることには変わりないので、利用用途にあわせて性能に関する設定のチューニングが必要となったり、データのバックアップや管理などの手間は必要になります。ただし、自分で運用する手間がかかることは、きちんと設定し運用すれば狙った性能を出せるメリットと裏表でもあります。特に、思った通りの性能が出ないときに、自分たちでなんとかできる手段が残っている方がありがたいことがあります。

 

Hadoopなどの新技術

いわゆる「ビッグデータ」時代になると、かつてなく大量(かつ多様)なデータを取り扱うことが増えました。DWHはRDBに比べて沢山のデータを処理できるとはいっても、従来の技術では、データ量が多すぎてエンジニアが頑張っても運用が難しくなってきました。

そこで、「データ量が青天井で増えても問題なく取り扱える(スケールアウト)」こと、「事前にスキーマ定義をしていなくても様々なデータをそのまま流し込める(データレイク)」ことなどを実現する、新技術による分析用のデータ基盤が作られます。少し前にブームになった「Hadoop」やNoSQLの各種プロダクトです。

ただし、従来の技術を超える能力を獲得する対価として、様々な技術的な制限があります。例えばHadoopでは、様々な工夫が必要な「MapReduce」によって分析処理に必要なクエリを書く必要がありました。

新技術を導入してから、従来のRDB(やDWH)のSQLが良くできていることを思い知った、とは当時よく聞くことでした。

今ではHadoopはビッグデータの処理基盤というより、「データレイクの基盤」として使われるようになりました。Hadoop関連の巨大なエコシステムがあり、Hadoopに入れておけば機械学習など様々な処理を扱えるなど、独自の進化を続けています。

また、Amazon S3などのオブジェクトストレージサービスも、同じように「データレイク」やビッグデータの基盤とみなせる機能があります。

 

フルマネージドな「次世代のクラウドDWH」

最近ではクラウドサービスとして新しいアーキテクチャで開発され、(できるだけ)従来のDWHの利用感のまま、スケールし、残っていた運用の手間も減らせるクラウドサービスが、「次世代のDWH」として登場しつつあります。

例えば「Snowflake」では、SQLがそのまま使えて、データ量もクラウドサービス任せでスケールでき、運用オペレーションの大半を不要にしたとしています。

Googleの「BigQuery」では、SQLが使えて、(ほぼ)運用不要なサービスが提供されていると評判となっています。データはどんどん投げ込める、莫大なデータに対する複雑なクエリでもチューニング不要でだいたい決まった時間で結果が戻ってくる、など従来のDWHからすると驚くような機能と性能が実現されています。

 

それぞれ良いところ悪いところがある

以上、大まかに四種類に整理して紹介をしました。

いずれも、データ分析基盤として活用できるものですが、それぞれ良いところと悪いところがあります。

 

用途にあわせて複数のサービスを組み合わせて利用することもできます。

例えば、Hadoopやオブジェクトストレージをデータレイクとして「まずデータを受け入れる場所」として使い、その後にDWHにデータを移動させて分析作業を行うようなこともできます。

 

おわりに

次回は、そのような、「データ分析基盤の組み合わせての利用」や、前回話題にした「データそのものを整備する」「データを活用して成果につなげる」ことをどうやって実現するかを考えたいと思います。

どうぞお楽しみに!

 

 

コメント

サインインしてコメントを残してください。

Powered by Zendesk