はじめに
みなさんはじめまして。
マーケティング部の渡辺と申します。
データ活用の重要性がかつてなく強調されるようになった昨今。ですが、その一方で、データ活用をうまく進められている組織は多くないのではないかと思います。
そこで、データ活用をうまく進めるために役に立つこと、知っておくと良いことを、今回から何回かに分けてご紹介いたします。
データ分析基盤(DWH)って何でしょう?
データ活用について、以下のようなこと、よく言われていませんか?
- データ活用は漫然と進めても上手くいかない。しっかりと「データ基盤」を整備し、しっかりとデータ活用に取り組む必要がある。
もっともなことを言われている気はしますね。でも具体的に何をすべきなのでしょう?
とはいえ、あれもこれもしなさいと言われても困ります。また、データ基盤が要りますから「この製品」が必要みたいなことを言われると、本当にそうかだろうか?とも思えてきます。
そこで、そもそも「データ基盤」とは何なのか、から考えてみましょう。
データが散らかっていては困る
手書きの伝票としてしか存在しないデータ、謎フォーマットのExcelになっているデータを、さあ分析してください、と渡されても困ります。データ活用には向いていません。
さらには、そもそもデータの有無すら良く解らないのも困ります。
頑張って探せばあるのか?無いのか?誰に聞いたらいいのか?どこを見たらいいのか?
でも、何もしていないと、そういう状況になってしまうものです。
何か一つのことを集計したいと思っただけで、社内中をひっくり返しての大捜索が必要になってしまいます。
毎回そういう事では困ります。データ活用どころではありません。
まず、データそのものを整理・整備する必要性としての「データ基盤整備」はどうやらやらなくてはいけませんね。
活用できないと意味が無い
データを整理して、立派なデータ基盤が整備された!!‥‥でも誰も使っていない。
それでは意味がありません。でも起こりがちなことです。
なぜ使っていないのか?例えば…
- 利用が難しすぎてハイスキルなエンジニアにしか使いこなせない
- データ基盤の維持の手間がかかりすぎる
- 分析結果が解りやすくない
- 使いづらい
- 分析レポート作成に手間がかかりすぎる
ありがちな理由ですね。
スムーズなデータ活用を実現する手段としての「データ基盤」はどうやら必要そうです。
特に昨今望まれる、業務の現場が自らデータを活用し、ビジネスで成果を出すためには、様々な配慮が必要になります。
それ以外に「技術的理由」からのデータ基盤の必要性がある
ここまで挙げたものは、いわば「取り組み方」の問題です。
例えばお小言として「データ基盤の整備」が説かれる場合には、このような指摘であることが多いのではないかと思います。
※この観点でのデータ基盤整備の必要性については、後で(別の回で)再度触れます。
その前に説明をしたいのが「技術的理由」からのデータ分析基盤の必要性です。
データ基盤(DWH)って何?
「データ基盤の整備が必要なのです、だからこのデータ基盤製品を導入したいのです!」
「なるほど。
でも世の中には沢山の製品があるなかで、どうしてそれでなければいけないのですか?
それに、社内には様々なデータベースが既にあるではありませんか。Oracleも使っています、AWSでデータベースも使っています。その上さらにデータ分析基盤とか、まだ必要なのでしょうか??」
あなたは答えられますか?
まず覚えていただきたいのは、「DWH」(分析用のデータ基盤)と「RDB」(通常「データベース」と呼ぶもの)は違うことです。
「RDB」は「DWH」ではない
(以下ちょっと雑な説明ではあることはお許しください。)
RDBとは、いわば業務遂行を支えるITシステムのために作られたデータベースです。そのためには、日々の業務にあわせて速やかかつ確実に(データ不整合を起こすことなく)、データを追加し、書き換え、削除できる必要があります。
このようなニーズとは別に「分析したいニーズ」もあります。過去10年分の売上データを集計して分析したい。この場合、データ更新に関するシビアな性能が要求されない代わりに、大量のデータを取り扱うことが求められます。
この二つのニーズの両立は、実は技術的(原理的)に困難でした。もし両立できるのなら、DWHは必要ありませんでした。
でも、そうではなかった。
そこで、日々の業務遂行を支えるために「RDB」が、「沢山のデータを溜めて分析する能力」を重視した「DWH(データウェアハウス)」が作られました。
RDBではない「分析用の何か」が必要だった
少なくとも覚えていただきたいのは、データ分析をするために「RDBではないもの」が必要になる場合があり、あるいは「RDBではないもの」を活用するとデータ活用がスムーズになる場合があることです。
今では昔よりコンピュータの性能が高くなったので、RDBでの分析作業もかなりできるようになりました。でも、データ量もどんどん増えている時代です。そして、データ活用が「うまく進むほど」取り組みたいことも増え、取り扱うデータ量は増えてゆくものです。
例えば、データ活用が進むにつれ分析作業がどんどん遅くなって困っているとか、遅い処理を怪物みたいなスペックのマシンでねじ伏せている、もしそういうことがあるなら「データ分析基盤が必要」な状況と言えます。
昨今では本当に大量のデータ、テラバイトやペタバイトクラスのデータの本格的分析作業が望まれることがあります。
そのような進んだデータ活用を実現したいなら分析用の基盤がやはり必要になってきます。
おわりに
いかがでしたでしょうか?
次回は、「データ分析基盤」にはどのようなものがあるかを紹介します。
どうぞお楽しみに!