マーケティング企画部の渡辺です。
しばらく間があいてしまいましたが、オープンデータの連載の続きです。
今回は「次世代統計利用システム」の「地域メッシュ統計データ」のデータを可視化することで、データから事実を発見してみます。
※前回の記事(以下の記事は続きです)
オープンデータ 次世代統計利用システム編 #4
「地域メッシュ統計データ」で東京付近の経済活動を可視化
https://dstn.zendesk.com/hc/ja/articles/220350927
気になることをさらに調べてみよう
前回は「事業所の数」を見えるようにし、「東京付近の経済活動を可視化」してみました。
今回は「見える」ことを使って、データを分析してみようと思います。
以前の記事、アプレッソ付近の「地域メッシュ統計データ」のデータを読み込んでみた記事で、ちょっと気になる事実がありました。
「オープンデータ 次世代統計利用システム編 #3」
「地域メッシュ統計データ」でアプレッソ周辺を調査
http://dstn.appresso.com/magazine/detail/?id=1499
アプレッソ周辺は男性より女性の人口が多い
- 人口総数は 4756人
- うち男性は 2285人
- うち女性は 2471人
通常は男性の方が人口が多いはずなので、ちょっと不思議です。どうしてなのでしょう?
また、同じように、男性より女性の人口が多い地区はどこにあるのか、気になりませんか。
必要なデータを取得する:作成済みのスクリプトを流用する
それでは、
- 東京付近(メッシュ5339)の男性の人口
- 東京付近(メッシュ5339)の女性の人口
を取得して可視化してみることにしましょう。
データの取得は、前回までに作ったスクリプトを流用することですぐに行えます。
まずは、男女の人口が入っているデータを取得しましょう。
ではまず、「statsDataId」が「T000609M5339」のデータを取得してください。第三回の記事で作ったスクリプトをそのまま利用できます(あるいは取得済みのデータがあるなら、それを使ってください)。
「オープンデータ 次世代統計利用システム編 #3」
https://dstn.zendesk.com/hc/ja/articles/220350887
必要なデータを抽出する:作成済みのスクリプトを流用する
では、取得したデータから、地域メッシュごとの男性の人口と、女性の人口を取り出してみましょう。
こちらも、作成済みのスクリプトを流用しましょう。
前回の記事で作ったスクリプトを以下のように変更して、必要なデータを取り出しましょう。
前回の記事:
「オープンデータ 次世代統計利用システム編 #4」
http://dstn.appresso.com/magazine/detail/?id=1555
男性の人口を取り出す
- 読み込ませるXMLデータを今回利用するものに変更する
- 繰り返しアイコンに条件指定による絞り込み条件の変更
→「cat01」が「T000609002」と一致するもののみを処理する
女性の人口を取り出す
- 読み込ませるXMLデータを今回利用するものに変更する
- 繰り返しアイコンに条件指定による絞り込み条件の変更
→「cat01」が「T000609003」と一致するもののみを処理する
以上で、「男性の人口」と「女性の人口」が出力されたCSVファイルができるはずです。
データを合体させる:あわせて分析したいデータを一つにする方法
では、「男性の人口」と「女性の人口」のそれぞれのCSVを読み込み、両方の数値が入ったCSVを作りましょう。
オープンデータの活用では、様々なデータソースからとってきたデータを組み合わせて活用することがあります。これから作る処理は、地域メッシュに関して別々のところからとってきたデータを組み合わせて活用する際に使えます。
では、スクリプトを作りましょう。
※以下は作成したスクリプトに説明のために番号を書き加えたものです。
処理の内容を簡単に説明します。
まず、①で地域メッシュごとの男性の人口のデータ(既に作成したCSV)、②で地域メッシュごとの女性のデータ(こちらも既に作成したもの)を読み込んでいます。
③と④では、地域ごとにデータをマージするために、座標ごとにキーとなるデータを作っています。具体的には「x」と「y」の二つの文字列を間に「+」をはさんでくっつけたデータ「x+y」を作っています。
⑤では、「And-Integrateマージ」を用い「x+y」を基準にして二つのデータを合体させています。
⑥では、「x+y」を再度「x」と「y」に戻し、⑦で処理結果をCSVとして出力しています。
作成したデータを「見える化」する
では作成した処理を実行して、合体させたデータを作ってみましょう。
生成されたデータをExcelを開いてみると以下のようになります。ちゃんと、一つのCSVになっていますね。
では、男女比率を計算して可視化してみましょう。E列(の全て)に以下のような式を入れてみましょう。
=(D1-C1)/(D1+C1)
Dは女性の人口、Cは男性の人口ですから、女性の比率に応じて「-1~1」の間の値を取る数字が計算されます。
では、前回の記事と同じようにして、データを「見える化」してみましょう。
まずA列とB列、E列を選択してください。
選択したままメニューから、[挿入] - [グラフ] - [その他のグラフ] をクリックし [バブル] とあるバブルチャートのグラフを選択してください(Excel2010を想定しています)。
すると何やらグラフが表示されると思いますので設定を変更します。グラフ上で右クリックをして [データ系列の書式設定] を選択します。すると設定ウインドウが出ますので、[系列のオプション](最初から表示されています) の設定画面から [サイズの表示] の部分の [バブル サイズの調整] の値を 「5」位にしてください。
※他、軸の表示範囲なども調整するとよいでしょう
すると、以下のような結果が得られます(拡大して確認してみてください)。
「見える化」したデータをみて考えてみよう
では、見えるようになったデータで色々考えてみましょう。
全体の傾向を見てみよう
まず「面」としての傾向を眺めてみましょう。
地域による違いが特にないのなら、「何も模様は出てこない」ように思われますが、結果はそうではないようです。どうやら「女性比率が高い地域」(その一帯の「色」が濃い部分)と「そうでない地域」(白い部分)があることが解ります。ざっと見たたけでも例えば、港区?方面では女性人口が多い傾向があり、新宿付近?では少ない傾向がありそうなのが見えます。
「とびぬけた値の点」は何だろう?
では次に、「その点だけ飛びぬけて女性人口が多く、大きな黒丸で表示されている場所」について確認してみましょう。
まず、人口が少ない地区でたまたま女性が多い場合(例えば、総人口2で男性0、女性2など)が表示されていることがわかります。分析をする際に、人口が一定以下の地区は別途考察した方が良いかもしれないことが解ります。
次に、都心に近いところを調べてみましょう。都心に近いところで、飛びぬけて女性の人口比率が高いところ(①「580,410」)があります。ここは何でしょうか?
地域メッシュコードでは「5339-4518-1」になります。どんなところか調べてみると、「赤坂御用地」(宮内庁)であることが解ります。女性人口が多い理由は解りませんが、確かに「通常の場所とは異なる」地点が、データ分析から見つかりました。
他の地点も調べてみると、
- 都心から南東側の東京湾に突き出している部分、「②635,360」で地域メッシュコードが「5339-3663-2」の場所を確認すると、「大きな病院」の敷地内でした(看護婦さん?)
- 都心から北西にあるもの、「③465,540」で地域メッシュコードが「5339-5446-2」の場所を確認すると、埼玉県朝霞市の「大きな神社」の境内でした(巫女さん?)
と、データの分析結果から「発見」が出来ることが解ります。同じようにして様々なデータを分析すると、いろいろなことが解るでしょう。
おわりに
以上、四回にわたって「次世代統計利用システム」の「地域メッシュ統計データ」のデータを読み込んで利用する方法や、「面」として提供されているデータの特性を生かすべく「見える化」してみたりしました。
「次世代統計利用システム」では他にもさまざまなデータが公開されていますし、市町村や交通機関など、様々なところから様々なデータが公開されています。オープンデータの活用について、またオープンデータ活用においてDataSpiderや「つなぐ」技術がどのように役に立つか、少しでもイメージが伝わっていれば幸いです。
非常にわかりやすかったです。
ありがとうございます! 引き続きさまざまな活用方法を紹介していこうと思います。