オープンデータ 次世代統計利用システム編 #4 「地域メッシュ統計データ」で東京付近の経済活動を可視化

Avatar
dstn

 

マーケティング企画部の渡辺です。

今回は前回読み込んだオープンデータ、「次世代統計利用システム」の「地域メッシュ統計データ」のデータを可視化してみます。

※前回の記事(今回の記事は続きの記事です)
オープンデータ 次世代統計利用システム編 #3
「地域メッシュ統計データ」でアプレッソ周辺を調査
https://dstn.zendesk.com/hc/ja/articles/220350887

前回読んだデータを可視化してみる

前回、日本全体について500m×500mのメッシュごとに統計データが提供されている「地域メッシュ統計データ」を読み込んでみて、アプレッソ周辺がどういうところか読み取ってみました。

  • 平成21年経済センサス(500Mメッシュ):全産業事業所数及び全産業従業者数 M5339 
  • 平成22年国勢調査-世界測地系(500Mメッシュ):男女別人口総数及び世帯総数 M5339 

ある一地点について調べたいだけならば、市区町村単位の統計データ(これも「次世代統計利用システム」で提供されています)を参照することもできますが、「地域メッシュ統計データ」の特徴は日本全体について500m×500mのメッシュごとにデータが提供され、「面」としてのデータ利用が容易な形式であることです。

そこで今回は「面」的なデータの分析、「一次メッシュ5339(東京付近の関東地方)全体」について、「法人事業所がどのように分布しているか」を調べてみることにしましょう。

X座標とY座標に分離しようと思うものの・・

では、前回の記事にて取得したXMLデータ「平成21年経済センサス(500Mメッシュ):全産業事業所数及び全産業従業者数 M5339」を用いて、作業を進めてみましょう。 

※データは「ID」が「T000617M5339」のものです、手元にデータがなければ過去の投稿を参考に再取得してください(簡単にできます) 

データは以下のような形式で、メッシュごとの事業所数と従業員数が格納されていました。 

<VALUE cat01="T000617001" cat02="1" area="533945582" unit="事業所">444</VALUE>
<VALUE cat01="T000617002" cat02="1" area="533945582" unit="人">4664</VALUE>

データの場所がどこかは「area="XXXXXXXXX"」の部分に格納されていますが、困ったことに、以下のようにX座標とY座標が混ざっている形式になっており、Y座標の成分(緯度)を太字にし、Y座標の成分(経度)を下線にすると以下のようになります

533945582

注意してほしいのは最後の一文字で、X座標とY座標が混ざった値になっています。これはどういうことかというと、

3:北西 4:北東
1:南西 2:南東

という表記になっているためです。よって、最後の文字は「両方」になっています。コンピュータでの処理に向いていない、ちょっと勘弁してほしいフォーマットです。

DataSpiderでX座標とY座標に分離して、CSVに出力しよう

加えて元データはXMLです。XMLからデータを抜き出して、上記を「解読」する変換をする必要があります。ちょっと面倒ですね。 

このようにオープンデータの活用では、様々なところが様々な形式で作ったデータを、利用の都合に合わせて読み込んで変換する必要が生じることがあります。 

通常ならプログラムを書いたり、大量の手作業が必要になってしまいますが、DataSpiderならGUI上で処理ができてしまいます。 

では、データを読み込んで変換するスクリプトを作ってみましょう。 

以下のように、XMLを読み込み→Mapperでの変換(上記の座標変換と、ソートの二段階)→CSVへの書き出しと、読み込んで書き込む処理の間に変換処理をはさんだだけのシンプルなスクリプトです。 

jisedaitoukeiSystem-4a-001 

では、最初のMapperでの変換処理です。XMLから事業所数のデータだけをフィルタし、「地域メッシュコード」の文字列を処理して、X座標とY座標の値を分離する処理を行っています。 

jisedaitoukeiSystem-4a-002

簡単に説明します。まず左側で読み込ませるXMLの構造をスキーマとして設定しています。そして、「VALUE」の要素を繰り返し取得し、CSVに出力するように設定しています。

また、繰り返しアイコンに条件指定をすることでフィルタをしています。「cat01」が「T000617001」と一致するもののみを処理するように、つまり事業所数のデータのみを絞り込む処理を行っています。

その下部にロジックアイコンが多数ありますが、ここで地域メッシュコードを文字列処理してX座標とY座標の値を分離しています。最後の一文字については、「文字ごとの置換」ロジックアイコンで「0」か「5」を出力しています。

なお、今回はすべてのデータが「5339」なので、それ以降のデータ(五文字目以降)を処理し、一次メッシュ5339内部での座標を取り出しています。

jisedaitoukeiSystem-4a-003

次のMapperでは、Yの降順でソートし、Xの昇順でソートしています。これによりデータは一次メッシュの北西の角からはじまり、まず西から東に向かってデータが並び、その次に一つ南側が西から東に並び・・という形式になります。

東京付近の事業所数の分布を可視化する

では、作った変換スクリプトを実行してみましょう。CSVが生成されるはずです。 

出力したCSVをDataSpiderからPC上にダウンロードし、Excelで開いてみてください。 

jisedaitoukeiSystem-4a-004 

一列目がX座標で、二列目がY座標、三列目が事業所数の集計値です。ちゃんとデータが並べ替えられていることがわかります。 

では、これを可視化してみましょう。以下はExcel2010を前提としての操作説明です。 

まず、列Aと列Bと列Cを選択してください。 

jisedaitoukeiSystem-4a-005 

選択したままメニューから、[挿入] - [グラフ] - [その他のグラフ] をクリックし [バブル] とあるバブルチャートのグラフを選択してください。 

すると何やらグラフが表示されると思いますので設定を変更します。グラフ上で右クリックをして [データ系列の書式設定] を選択します。すると設定ウインドウが出ますので、[系列のオプション](最初から表示されています) の設定画面から [サイズの表示] の部分の [バブル サイズの調整] の値を 「10」位にしてください。 

※他、軸の表示範囲なども調整するとよいでしょう 

すると、以下のような結果が得られます。
(是非、下図をクリックして拡大してみてください)

jisedaitoukeiSystem-4a-006

どうでしょうか?ちょっと印象深い結果ではないでしょうか。

これは、事業所の数ですから、東京付近の経済活動の状況を「見える化」したものと言えます。
東京都心が浮かび上がり、右下には東京湾も確認できます。 東京付近の法人事業所数の数をプロットしたデータとしては納得の結果ではないでしょうか。

また、鉄道や道路にそって経済活動が盛んで、駅のある場所で経済活動が盛んなことからか、点を結んだ線のような形が浮かび上がっています。 同じデータでも、人が「見てわかる形」にすることで、眺めるといろいろなことが見えるようになります。

次回の記事

今回は「面」としてデータを取扱うための(そしてオープンデータでありがちな)前処理について、そして「見てわかる」形でデータを表現することで「面」としてのデータの威力を体験しました。

今回はまず「知っている」形を浮き上がらせることで、「見える」感動を味わっていただくことを主としました。

次回は今回の結果を踏まえ、「知らない」データを「見える」形にすることで埋もれた事実の発見、データから何らかの知見を引き出すことを試みます。

ぜひ次回の記事をご覧になっていただければと思います。

コメント

ログインしてコメントを残してください。

Powered by Zendesk