Hadoop HDFSに任意の名前でファイルをアップロードしたい

Avatar
dstn

Hadoop HDFSに任意の名前でファイルをアップロードしたい

キーワード:Hadoop,HDFS,ビッグデータ

概要

Hadoop HDFSにファイルをアップロードしたい場合、ファイルアップロード処理を使用します。

サンプルプロジェクトの説明

ディレクトリ内のファイル名一覧を取得し、ファイル名に実行日付を付与してHDFSにアップロードします。


処理の流れ

サンプルプロジェクトの処理の流れは以下の通りです。
  1. ファイル名一覧取得処理」でディレクトリ内のファイル名一覧を取得します。
  2. 繰り返し(データ件数)処理」でファイル件数分、以下の処理を繰り返します。
    1. マッピング処理」でファイル名を編集し、スクリプト変数に代入します。
    2. ファイルアップロード処理」でHDFSにファイルをアップロードします。
実行結果のイメージについては、以下を参照してください。
  • 2015年3月12日に実行した場合のファイル名

    元ファイル名 アップロード後ファイル名
    file.log file-2015-03-12.log
    process.log process-2015-03-12.log

ポイントとなる機能

名前 説明 ツールパレット上の場所
マッピング処理 入力データの変換を行います。 「変換」-「基本」-「マッピング」
ファイルアップロード処理 HDFS(Hadoop Distributed File System)にファイルをアップロードします。 「ビッグデータ」-「Hadoop HDFS」-「ファイルアップロード」

処理のポイント

ファイルアップロード処理は、アップロード後のファイル名を設定することができます。
[HDFSファイルパス]にスクリプト変数を使用することで、ファイルごとに異なるファイル名を設定します。

サンプルプロジェクトの使用方法

上記処理を実装したサンプルプロジェクトを用意しています。サンプルプロジェクトを使用する場合の手順は、以下の通りです。

サンプルプロジェクトのダウンロード 逆引きリファレンス シナリオ090のサンプルプロジェクト
  1. サンプルプロジェクトの展開
    サンプルプロジェクトファイル「rl_reference_090.zip」を展開します。

  2. プロジェクトのアップロード
    「rl_reference_090.zip」を展開後に作成される「rl_reference_090プロジェクト」ディレクトリがプロジェクトファイルとなります。
    DataSpider Studioを起動し、マイプロジェクトの画面から[ファイル]-[ローカルからアップロード]で展開したディレクトリ「rl_reference_090プロジェクト」をアップロードしてください。

  3. サンプルデータの準備
    「rl_reference_090.zip」を展開後に作成される「samples」ディレクトリがサンプルデータとなります。
    $DATASPIDER_HOME/server/samplesディレクトリに上書きしてください。

  4. グローバルリソースの設定
    コントロールパネルの[グローバルリソースの設定]から、[新しいグローバルリソースの追加]を選択し、Hadoop HDFSのグローバルリソースを追加します。
    グローバルリソースの設定方法については、DataSpider Servistaヘルプの「グローバルリソースのプロパティ」を参照してください。

スクリプトの作成手順

プロセスフローおよびデータフローは、「 サンプルプロジェクトの説明」のスクリプト画像を参照して適宜設定してください。
  1. ファイル名として使用するスクリプト変数を作成します。
    • スクリプト変数のプロパティは、以下のように設定します。

      スクリプト変数のプロパティ

      変数名 変数型 初期値
      ファイル名 文字列型  
      アップロードファイル名 文字列型  

  2. デザイナのツールパレット「ファイル」-「ファイル操作」-「ファイル名一覧取得」から、ファイル名一覧取得処理をスクリプトキャンバスに配置します。
    • ファイル名一覧取得処理の設定は、以下のように行います。

      [必須設定]タブ


  3. デザイナのツールパレット「基本」-「フロー」-「繰り返し(データ件数)」から、繰り返し(データ件数)処理をスクリプトキャンバスに配置します。
    • 繰り返し(データ件数)処理の設定は、以下のように行います。

      [必須設定]タブ

      [XMLデータ処理]タブ


  4. デザイナのツールパレット「変換」-「基本」-「マッピング」から、マッピング処理をスクリプトキャンバスに配置します。

  5. マッピング処理のMapperエディタを開き、実行日付を付与したファイル名を作成し、スクリプト変数に代入します。
    • マッピングキャンバスは、以下のように設定します。

      マッピングキャンバス



      番号 ロジック名 説明 ツールパレット上の場所
      (1) 指定文字より前 入力文字列の指定文字より前を返します。
      [必須設定]タブの[区切り文字列]には「.」を入力します。
      「文字列」-「関数」-「指定文字より前」
      (2) 現在日時 現在日時を出力します。 「日付」-「基本」-「現在日時」
      (3) 日時フォーマッティング 日時を指定したフォーマットで出力します。
      [必須設定]タブの[フォーマット]には「-yyyy-MM-dd.」を入力します。
      「文字列」-「日付」-「日時フォーマッティング」
      (4) 指定文字より後 入力文字列の指定文字よりあとを返します。
      [必須設定]タブの[区切り文字列]には「.」を入力します。
      「文字列」-「関数」-「指定文字より後」
      (5) 連結 文字列を連結して返します。
      [必須設定]タブの[入力数]には「3」を入力します。
      「文字列」-「演算」-「連結」

      処理のポイント
      • 指定文字より前ロジック」および「指定文字より後ロジック」で拡張子の前後を取得します。
      • フォーマッティングした日付に拡張子の前後を連結することでファイル名に日付を挿入します。

  6. デザイナのツールパレット「ビッグデータ」-「Hadoop HDFS」-「ファイルアップロード」から、ファイルアップロード処理をスクリプトキャンバスに配置します。
    • ファイルアップロード処理の設定は、以下のように行います。

      [必須設定]タブ



      処理のポイント
      • [アップロード元ファイルパス]および[HDFSファイルパス]にスクリプト変数を使用することで、スクリプトを改修せずに動的に設定値を変更することができます。
        スクリプト変数は、以下の方法で素早く入力できます。
        • 入力フィールドにフォーカスをあてて表示させる変数入力アシスタント機能から選択します。
        • 入力フィールドの右クリックメニューで[スクリプト変数]を選択します。

  7. スクリプトを実行し、正常終了すれば成功です。

コメント

ログインしてコメントを残してください。

Powered by Zendesk