RPAツールと並んでなにかと話題のOCR。
DataSpider Servistaも先日、Tegakiと連携できるアダプタをリリースしました。
※プレスリリースはコチラ。
DataSpider ServistaとTegakiはアダプタを使用することで簡単に連携できるようになりました。
では、ほかのOCRツールとの連携はどうだろう。ということで試してみました。
ABBYYとの連携
試してみたのはABBYY(アビィ)です。
製品はFineReader14を使いました。(お試し版30日間があります。)
ABBYYは手書き文字には対応しておりませんが、活字のデータであれば読み込むことが出来、かつフォームの指定などを行わずとも読み込むことが出来ます。
PDF、JPEGなどのデータをOCRデータとしてCSVへ出力したり、ExcelやWordに変換することが出来るツールです。読み込み精度もかなり高いです。
今回はPDFのデータをExcelに変換し、DataSpider Servistaを使ってデータを取り込むスクリプトを作ってみることにしました。
取り込むデータは、戸籍謄本です。各自治体でサンプルが公開されているのでそちらを使ってみました。
ますはこちらをABBYYで読み込んでExcelへ書き出しします。
ABBYYの操作は非常にシンプルです。
変換したいファイルを選択すると下記画面になります。
保存ボタンを押すと変換が実行されます。
Excelに変換されました。
このタイミングで誤字など修正します。(ベリファイ作業)
ちなみに今回読み込んだ結果には若干誤字がありました。
※例えば「【→i」とか「北→d七」とか。
スクリプト作成
では、これを使ってDataSpiderでスクリプトを作っていきます。
ますはExcelを読み込む設定をします。
今のままのデータでは正常にデータを読み込むことが出来ないので、行列入れ替えを行います。
入れ替えた結果を一旦CSVに出力します。
続いてデータベースへの書き込み設定を行います。
まずはCSV読み込み
続いてDB書き込み設定
Mapping設定
を行います。
最後にプロセスフローをつないで完成です。
では実行してみます。
処理が正常に終わったら、データベースのアダプタのテーブルブラウザで結果を確認します。
このように、取り込むことが出来ました。
あとはプロジェクトをサービス登録し、ファイルトリガーと関連付ければ完成です。
ABBYYはHotFolderという監視フォルダを設定できます。
監視フォルダにファイルが投入されると自動でファイルの変換をかけ、所定のフォルダに出力します。
現状OCRの読み取り精度は100%ではありません。そのため必ず変換後にベリファイ作業を行うことが必要です。
ベリファイが完了したらDataSpiderのファイルトリガーが監視しているフォルダにファイルを投入することで、自動的にDBや様々な仕組みへと自動連携できます。
まとめ
このようにOCRツールからの出力結果をCSVやExcelに変換することが出来れば、DataSpiderを使って簡単にシステム連携ができます。
今回は単純にデータを登録するだけでしたがMapper内の関数や他のアダプタを組み合わせることで様々な形へデータを加工して登録することもできるようになります。
OCRからのデータの登録でお困りの場合でも役に立つDataSpider Servistaでした。