OCRツール「ABBYY」とつないでみた

Avatar
dstn

RPAツールと並んでなにかと話題のOCR。

DataSpider Servistaも先日、Tegakiと連携できるアダプタをリリースしました。

※プレスリリースはコチラ

 

DataSpider ServistaとTegakiはアダプタを使用することで簡単に連携できるようになりました。

では、ほかのOCRツールとの連携はどうだろう。ということで試してみました。

 

ABBYYとの連携

試してみたのはABBYY(アビィ)です。

製品はFineReader14を使いました。(お試し版30日間があります。)

1.png

ABBYYは手書き文字には対応しておりませんが、活字のデータであれば読み込むことが出来、かつフォームの指定などを行わずとも読み込むことが出来ます。

PDF、JPEGなどのデータをOCRデータとしてCSVへ出力したり、ExcelやWordに変換することが出来るツールです。読み込み精度もかなり高いです。

 

今回はPDFのデータをExcelに変換し、DataSpider Servistaを使ってデータを取り込むスクリプトを作ってみることにしました。

取り込むデータは、戸籍謄本です。各自治体でサンプルが公開されているのでそちらを使ってみました。

sample_data.png

 

ますはこちらをABBYYで読み込んでExcelへ書き出しします。

ABBYYの操作は非常にシンプルです。

2.png

 

変換したいファイルを選択すると下記画面になります。

1.png

3.png

保存ボタンを押すと変換が実行されます。

 

4.png

Excelに変換されました。

このタイミングで誤字など修正します。(ベリファイ作業)

ちなみに今回読み込んだ結果には若干誤字がありました。

※例えば「【→i」とか「北→d七」とか。

 

 

スクリプト作成

では、これを使ってDataSpiderでスクリプトを作っていきます。

ますはExcelを読み込む設定をします。

excel_read.jpg

 

今のままのデータでは正常にデータを読み込むことが出来ないので、行列入れ替えを行います。

Filter.jpg

 

入れ替えた結果を一旦CSVに出力します。

csv_write.jpg

 

続いてデータベースへの書き込み設定を行います。

まずはCSV読み込み

csv_read.jpg

 

続いてDB書き込み設定

db_write.jpg

 

Mapping設定

Mapper_a.jpg

 

を行います。

最後にプロセスフローをつないで完成です。

 

では実行してみます。

 

処理が正常に終わったら、データベースのアダプタのテーブルブラウザで結果を確認します。

table_browser_a.jpg

このように、取り込むことが出来ました。

 

あとはプロジェクトをサービス登録し、ファイルトリガーと関連付ければ完成です。

ABBYYはHotFolderという監視フォルダを設定できます。

監視フォルダにファイルが投入されると自動でファイルの変換をかけ、所定のフォルダに出力します。

 

現状OCRの読み取り精度は100%ではありません。そのため必ず変換後にベリファイ作業を行うことが必要です。

ベリファイが完了したらDataSpiderのファイルトリガーが監視しているフォルダにファイルを投入することで、自動的にDBや様々な仕組みへと自動連携できます。

 

まとめ

このようにOCRツールからの出力結果をCSVやExcelに変換することが出来れば、DataSpiderを使って簡単にシステム連携ができます。

今回は単純にデータを登録するだけでしたがMapper内の関数や他のアダプタを組み合わせることで様々な形へデータを加工して登録することもできるようになります。

 

OCRからのデータの登録でお困りの場合でも役に立つDataSpider Servistaでした。

 

コメント

ログインしてコメントを残してください。

Powered by Zendesk