OCRに関する知見・経験を話せます

  • 事業者金融
  • エンジニア

経験内容

具体的な経験の内容

通帳の文字認識モデルの開発を行なっていました。
具体的な開発内容としては
- A4サイズの通帳のコピー画像から、通帳の記帳部分を認識するモデルの開発
- 認識して取り出した記帳部分の文字認識を行うモデルの開発
開発はpython、chainer、opencv、numbaを使用。
画像の前処理(記帳部分の認識など)の高速化を行なった他、
chainerで構築したモデルの精度と実行速度のトレードオフを考慮したモデルを構築した。

実績や成果

与信審査の際に通帳写しをお客さんに提出いただいて財務状況を確認していた。
データの方が都合が良いため、ベトナムの作業員に外注し、通帳写しを手打ちでデータ化していた。
将来的な拡大によるデータ化にかかる時間と人件費の増大の懸念、そしてデータが蓄積されていたことから通帳に特化したOCRシステムの開発を行なった。

そのときの課題、その課題をどう乗り越えたか

開発時の大きな課題となったものが
【画像内の文字領域(記帳部分)の抽出】
基本的にはエッジ検出を用いて、検出したエッジを文字部分として取り扱ったが
- 印刷の薄い通帳
- ノイズ(画像内の汚れ)を誤検出
- カラー画像の場合は、カラー背景の濃度による誤検出
- 通帳のフォーマットが異なることが要因となるエラー
といった要因が問題となりました。これらに対する解決に基づいた知見を共有ができます。
【認識速度の担保】
通帳写しのデータ化の速度・支出金額の改善も目標にあったため、モデルの高性能化に伴うコスト削減も必要となった。要件に満たす性能を追えば追うほど速度・コスト共々の懸念点を増していた。GPUの強化を行えば当然高速化は見込めるが、それに伴う支出のコストを回避するためになるべくシステムのチューニングを行なった。
具体的には
- 画像の前処理(記帳部分の認識など)でボトルネックとなる場所をnumbaを用いて高速化
- OCRモデルの計算が早くなるようなモデルへの変更
- OCRモデルの規模を圧縮する(精度はある程度落ちるが、要件を満たすような圧縮を行なった)
といった経験から知見を共有できます。

お役にたてそうと思うご相談分野

- OCRで文字部分の抽出方法
- OCRモデルの高速化

地域

東京都

役割

機械学習エンジニア

期間
2018年 〜 現在
関連する職歴
  • OLTA株式会社 データサイエンティスト

氏名・職歴の開示について

氏名:(開示前)

OLTA株式会社 / データサイエンティスト

プロフィール詳細を見る


自己紹介

"AIの社会浸透"をモットーに課題解決としての機械学習の浸透を目指している。
機械学習を得意としており、中でも画像処理・自然言語処理を行なっている。

過去にも某AI企業への面接対策や、機械学習業務に関する技術コンサルティングも行なっていた。

- 大学学部時代から機械学習論文を日々読んでおり、論文から実務への適用を主とした機械学習を行なっている。

- 業務内外関わらず、kaggleや論文などからチューニングや可視化の勉強を欠かさず、仮説検証ベースですぐに取り入れてもいる。

- Startup Weekendやビジコン、スタートアップ入社・起業経験を体験しており、機械学習含めたデータビジネスの意味や利益を重きに置いている。

- フロントエンド・バックエンド・クラウドインフラ・データパイプラインを一通り業務で行なった経験があり、俯瞰的に機械学習プロジェクトを進めるのが得意

職歴

  • OLTA株式会社 /データサイエンティスト

    2018/8 在職中

  • 個人事業

    2018/2 在職中

  • 株式会社キスモ /エンジニア

    2017/5 2018/8

他の経験