こんにちは、山田です。
この記事では、Google Document AIの紹介をします。
レシートOCRを試してみた
まずは、Google Document AIの性能を確かめてみようと思います。
今回は、無料で試せるサイトを使用してみます。
手順は簡単で、
サイトを開き、「Expense」を選択します。
「Browse」をタップしてレシートの写真を選択します。
「私はロボットではありません」にチェックして、待ちます。
たまに間違えてしまうこともありましたが、かなりの精度で読み取れていると思いました。
簡単なので、ぜひお試しください!↓PCを使う場合のリンク cloud.google.com スマホだと、フォームがうまく表示されないことがあるので、↓こちらを使ってください! cloud.google.com
Google Document AIの特徴
試してみた結果をふまえて、Google Document AIの特徴を紹介します。
比較対象として、同じGoogleが提供しているOCRの「Vision API」と比較します。
良い点
構造化されたデータを読み取れる
もう一度、先ほどの結果を見てみます。
- line_item/amountは、値段を表すキーです。438という数字が値段であることを判別できています。
- 同様に、line_item/descriptionは、商品名を表すキーです。レモンサワーが商品名であることを判別できています。
- line_itemは、同じ行であることを表すキーです。レモンサワーと438が同じ行の情報ということを判別できています。
つまり、商品「レモンサワー」が「438」円であることを、読み取れたということになります。
ドキュメントを読む際には、そのデータを活用できる形で読みとることに意味がありますので、この機能はとても重要です。
拡張性が高い
新しくキーを追加できる「スキーマ編集」、データを追加で学習させる「uptrain」の機能があります。
これらの機能を使用すれば、さまざまな形式のドキュメントを読み込めそうです。
微妙な点
日本語対応しているParserが、まだ少ない
Google Document AIは、まだ公開されたばかりのサービスです。
そのため、実はまだレシートの読み取りぐらいしかできません。(英語だといろいろできるようですが...)
今後のAIの学習に期待したいです!
有料
Vision APIには無料枠がありますが、Document AIにはありません。
単なる写真の読み取りや、表がない単純なドキュメントの読み取りであれば、Vision APIを選んだ方がいいかもしれません。
まとめ
今日この頃、画像認識はそんなに珍しいものではなくなってきているように思います。
しかし、面倒な入力作業はまだまだありますよね...
Google Document AIは、それらを何とかしてくれるんじゃないかと、思っております。
読んでいただき、ありがとうございました。