【Google Document AI】レシートOCRを試してみた

こんにちは、山田です。

この記事では、Google Document AIの紹介をします。

まずは、Google Document AIの性能を確かめてみようと思います。

今回は、無料で試せるサイトを使用してみます。

手順は簡単で、

たまに間違えてしまうこともありましたが、かなりの精度で読み取れていると思いました。

簡単なので、ぜひお試しください！↓PCを使う場合のリンク cloud.google.com スマホだと、フォームがうまく表示されないことがあるので、↓こちらを使ってください！ cloud.google.com

試してみた結果をふまえて、Google Document AIの特徴を紹介します。

比較対象として、同じGoogleが提供しているOCRの「Vision API」と比較します。

もう一度、先ほどの結果を見てみます。

つまり、商品「レモンサワー」が「438」円であることを、読み取れたということになります。

ドキュメントを読む際には、そのデータを活用できる形で読みとることに意味がありますので、この機能はとても重要です。

新しくキーを追加できる「スキーマ編集」、データを追加で学習させる「uptrain」の機能があります。

これらの機能を使用すれば、さまざまな形式のドキュメントを読み込めそうです。

Google Document AIは、まだ公開されたばかりのサービスです。

そのため、実はまだレシートの読み取りぐらいしかできません。(英語だといろいろできるようですが...)

今後のAIの学習に期待したいです！

Vision APIには無料枠がありますが、Document AIにはありません。

単なる写真の読み取りや、表がない単純なドキュメントの読み取りであれば、Vision APIを選んだ方がいいかもしれません。

今日この頃、画像認識はそんなに珍しいものではなくなってきているように思います。

しかし、面倒な入力作業はまだまだありますよね...

Google Document AIは、それらを何とかしてくれるんじゃないかと、思っております。

読んでいただき、ありがとうございました。

HapInS Developers Blog