[速報] OCR を超えたテキスト抽出が可能なマネージドサービス！Amazon Textract が発表されました！ #reinvent

re:invent 2018 の Keynote 1日目に発表された Amazon Textract の速報記事です！

AWS re:Invent 2018

#OCR

#Amazon Textract

#AWS

丸毛篤史

2018.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS re:Inventのキーノート、熱い新サービスが続々と登場してきています。フルマネージドで OCR を超えた高機能なテキスト抽出サービスとして Amazon Textract が発表されました！

Amazon Textract

Amazon Textractは、スキャンされたドキュメントからテキストとデータを自動的に抽出するサービスです。単純な光学式文字認識（OCR）を超えて、テーブルに格納されたフォームや情報のフィールドの内容も識別します。ML の知識も経験も必要ないそうです！

機能

光学式文字認識（OCR）
- OCR（Optical Character Recognition）技術を使用して、法的文書や書籍のスキャン、文書のスキャンまたはレンダリングで印刷されたテキストと数字を自動的に検出します。
Key-Valueペアの抽出
- ドキュメントイメージ内のキーと値のペアを自動的に検出
- 抽出されたデータをデータベースに簡単にインポートしたり、変数としてアプリケーションに提供したりすることも可能
- 伝統的なOCRソリューションでは、キーと値は単純なテキストとして抽出されるため、各フォームに対してハードコーディングされたルールが書かれ維持されていない限り、それらの間の関係は失われます。

テーブル抽出
- 抽出中にテーブルに保存されたデータの構成を保存
- 財務報告書や医療記録のように、テーブルの一番上の行に列名が続き、個々のエントリの行が続く構造化データで大きく構成されているドキュメントに役立つ。
- 事前に定義されたスキーマを使用して抽出されたデータをデータベースに自動的にロードできる。
バウンディングボックス
- 抽出されたすべてのデータは、単一の単語、行、または表など、識別された各データを包含するポリゴンフレームであるバウンディングボックス座標とともに返される。
- ソース文書内の単語や番号の場所を監査したり、元の文書のスキャンを検索結果として返す文書検索システムでユーザーをガイドするのに役立つ
信頼スコアのしきい値調整が可能
- ドキュメントから情報が抽出されると、識別するすべての信頼スコアを返し、結果をどのように使用するかについて情報に基づいた決定を下すことができる。
- たとえば、税務書類から情報を抽出して高精度を確保したい場合、95％未満の信頼スコアで抽出された情報にフラグを立て、人間が見直すようにカスタムルールを設定することができる。

価格

課金の種類

ドキュメントテキストの検出 API：ドキュメントテキストの検出 API は、光学式文字認識（OCR）テクノロジを使用して、提供されたドキュメントからテキストを抽出する
ドキュメント解析 API：ドキュメント解析 APIは、フォームからテーブルとキー値ペアを抽出します。たとえば、「名字」のフォームラベルとそれに関連する値です。OCRは、ドキュメント解析 APIを使用する場合は、ドキュメントテキスト検出 APIを使用して無料で実行されます。

無料枠

Amazon Textract を初めて使用した後、最初の3か月間に、Document Text APIを使用して月間1,000ページ、Analyze Document APIを使用して月に100ページまで分析できます。

ドキュメントテキスト（OCR）の検出 API

	1ページあたりの価格	1,000ページあたりの実効価格
1か月あたり最初の100万ページ	$0.0015	$1.50
追加のページ	$0.0006	$0.60

テキストと表のみを含むページのドキュメント解析 API

	OCR	1ページあたりの価格	1,000ページあたりの実効価格
1か月あたり最初の100万ページ	含まれる	$0.015	$15
追加のページ	含まれる	$0.01	$10

テキストとフォームの値のみを含むページのドキュメント解析 API

	OCR	1ページあたりの価格	1,000ページあたりの実効価格
1か月あたり最初の100万ページ	含まれる	$0.05	$50
追加のページ	含まれる	$0.04	$40

テキスト、表、フォームの値を含むページのドキュメント解析 API

	OCR	1ページあたりの価格	1,000ページあたりの実効価格
1か月あたり最初の100万ページ	含まれる	$0.065	$65
追加のページ	含まれる	$0.05	$50

対応リージョン

現在、Amazon Textract が使えるリージョンは下記のとおりです。

US East (Northern Virginia)
US East (Ohio)
US West (Oregon)
EU (Ireland)

日本語対応は？

気になるところは日本語対応してるかどうかですが、FAQ を見るかぎり、日本語対応はまだのようですね。今後に期待しましょう!

Q：Amazon Textractはどのタイプのテキストを検出し抽出できますか？
A：Amazon Textractは標準英語アルファベットとASCII記号からラテンスクリプト文字を検出できます。

さいごに

まだまだ世界中には紙文書がたくさん残っていると思いますが、単なる文字おこしでは、これらの関連付けは結局、人の手が必要となってしまいますが、Amazon Textract は Kye-Value ペアの抽出や、テーブル抽出からデータベースへのインポートや、変数としてアプリケーションに渡せるなど、紙からクラウドにそのまま連携できる画期的なサービスですね！さすが AWS やでー！

まだ日本語対応しておりませんが、プレビューに申し込んで使ってみましょう!

以上！大阪オフィスの丸毛（@marumo1981）でした！