Amazon Lexの新しい多言語ストリーミング音声認識モデル (ASR-2.0) がリリースされ、認識精度が向上しました

#Amazon Lex
#AWS
平井裕二
2024.12.12
 はじめにAmazon Lexは、新しい多言語ストリーミング音声認識モデル (ASR-2.0) にアップデートされました。

https://aws.amazon.com/jp/about-aws/whats-new/2024/12/amazon-lex-multilingual-speech-recognition-models/
Amazon Lexは、AIチャットボットや音声ボットを構築・運用できるフルマネージドAIサービスです。
Amazon Connectと連携させることで、電話での顧客対応を自動化し、効率化することが可能です。

Amazon Lexが音声をテキスト化する際には、裏でAmazon Transcribeが動作しており、今回その音声認識モデルがアップデートされました。
この新しいモデルは、2つの専門的なグループに基づいて認識精度を向上させています。
ヨーロッパベースのモデル
対応言語：ポルトガル語、カタロニア語、フランス語、イタリア語、ドイツ語、スペイン語

アジアベースのモデル
対応言語：中国語、韓国語、日本語

アップデート情報によると、特に英数字の音声認識が向上しています。

これにより、Amazon Connectと連携したLexのチャットボットでは、発信者の識別や業務の自動化に関する顧客の発話を、より正確に理解できるようになりました。
また、アップデート情報では、具体的な改善点として次の点が挙げられています。
アカウント番号、確認番号、シリアル番号、商品コードなどの認識精度が向上
対応言語の地域バリエーションすべてに適用（例：ヨーロッパのフランス語とカナダのフランス語の両方が改善の恩恵を受ける）
非ネイティブスピーカーやさまざまな地域のアクセントに対する認識精度が向上
 新モデルの反映方法これらのモデルは現在、Amazon Lexでサポートされている言語の標準モデルとなっています。既存のボットを再構築（Build）するだけで、新モデルが適用されます。

 旧モデルとの精度比較（2024年12月11日時点）以前、Amazon ConnectからAmazon Lexを呼び出し、自動ヒアリングで数字の認識精度を確認しました際、その検証では、日本語の数字に関しては精度が高いことが分かりました。
以前の数字に関する検証ブログ1
以前の数字に関する検証ブログ2
新モデルで試してみたところ、もともと精度が高かったため、個人的には認識精度の向上を実感することはできませんでした。
英字に関しては、以前より認識精度が向上していることを実感できました。
以前の英字に関する検証ブログ1
以前の英字に関する検証ブログ2
発話内容：「OPQRSTUVWXYZ」
以前のモデルでの文字起こし結果

「e q r a t u r i w a y a r」
今回のモデルでの文字起こし結果

「p. p. 九 r s s. t. u. w. x y. z.」
この入力サンプルは一例であり、すべてのケースで同様の結果が得られるわけではありません。

また、今後のバージョンアップにより改善される可能性があるため、これらの結果は恒久的なものではありません。
 追記：旧モデルとの精度比較（2025年1月10日時点）2025年1月10日時点で、Amazon Lexの新しい音声認識モデルを再度検証した結果、旧モデルと比較して大幅な精度向上が確認されました。

Lexも再度ビルドしました。
具体的な発話内容とその文字起こし結果をまとめます。
以前のモデルの文字起こしブログ
https://dev.classmethod.jp/articles/amazon-connect-lex-bedrock-personal-information/#toc-4
 住所発話内容：「東京都港区西新橋1-1-1 日比谷フォートタワー26階」
以前のモデル：東京 都 港 区 西新橋 一 の 一 の 一 期 は ポート タワー に 十 六 回
今回のモデル：東京都港区西新橋1-1-1日比谷フォートタワー26階
発話内容：「北海道札幌市中央区北３条西1-1-1 札幌ブリックキューブ10階です」
以前のモデル：北海道 札幌 市 中央 区 北 三条 西 一 の 一 の 一 札幌 ブリック キューブ 十 階 です
今回のモデル：北海道札幌市中央区北三条西1-1-1札幌ブリックキューブ10階です
住所は、正確に住所全体が認識され、建物名も正確に文字起こしされています。
 名前発話内容：「ひらいゆうじです」
以前のモデル：ヒライ いう 中 です
今回のモデル：平井裕二で
正確に名前が認識されるようになりました。
 英字発話内容：「ABCDEFGHIJKLMNOPQRSTUVWXYZ」
以前のモデル：a b c d f t t h l n e q r a t u r i w a y a r
今回のモデル：abcdef c hijklmn opqrs tu vwxyz
ほぼ正確にアルファベットが認識され、以前のモデルと比較して大幅に改善されています。
 数字発話内容：「6023548791ですね。」
以前のモデル：六 〇 二 三 五 四 八 七 九 一ですね
今回のモデル：6023 548791ですね
数字が漢数字ではなく、連続した数字列として正しく文字起こしされています。
 生年月日発話内容：「誕生日は、2003年12月20日です」
以前のモデル：誕生 日 は 二 千 三 年 十 二 月 二十 日 です
今回のモデル：誕生日は2003年12月20日です
数字がアラビア数字で認識され、自然な日付表記となっています。
今回の検証では、Amazon Lexの新しい音声認識モデルが旧モデルと比較して大幅に精度が向上していることが確認されました。