クラスメソッドデータアナリティクス通信(機械学習編) – 2023年6月号

2023年5月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。

クラスメソッドデータアナリティクス通信

クラスメソッドデータアナリティクス通信(機械学習編)

#AWS

#Amazon Rekognition

#Amazon SageMaker

#Amazon Textract

#Amazon Personalize

nayu.t.s

2023.06.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部インテグレーション部機械学習チームの鈴木です。

クラスメソッドデータアナリティクス通信(機械学習編) の2023年6月号です。2023年5月分のアップデート情報をお届けできればと思います。

はじめに

AWSではAmazon SageMakerで生成モデル向けのアップデートがありました。Amazon Personalizeにてカラム選択ができる機能による使いやすさの改善やAmazon Rekognitionの視線の方向を検出する機能など、嬉しいアップデートが多数ありました。

Google CloudではVertex AIにて基盤モデルを利用しやすくするためのアップデートが着実に進んでいます。Vertex AIのカスタムトレーニングジョブの内容をVertex AI Experimentsに連携するアップデートも使いやすさを大きく向上させてくれると思います。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon Rekognitionのアップデート

コンテンツモデレーションの精度が向上

画像および動画に対するコンテンツモデレーションの精度向上が発表されました。新しいコンテンツモデレーションの機能により、さらに高い精度で露骨な表現や暴力的なコンテンツを検出することができます。

視線の方向を検出する機能が一般提供開始

視線の方向を検出する機能が一般提供開始しました。DetectFacesおよびIndexFacesのEyeDirection属性に、人の視線方向のyaw（縦軸の回転）およびpitch（横軸の回転）角度の推定値が出力されます。

DevelopersIOでも以下の記事で紹介されています。

遮蔽物の検出機能が一般提供開始

顔認証の精度を向上させる顔のオクルージョン検知（マスクなど遮蔽物の検知）の一般提供も発表されました。

DetectFacesおよびIndexFacesのFaceOccluded属性から確認することができます。

FaceOccludedは、目・鼻・口の一部がキャプチャされて検出された場合や、顔がマスク・濃い色のサングラス・携帯電話・手・その他の物体で覆われている場合に、高い信頼度スコアでtrueを返すそうです。この検出を使い、ユーザーに部分的に隠れていない顔画像をリクエストするような要件が満たせそうですね。

Amazon Personalizeのアップデート

モデルの訓練に使う特徴量を選択可能に

データセットのどの列をモデルの訓練に使用するかを選択できるようになりました。これにより、簡単に様々なカラムの組み合わせでモデルを訓練・評価できるようになったので、レコメンデーションモデルの開発がスピードアップしますね。

Amazon SageMakerのアップデート

Amazon SageMaker CanvasのモデルをSageMaker Model Registryにワンクリックで登録できるように

Amazon SageMaker CanvasのモデルをSageMaker Model Registryにワンクリックで登録できるようになりました。これによりSageMaker Model Registryを経由してAmazon SageMaker Canvasで作成したモデルを本番環境に、必要であれば承認フローを挟んでデプロイすることができます。

Amazon SageMaker Serverless Inferenceで同時実行をプロビジョニング可能に

サーバーレスエンドポイントで、事前に定義された量の同時実行リクエストに即応できる状態に保つことが可能になります。大量のトラフィックでも、設定した同時実行以内であれば、コールドスタートなしで処理可能です。

推論用のモデルのデプロイにml.inf2・ml.trn1ファミリーのインスタンスが利用可能に

リアルタイムおよび非同期推論用の機械学習 (ML) モデルのデプロイに、ml.inf2およびml.trn1ファミリーのインスタンスが利用可能になりました。規模言語モデル(LLM)やビジョントランスフォーマーなどの生成モデルをデプロイして、低コストかつ高性能な推論を実現できます。SageMaker Inference RecommenderなどSageMakerの便利な機能を利用できることも大きなポイントです。

Amazon SageMakerノートブックがml.p4d、ml.p4de、ml.inf1インスタンスをサポート

Amazon SageMaker Studioノートブックとノートブックインスタンスは、ml.p4dとml.p4deのGPUインスタンスをサポートしました。加えてノートブックインスタンスはml.inf1インスタンスもサポートしました。多くのパラメータを持つ巨大な機械学習モデルの訓練および推論に利用できますね。

SageMaker Autopilotで加重および8つの追加目標メトリクスを利用可能に

加重目標メトリクスでは、不均衡なデータセットのデータサンプルが他より大幅に少ない一部クラスに重みをつけることにより、より性能の高いモデル作成ができるようになりました。Autopilotで実験を作成する際、入力データセットに加重列名を渡せるようです。RMSE・MAE・R2・バランス正解率・適合率・適合率マクロ・再現率・再現率マクロの8つの目標メトリクスも新たにサポートしました。

Geospatial MLがGAに

SageMakerでの、地理空間データを使ったMLモデルの構築・トレーニング・デプロイまでを容易に実施するGeospatial MLがGAになりました。

re:Invent2022で発表されたプレビュー中の機能でした。地理空間データを使った機械学習モデルの開発がSageMakerでより便利にできるのは非常に嬉しい知らせです。

テキスト生成モデルを中心に、基盤モデルをJumpStart上でfine-tuningする機能が登場

Amazon SageMaker JumpStartで、大規模な言語モデル（特にテキスト生成モデル）を固有のデータセットでfine-tuningする機能を提供します。

Amazon SageMaker StudioのUIやSageMaker Python SDKを通じて、GPT-J 6BやGPT-J 6B FP16モデルなどの基盤モデルをJumpStart上でfine-tuningすることができます。

関連して、SageMaker JumpStartとAWS CDKを使って生成モデルをデプロイするソリューション例もAWS Machine Learning Blogで紹介されていました。

Amazon Sagemaker Data Wranglerが画像データの準備に対応

画像データに対してラベル付けおよびトレーニング・推論用のデータ準備をできるようになりました。

以下のブログに具体的にできることのイメージが掲載されていますが、ビルトインの変換を使ってリサイズやコントラストの強調ができることに加え、カスタム変換を使うことも可能のようです。

Ground Truth Plusで基盤モデル向けの機能が登場

Amazon SageMaker Ground Truth Plusで基盤モデルをfine-tuningすることを目的として高品質で大規模なデータセットの準備が可能になりました。

Amazon CodeWhispererをAmazon SageMaker Studioとノートブックインスタンスで利用可能に

Amazon SageMaker StudioとノートブックインスタンスのPythonノートブックで、拡張機能として利用可能になりました。ドキュメントにはインストール方法の紹介もあり、以下のアナウンスページからそれぞれ確認できます。

以下のAWS Machine Learning BlogでUIの例と一緒にインストール方法が紹介されているのである方は併せてご確認ください。

APIのアップデート

2023/05/02 - Amazon SageMaker Service - 2 updated api methods

2023/05/23 - Amazon SageMaker Service - 3 updated api methods

2023/05/24 - Amazon SageMaker Service - 2 updated api methods

2023/05/26 - Amazon SageMaker Service - 8 updated api methods

Amazon Textractのアップデート

AnalyzeDocument APIで利用可能なクエリ機能の品質向上

保険証書・保険金支払い宣言書・賃貸契約書・支払明細書・公共料金請求書など、新たに14種類の文書について、クエリ機能によるデータ抽出の精度が向上しました。

クエリ機能には、自然言語を使って文書から情報を抽出することができる機能です。以下のブログで紹介されています。

Google Cloud

Vertex AIのアップデート

Vertex AIのカスタムトレーニングジョブを、Vertex AI Experimentsからトラッキングできるようになりました。

Vertex AIパイプライン向けのスケジューラーAPIがプレビューで利用可能になりました。これにより、モデルの訓練をスケジュールできますね。

プレビューでVertex AIで生成モデルをテスト・チューニング・デプロイできるようになりました。

関連して、Vertex AI Model Gardenもプレビューで利用可能になりました。

GoogleおよびGoogleパートナーの公開している様々なモデルを検索して、機械学習プロジェクトをジャンプスタートするためのサービスになります。

Model GardenとGenerative AI Studioについては以下のブログ記事も出ていましたのでご紹介します。

Vertex AI Predictionのアップデート

固定数のNVIDIA L4 GPUがアタッチされたG2アクセラレータ最適化マシンタイプが利用できるようになりました。

1つのVM内でリソースを共有する、モデルの共同ホスティングが利用可能になりました。これまではREST APIからのみ利用できる機能でした。

Vertex AI Visionのアップデート

画像のバッチ処理がプレビューで利用可能になりました。画像がアップロードされたCloud Storageのパスを指定することで処理を実行し、指定したパスに出力してくれます。

Vertex AI Visionのための新しいPython SDKも利用可能になりました。

イベント情報

クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。

Classmethod Showcase Data Analytics & Management

『生成AIだけじゃない！ビジネス課題を解決するAI/MLプロダクトのご紹介』というタイトルで、機械学習チームメンバーで登壇します。一般的な機械学習に対する解決策を導入として、弊社が開発中のKPIモニタリングソリューションや会議分析システムなどのAI/ML関連プロダクトについてご紹介します。6/15（木）にオンライン開催となります。