「AIが強力にサポート！データ分析・ML系サービスアップデート」というタイトルでCM re:Growth 2023 OSAKAに登壇しました #AWSreInvent #cmregrowth

re:Invent2023のアナリティクス系サービスのアップデートについて、特に生成系AI・機械学習アルゴリズムをエンジンとしたものに注目して紹介しました。

なにわだより

#AWS

#Amazon Redshift

#Amazon Q

#Amazon DataZone

#AWS Glue Data Quality

nayu.t.s

2023.12.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部機械学習チームの鈴木です。

2023/12/11に開催された『#AWSreInvent ふりかえり勉強会 CM re:Growth 2023 OSAKA』にて『AIが強力にサポート！データ分析・ML系サービスアップデート』というタイトルで発表しました。

今年は確実に生成系AIが一つの流行だったと思いますが、AWSのアナリティクス系サービスのアップデートにも生成系AIおよび機械学習のエンジンを搭載することによるものが多数発表されました。

ではそのアップデートでどのような課題を解決したいのか考えたときに、どうしても人手がかかってしまう日々のデータにまつわる業務に対して、生成系AI・機械学習アルゴリズムを使ってとても積極的にアプローチしているのだなと思ったので、これらのアップデートについてご紹介しました。

発表資料

特に生成系AI・機械学習アルゴリズムを利用した以下の４つのアップデートについてご紹介しました。

紹介したアップデート

ポイント

1. アップデートがどのような課題を解決したと考えているか

今回紹介するアップデートがどんな課題に対して効果がありそうかイメージが掴めるよう、データ活用にまつわる悩みごとをご紹介しました。

ある日突然、昨日まで普通に動いていたデータ連携パイプラインに異常が現れる（データソースの仕様変更によるもの）
手動の作業が必要（データカタログの充実を例に）
データの分析にノウハウが必要（SQL・Pythonのコードについて、APIに関する知見が必要）

解決する課題

一つ一つの内容はそこまで大したことはないのですが、データ活用の場合は物力が多いことが多く（例：100テーブルあるなど）、こういった些細な内容が積み重なると組織全体での施策の大きな障害になると考えています。

ただし、これを解決しようとなると、「頑張ってカタログにメタデータをつける」とか「チームの誰かがSQLを勉強する」といった解決策になりがちです。もちろんやれるならやったほうがいいのですが、特にデータを作っている個々のチームでは必ずしもメンバーがデータ活用のための役割を持っている訳ではないので、なかなか対応が進まないというのが実際のところよくある状況なのではないかと考えています。

2. テキストによるクエリや分析用スクリプトの生成

Amazon Q generative SQLによる分析クエリ支援(プレビュー)と、Amazon SageMaker CanvasのChat for data prepをご紹介しました。

自然言語による指示

プレビュー提供のAmazon Q generative SQLによる分析クエリ支援では、クエリエディタv2上で接続したデータベースに対して特に何も設定しなくても、チャットで分析したい内容を質問すれば分析用のSQLを生成してくれます。

プレビュー提供中の、Amazon Redshift クエリエディタのAmazon Q generative SQLを試してみた | DevelopersIO

Amazon SageMaker CanvasのChat for data prepでも、SageMaker Canvasのflowの画面で、チャットにより分析や変換の内容を生成することができるようになりました。

Amazon SageMaker CanvasのChat for data prepを使い、チャットで分析やデータ変換を作成してみた | DevelopersIO

私は分析用のSQLとPythonスクリプトは結構な頻度で書きますが、数日あいだが開くと意外と「あれっ、これってどう書くんだっけ？」と思ってネットで調べたりすることがあるので、質問すれば回答してくれるのはコードが書けても大変便利です。また、書き方が分かっていても、考えているロジックをコードに表現するのは結構体力を使ってしまう性格なので、思ったことを言葉にすればコードに変換してくれるなら、その分結果の確認や考察にパワーを使えるのでとても効率が上がります。

もちろん、コードを書かない人が自然言語で扱えるようになるというのも大きなポイントです。

3. 異常検知と分析ルールの生成

AWS Glue Data Qualityの機械学習による異常検出と動的ルールの提案について紹介しました。

異常検知

データ品質の担保は非常に重要なことです。例えば、組織のポリシーによってはデータカタログにデータを公開する際には守るべきデータ品質の基準を提示しているかもしれません。この基準に違反した場合、データを提供するわけにはいけないので、データコンシューマーは品質が直るまではデータを使うことができなくなってしまいます。これは日次連携のときなどは結構大変で、朝出勤したらその日は半日はその対応をしないといけなくなったりします。

このアップデートでは、過去の推移の表示と新しいルールの提案をしてくれるため、障害対応の方針や暫定策・恒久策の立案がとてもやりやすくなります。特に運用作業を担当している方にはとても嬉しいアップデートだと思います。

内容はniinoさんが執筆した以下のブログを参考にしています。より詳細に出力の使い方がイメージできるのでぜひご確認ください。（スライド中の画像もお願いして貸してもらいました。）

4. データカタログの説明の生成

Amazon DataZoneの生成系AIベースのビジネスデータカタログ強化のための機能をご紹介しました。

データカタログの説明

ビジネスデータカタログの充実は組織のデータ活用において非常に重要です。データコンシューマーは自分のデータ活用のためにビジネスデータカタログに記載されている内容を参考にデータを選び、自分のデータに統合して分析に活用します。

つまり、適切なデータ活用を行うためには十分に詳しい説明をデータカタログにつけておく必要がある訳ですが、ではその情報を誰がつけるかというと、最終的にはそのデータに詳しいメンバーが頑張って自分でつけることになります。一方で、データに本当に詳しいメンバーは必ずしもデータカタログ充実のための役割を持っている訳ではないため、忙しい中時間をとって作業をしてもらう必要があるかもしれません。

データカタログ管理者は、データに詳しい人にお願いしてデータカタログを作ってもらわないといけず、データに詳しい人はなんとか時間を作ってカタログを充実させないといけないという、なかなか前向きにはデータカタログが充実しない状況が一般的なところだったのかなと考えています。

このアップデートでは、生成系AIベースでビジネスデータカタログに掲載する各種説明を自動生成してくれるため、カタログ充実をお願いする側は「途中まで書いてあるので手直しをお願いできますか」と依頼でき、データに詳しい人は「途中まで書いてくれているからちょっと直してみるか」という気持ちになりやすいので、データカタログ充実に向けて前向きになりやすい状態になりやすくなったのではないかと思います。