[アップデート] AWS Glue Data Catalog が Apache Icebergテーブルに対する高度な自動最適化機能を提供

[アップデート] AWS Glue Data Catalog が Apache Icebergテーブルに対する高度な自動最適化機能を提供

Clock Icon2024.12.24

AWS事業本部コンサルティング部の石川です。Apache Icebergテーブルに対する高度な自動最適化機能をAWS Glue Data Catalogに追加しました。今回のアップデートで改善点について解説します。

https://aws.amazon.com/jp/about-aws/whats-new/2024/12/aws-glue-data-catalog-automatic-optimization-iceberg-tables/

Apache Icebergテーブルに対する自動最適化機能とは

AWS Glue Data Catalog は、データの圧縮、スナップショット管理、孤立ファイルの処理が自動的に行われ、メタデータのオーバーヘッド削減、ストレージコスト管理、クエリパフォーマンス向上が実現します。手動でのメンテナンス作業が不要となり、Iceberg テーブルの効率的な運用が可能になります。

この自動最適化機能は、テーブルを定期的に監視し、不要なスナップショットやデータファイルを削除します。ユーザーは保持期間などの設定をカスタマイズでき、AWS コンソール、CLI、SDK を通じて機能を有効化できます。

https://dev.classmethod.jp/articles/20241005-aws-glue-data-catalog-optimization/

最近のアップデートでは、VPC対応も追加され、セキュリティを強化しつつデータ管理の効率化が可能になりました。

https://dev.classmethod.jp/articles/aws-glue-data-catalog-apache-iceberg-vpc/

今回のアップデートで改善した点

マネジメントコンソール上では、違いが見られませんが、これらの機能は既存および新規のGlue Catalogオプティマイザーに自動的に適用されます。

削除ファイルの自動圧縮(コンパクション)対応

Iceberg テーブルの削除ファイルとメタデータのオーバーヘッドが削減されました。特に頻繁に更新が発生するストリーミングデータを扱う環境での効率が改善し、クエリパフォーマンスが向上する考えられます。

  • ストリーミングデータに対するIcebergテーブルの自動コンパクションをサポート
  • メタデータのオーバーヘッドを削減
  • クエリパフォーマンスを向上

ネストされたデータ型のサポート強化

ネストしたデータ方の自動最適化をサポートしました。

  • 深くネストされた複雑なデータ構造のサポート

部分的な進捗コミットのサポート

部分的な進行状況をコミットして競合を減らします。

  • コンフリクトを減らすための段階的なコミット機能
  • データファイルとデルタ/削除ファイルの両方に対してコンパクション処理を実行

パーティション進化のサポート

列の並べ替えや名前の変更に伴うスキーマの進化と、パーティション仕様の進化をサポートするようになりました。

  • スキーマ変更(列の並べ替えや名前変更)
  • パーティション仕様の進化への対応

圧縮コーデックの拡張サポート

  • parquet 圧縮コーデックの zstd, brotli, lz4, gzip, snappyなどの圧縮形式に対応

最後に

AWS Glue Data Catalogに追加された Apache Icebergテーブルに対する高度な自動最適化機能は、削除ファイルの自動圧縮、ネストされたデータ型のサポート強化、部分的な進捗コミット、パーティション進化のサポート、そして圧縮コーデックの拡張サポートなど、多岐にわたる改善が実装されました。

特にストリーミングデータを扱う環境でのメタデータオーバーヘッドの削減とクエリパフォーマンスの向上が期待されます。

Apache Icebergは、高機能かつ広範囲のサポートしているため、データファイルのコンパクションや最適化、その効果的な手法については継続的な進化が求められます。誰もわかってくれないだろうけど、真摯に正常進化していると筆者は感じています。

合わせて読みたい

https://aws.amazon.com/jp/blogs/big-data/accelerate-queries-on-apache-iceberg-tables-through-aws-glue-auto-compaction/

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.