まるクラ勉強会で「AWS ParallelClusterとTrainiumを使って大規模言語モデルをトレーニングする入門」というタイトルで登壇しました
AWS ParallelCluster 環境で学ぶ Enroot の基本操作とPyxis 活用方法
AWS ParallelCluster Slurm アカウンティング設定に必要なリソースを AWS CDK で作成してみた
AWS ParallelCluster 既存クラスターに Slurm Accounting 設定を後から追加できるのか検証してみた
AWS ParallelCluster で Slurm Accounting の設定方法を解説
AWS ParallelCluster Slurm アカウンティングのデータベース接続トラブルシューティングガイド
AWS ParallelCluster Slurm アカウンテイングのためのデータベースサービスについて考えた
AWS ParallelCluster 3.7.2 がリリースされ Slurm の脆弱性に対応済みのバージョンとなりました(CVE-2023-41914)
AWS ParallelCluster 3.3.0 で追加された Slurm のデータベース接続設定により、従来の接続設定手順に影響があるのか調べました
AWS ParallelCluster slurmctld.service 起動時 “Remove /var/spool/slurm.state/clustername” のエラーでサービスを起動できないときの原因と対応方法
AWS ParallelCluster コンピュートノードのSTATEをdownからidleへ強制的に戻したいときの対処方法について
AWS ParallelCluster Slurmが複数キュー(パーティション)に対応しました
[GPU編]AWS ParallelCluster SlurmにGPU系ジョブを投げるとクラスターがどうスケールするか試してみた
[CPU編]AWS ParallelCluster SlurmにCPU系ジョブを投げるとクラスターがどうスケールするか試してみた
© Classmethod, Inc. All rights reserved.