AWSのAI・MLサービス応用問題
あなたのチームはAmazon SageMakerでカスタムモデルのトレーニングを行っていますが、トレーニング中に突然EC2インスタンスが障害を起こしました。SageMakerのマネージドスポットトレーニング機能を使用していた場合、この状況で最も期待できる動作はどれですか?
A.トレーニングジョブ全体が失敗し、最初からやり直す必要がある
✗ スポットトレーニングではチェックポイント機能と組み合わせることで再開が可能であり、最初からやり直す必要はありません。
B.チェックポイントが設定されていれば、中断した時点から自動的に再開される← 正解
✓ 正解です。マネージドスポットトレーニングはチェックポイントをS3に保存し、中断後に最後のチェックポイントから再開できます。
C.SageMakerが自動的にオンデマンドインスタンスに切り替えてトレーニングを継続する
✗ SageMakerはスポット中断時にオンデマンドへ自動切替えする機能は持っておらず、ジョブは一時停止・再スケジュールされます。
D.障害が発生したインスタンスは自動修復され、ジョブが停止せずに続行される
✗ スポットインスタンスはAWSのキャパシティ都合で中断されるため、自動修復ではなく中断・再スケジュールが行われます。