Azure ML発展応用

Azure MLで複数ノードを使用した分散訓練を実施中に、あるワーカーノードが接続を失った場合、チェックポイント機能が有効になっていたときの動作として正しいものはどれか?

A.訓練は即座に失敗し、初めから再開する必要がある
✗ チェックポイント機能により、訓練を初めからやり直す必要はありません。保存済みの状態から効率的に再開できます。
B.最後のチェックポイントから訓練を再開でき、計算時間の無駄を削減できる← 正解
✓ 正解です。チェックポイント機能により、モデルの重み、オプティマイザ状態、訓練ステップなどが定期的に保存されます。ノード障害発生時に最後のチェックポイントから訓練を再開できるため、計算リソースの無駄を大幅に削減できます。
C.他のワーカーノードが自動的に失敗ノードのパラメータを復元する
✗ 他のワーカーノードがパラメータ復元を自動的に行うわけではなく、チェックポイントから明示的に復元する必要があります。
D.チェックポイントは分散訓練では機能しない
✗ チェックポイント機能は分散訓練でこそ重要性が高く、適切に構成すれば機能します。

この問題のポイント

チェックポイント機能により、モデルの重み、オプティマイザ状態、訓練ステップなどが定期的に保存されます。ノード障害発生時に最後のチェックポイントから訓練を再開できるため、計算リソースの無駄を大幅に削減できます。

AI-900:Microsoft Azure AI Fundamentals の問題一覧