機械学習の基礎誤り発見

機械学習モデルの学習プロセスに関する以下の記述で、誤っているものはどれか。

A.訓練データセットはモデルのパラメータを調整するために使用され、通常はデータ全体の70~80%が割き当てられる。
✓ この記述は正しい。訓練データは通常全体の70~80%が一般的であり、残りを検証・テストに割き当てる。
B.検証データセット(Validation Set)はハイパーパラメータを調整する際に用いられ、訓練に直接使われない。
✓ この記述は正しい。検証セットでハイパーパラメータを調整し、訓練プロセスには含めない。
C.テストデータセットはモデルの最終的な性能を評価するために使用され、訓練やハイパーパラメータ調整で一度も使用されてはいけない。
✓ この記述は正しい。テストセットは最終評価専用であり、情報漏洩を防ぐため訓練・調整に使ってはいけない。
D.訓練・検証・テストの3つのデータセットを確保できない場合は、訓練と検証のみ分割しても良い。← 正解
✓ 正解です。この記述が誤りで、訓練・検証・テストの3分割が基本原則である。テストセットなしでモデル評価すると過学習の危険性が高まり、真の汎化性能を測定できない。

この問題のポイント

この記述が誤りで、訓練・検証・テストの3分割が基本原則である。テストセットなしでモデル評価すると過学習の危険性が高まり、真の汎化性能を測定できない。

AI-900:Microsoft Azure AI Fundamentals の問題一覧