Azure ML誤り発見

機械学習プロジェクトのデータセット分割と評価に関する以下の記述で、誤っているものはどれか。

A.訓練データはモデルのパラメータ学習に使用され、テストデータはモデルの汎化性能を評価するために初めて使用される未知データである。
✓ この記述は正しい。訓練・テスト・検証データの分割原則の基本的な説明である。
B.検証データ(バリデーションデータ)はモデル学習中にハイパーパラメータ調整や正則化強度の選択に用いられ、訓練データとは異なるデータセットである。
✓ この記述は正しい。検証データはモデル選択フェーズに使用される重要な評価セットである。
C.過学習(オーバーフィッティング)を防ぐためには、訓練データの85%をモデル学習に、15%を検証に用いるべきであり、テストデータの比率は固定である。← 正解
✓ 正解です。この記述が誤りです。訓練・検証・テストの分割比率は「85%訓練、15%検証」のような固定値ではなく、データサイズやドメインによって柔軟に調整すべきです。一般的には「60-70%訓練、10-20%検証、10-20%テスト」など様々な配分があります。
D.k分割交差検証を使用することで、データが限定的な場合にも堅牢なモデル評価が可能になり、全データを効率的に活用できる。
✓ この記述は正しい。k分割交差検証はデータが限定的な場合に有効な評価手法である。

この問題のポイント

この記述が誤りです。訓練・検証・テストの分割比率は「85%訓練、15%検証」のような固定値ではなく、データサイズやドメインによって柔軟に調整すべきです。一般的には「60-70%訓練、10-20%検証、10-20%テスト」など様々な配分があります。

AI-900:Microsoft Azure AI Fundamentals の問題一覧