機械学習プロジェクトのデータセット分割と評価に関する以下の記述で、誤っているものはどれか。 | AI-900：Microsoft Azure AI Fundamentals

Azure ML誤り発見

機械学習プロジェクトのデータセット分割と評価に関する以下の記述で、誤っているものはどれか。

A.訓練データはモデルのパラメータ学習に使用され、テストデータはモデルの汎化性能を評価するために初めて使用される未知データである。

✓ この記述は正しい。訓練・テスト・検証データの分割原則の基本的な説明である。

B.検証データ（バリデーションデータ）はモデル学習中にハイパーパラメータ調整や正則化強度の選択に用いられ、訓練データとは異なるデータセットである。

✓ この記述は正しい。検証データはモデル選択フェーズに使用される重要な評価セットである。

C.過学習（オーバーフィッティング）を防ぐためには、訓練データの85％をモデル学習に、15％を検証に用いるべきであり、テストデータの比率は固定である。← 正解

✓ 正解です。この記述が誤りです。訓練・検証・テストの分割比率は「85％訓練、15％検証」のような固定値ではなく、データサイズやドメインによって柔軟に調整すべきです。一般的には「60-70％訓練、10-20％検証、10-20％テスト」など様々な配分があります。

D.k分割交差検証を使用することで、データが限定的な場合にも堅牢なモデル評価が可能になり、全データを効率的に活用できる。

✓ この記述は正しい。k分割交差検証はデータが限定的な場合に有効な評価手法である。

この問題のポイント

この記述が誤りです。訓練・検証・テストの分割比率は「85％訓練、15％検証」のような固定値ではなく、データサイズやドメインによって柔軟に調整すべきです。一般的には「60-70％訓練、10-20％検証、10-20％テスト」など様々な配分があります。

「Azure ML」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。