訓練データの一部に誤ラベル（ノイズ）が含まれていることに気づきました。ノイズ率が5%程度の… | G検定（深層学習・ジェネラリスト検定）

機械学習の基礎応用

訓練データの一部に誤ラベル（ノイズ）が含まれていることに気づきました。ノイズ率が5%程度の場合、最も実務的な対応はどれですか？

A.完全なラベル修正までモデル開発を中止する

✗ 完全なラベル修正は現実的ではなく、時間コストが大きすぎます。むしろロバスト性を高める方法が実務的です。

B.L1正則化を強化して、ノイズ特徴量の係数を零にする

✗ L1正則化はノイズ特徴量の係数を零にする効果はありますが、ラベルノイズ（誤ったラベル）に対する直接的な効果は限定的です。

C.ロバストな損失関数（Huber損失やフォーカル損失など）の導入やアンサンブル学習を検討する← 正解

✓ 正解です。ノイズに対する耐性を高めるため、ロバストな損失関数やアンサンブル学習、またはサンプル重み付けなどが有効な実務的対応です。

D.ノイズ率が低いため、そのまま学習を進めても汎化性能への影響は無視できる

✗ 5%のラベルノイズでも、特に不均衡データやタスク難易度が高い場合、性能低下は無視できません。

この問題のポイント

ノイズに対する耐性を高めるため、ロバストな損失関数やアンサンブル学習、またはサンプル重み付けなどが有効な実務的対応です。

「機械学習の基礎」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。