機械学習の基礎応用問題
訓練データの一部に誤ラベル(ノイズ)が含まれていることに気づきました。ノイズ率が5%程度の場合、最も実務的な対応はどれですか?
A.完全なラベル修正までモデル開発を中止する
✗ 完全なラベル修正は現実的ではなく、時間コストが大きすぎます。むしろロバスト性を高める方法が実務的です。
B.L1正則化を強化して、ノイズ特徴量の係数を零にする← 正解
✓ 正解です。ノイズに対する耐性を高めるため、ロバストな損失関数やアンサンブル学習、またはサンプル重み付けなどが有効です。
C.ロバストな損失関数(Huber損失やフォーカス損失など)の導入やアンサンブル学習を検討する
✗ L1正則化はノイズ特徴量の係数を零にしますが、ラベルノイズには直接的な効果が薄いです。
D.ノイズ率が低いため、そのまま学習を進めても汎化性能への影響は無視できる
✗ 5%のラベルノイズでも、特に不均衡データやタスク難易度が高い場合、性能低下は無視できません。