機械学習の基礎応用問題

特徴量の数が サンプル数よりはるかに多い高次元データ(特徴量10000個、サンプル200個)をロジスティック回帰で学習した場合、どのような問題が発生する可能性が高いですか?

A.次元が高いため、計算量が増加するが、予測精度は向上する
✗ 次元が高いと計算量は増加しますが、むしろ予測精度は低下し過学習が発生しやすくなります。
B.特徴量が多すぎることで、過学習が発生しやすく、汎化性能が低下する← 正解
✓ 正解です。パラメータ数がサンプル数を大幅に上回ると、訓練データに過度に適合し、テストデータへの汎化性能が大きく低下します。
C.高次元データはニューラルネットワークでのみ処理可能であり、ロジスティック回帰では動作しない
✗ ロジスティック回帰は高次元データでも原理的には動作します。ただし過学習リスクが高まるため、正則化などが必要です。
D.次元の呪いにより、全ての特徴量が等しく重要になり、特徴選択が不可能になる
✗ 次元の呪いでも、特徴量の重要度は異なります。むしろノイズ特徴量も学習されるため、特徴選択が重要になります。

G検定(深層学習・ジェネラリスト検定) の問題一覧