特徴量の数がサンプル数よりはるかに多い高次元データ（特徴量10000個、サンプル200個… | G検定（深層学習・ジェネラリスト検定）

機械学習の基礎応用

特徴量の数がサンプル数よりはるかに多い高次元データ（特徴量10000個、サンプル200個）をロジスティック回帰で学習した場合、どのような問題が発生する可能性が高いですか？

A.次元が高いため、計算量が増加するが、予測精度は向上する

✗ 次元が高いと計算量は増加しますが、むしろ予測精度は低下し過学習が発生しやすくなります。

B.特徴量が多すぎることで、過学習が発生しやすく、汎化性能が低下する← 正解

✓ 正解です。パラメータ数がサンプル数を大幅に上回ると、訓練データに過度に適合し、テストデータへの汎化性能が大きく低下します。

C.高次元データはニューラルネットワークでのみ処理可能であり、ロジスティック回帰では動作しない

✗ ロジスティック回帰は高次元データでも原理的には動作します。ただし過学習リスクが高まるため、正則化などが必要です。

D.次元の呪いにより、全ての特徴量が等しく重要になり、特徴選択が不可能になる

✗ 次元の呪いでも、特徴量の重要度は異なります。むしろノイズ特徴量も学習されるため、特徴選択が重要になります。

この問題のポイント

パラメータ数がサンプル数を大幅に上回ると、訓練データに過度に適合し、テストデータへの汎化性能が大きく低下します。

「機械学習の基礎」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。