教師なし学習応用

PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大きかったとします。この原因として最も適切なものはどれか?

A.削減の際に削除した40個の成分に、データの重要な変動情報が含まれていた可能性が高い← 正解
✓ 正解です。PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分(削除した40個)にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。
B.主成分分析は必ず直交変換を行うため、復元不可能な情報が理論的に発生する
✗ PCAが直交変換を行うことは事実ですが、復元不可能な情報が『理論的に発生する』わけではありません。すべての主成分を保持すれば完全復元できます。削減による情報喪失が原因です。
C.10個の主成分では線形関係のみしか捉えられず、非線形な特徴量間の関係が失われている
✗ PCAは線形次元削減手法ですが、非線形関係の喪失が問題なら、主成分数を増やしてもほぼ改善されません。質問では10個まで削減したため、削除成分に情報があることが主な理由です。
D.PCAは正規化を前提とするため、正規化されていないデータに対しては復元精度が低下する
✗ PCAは正規化がベストプラクティスですが、正規化されていなくても完全復元(すべての主成分使用)は理論的に可能です。復元誤差の主因は『主成分の削減』にあります。

この問題のポイント

PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分(削除した40個)にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。

AI-900:Microsoft Azure AI Fundamentals の問題一覧