PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大… | AI-900：Microsoft Azure AI Fundamentals

教師なし学習応用

PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大きかったとします。この原因として最も適切なものはどれか？

A.削減の際に削除した40個の成分に、データの重要な変動情報が含まれていた可能性が高い← 正解

✓ 正解です。PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分（削除した40個）にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。

B.主成分分析は必ず直交変換を行うため、復元不可能な情報が理論的に発生する

✗ PCAが直交変換を行うことは事実ですが、復元不可能な情報が『理論的に発生する』わけではありません。すべての主成分を保持すれば完全復元できます。削減による情報喪失が原因です。

C.10個の主成分では線形関係のみしか捉えられず、非線形な特徴量間の関係が失われている

✗ PCAは線形次元削減手法ですが、非線形関係の喪失が問題なら、主成分数を増やしてもほぼ改善されません。質問では10個まで削減したため、削除成分に情報があることが主な理由です。

D.PCAは正規化を前提とするため、正規化されていないデータに対しては復元精度が低下する

✗ PCAは正規化がベストプラクティスですが、正規化されていなくても完全復元（すべての主成分使用）は理論的に可能です。復元誤差の主因は『主成分の削減』にあります。

この問題のポイント

PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分（削除した40個）にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。

「教師なし学習」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。