教師なし学習応用
PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大きかったとします。この原因として最も適切なものはどれか?
A.削減の際に削除した40個の成分に、データの重要な変動情報が含まれていた可能性が高い← 正解
✓ 正解です。PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分(削除した40個)にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。
B.主成分分析は必ず直交変換を行うため、復元不可能な情報が理論的に発生する
✗ PCAが直交変換を行うことは事実ですが、復元不可能な情報が『理論的に発生する』わけではありません。すべての主成分を保持すれば完全復元できます。削減による情報喪失が原因です。
C.10個の主成分では線形関係のみしか捉えられず、非線形な特徴量間の関係が失われている
✗ PCAは線形次元削減手法ですが、非線形関係の喪失が問題なら、主成分数を増やしてもほぼ改善されません。質問では10個まで削減したため、削除成分に情報があることが主な理由です。
D.PCAは正規化を前提とするため、正規化されていないデータに対しては復元精度が低下する
✗ PCAは正規化がベストプラクティスですが、正規化されていなくても完全復元(すべての主成分使用)は理論的に可能です。復元誤差の主因は『主成分の削減』にあります。
この問題のポイント
PCAは分散が大きい順に主成分を抽出しますが、分散が小さい成分(削除した40個)にも実データの重要な情報が含まれている可能性があり、その場合復元誤差が大きくなります。
「教師なし学習」の他の問題
k-meansクラスタリングで「最適なクラスタ数K」を決める一般的な方法はどれか?PCA(主成分分析)の目的として最も適切なものはどれか?k-meansクラスタリングを実行したとき、初期クラスタ中心をランダムに選び直して再度実行すると、全く異なるクラスタ結果…階層的クラスタリング(凝集型)を用いて大規模なテキストドキュメント群をクラスタリングしたところ、途中で計算が極めて遅くな…DBSCAN(密度ベースのクラスタリング)でε(近傍半径)パラメータを0.5から1.5に増加させたとき、一般的にどのよう…複数の異なる教師なし学習アルゴリズム(k-means、DBSCANと階層的クラスタリング)を同じデータセットに適用したと…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。