教師なし学習応用
k-meansクラスタリングを実行したとき、初期クラスタ中心をランダムに選び直して再度実行すると、全く異なるクラスタ結果が得られることがあります。このような現象が起きる主な原因として最も適切なものはどれか?
A.クラスタ数Kが小さすぎるため、データの多様性を表現できない
✗ クラスタ数Kが小さいこと自体は、異なる初期値で全く異なる結果が出る直接的な原因にはなりません。K値は結果の精度に影響しますが、同じKなら再現性が期待されます。
B.局所最適解に陥り、異なる初期値から出発すると異なる局所最適に収束する可能性がある← 正解
✓ 正解です。k-meansは局所最適解を求めるアルゴリズムであり、初期クラスタ中心の選択により異なる局所最適に収束することは周知の問題です。複数回の実行と最良結果の選択が一般的です。
C.データの正規化が不足しており、スケールの異なる特徴量の影響を受けている
✗ データの正規化不足は結果の品質に影響しますが、同一データセットに対し同じ正規化を施せば、初期値の違いのみでここまで異なる結果は出にくくなります。
D.クラスタリング反復計算で使用される距離メトリックがユークリッド距離ではなくマンハッタン距離に変更されている
✗ k-meansはユークリッド距離が標準であり、距離メトリックの変更があれば異なる結果は当然ですが、質問では距離メトリックの変更は示唆されていません。
この問題のポイント
k-meansは局所最適解を求めるアルゴリズムであり、初期クラスタ中心の選択により異なる局所最適に収束することは周知の問題です。複数回の実行と最良結果の選択が一般的です。
「教師なし学習」の他の問題
k-meansクラスタリングで「最適なクラスタ数K」を決める一般的な方法はどれか?PCA(主成分分析)の目的として最も適切なものはどれか?階層的クラスタリング(凝集型)を用いて大規模なテキストドキュメント群をクラスタリングしたところ、途中で計算が極めて遅くな…DBSCAN(密度ベースのクラスタリング)でε(近傍半径)パラメータを0.5から1.5に増加させたとき、一般的にどのよう…複数の異なる教師なし学習アルゴリズム(k-means、DBSCANと階層的クラスタリング)を同じデータセットに適用したと…PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大きかったとします。この原因とし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。