教師なし学習応用
顧客セグメンテーションでk-meansを使用し、最初は5つのセグメントで良好な結果が得られていました。しかし、新しい顧客データが追加されたため再度実行したところ、クラスタの構成が大きく変わってしまいました。この問題を改善するための最も効果的なアプローチはどれか?
A.新規顧客データの外れ値を検出して除去し、既存顧客データとの分布を一致させてから再クラスタリングする
✗ 新規データの外れ値除去は一つのアプローチですが、『新しい顧客セグメント』が実際に存在する場合、それを除去することは本来の目的に反します。また、分布を一致させることは現実的でない場合が多いです。
B.k-meansの代わりにDBSCANに変更し、密度ベースのクラスタリングで安定性を高める
✗ DBSCANへの変更は一つの選択肢ですが、問題の本質(k-meansの初期値依存性)を根本的には解決しません。逆にDBSCANのεとMinPtsの調整が必要になり、複雑性が増すだけです。
C.複数回のk-means実行で最小の慣性値を持つ結果を選択するか、初期クラスタ中心を固定するなどして、結果の安定性を向上させる← 正解
✓ 正解です。k-meansは初期クラスタ中心に依存するため、複数回実行で最良結果を選択するか、既知の良好なクラスタ中心を初期値として固定することで、結果の安定性と再現性を大幅に向上させられます。
D.クラスタ数を3に削減し、より粗粒度のセグメンテーションにすることで、新規データの影響を軽減する
✗ クラスタ数を意図的に削減することで安定性が向上する可能性はありますが、これは新規データへの『適応』ではなく『単純化』であり、元々良好だった5セグメントの有用性を喪失させます。
この問題のポイント
k-meansは初期クラスタ中心に依存するため、複数回実行で最良結果を選択するか、既知の良好なクラスタ中心を初期値として固定することで、結果の安定性と再現性を大幅に向上させられます。
「教師なし学習」の他の問題
k-meansクラスタリングで「最適なクラスタ数K」を決める一般的な方法はどれか?PCA(主成分分析)の目的として最も適切なものはどれか?k-meansクラスタリングを実行したとき、初期クラスタ中心をランダムに選び直して再度実行すると、全く異なるクラスタ結果…階層的クラスタリング(凝集型)を用いて大規模なテキストドキュメント群をクラスタリングしたところ、途中で計算が極めて遅くな…DBSCAN(密度ベースのクラスタリング)でε(近傍半径)パラメータを0.5から1.5に増加させたとき、一般的にどのよう…複数の異なる教師なし学習アルゴリズム(k-means、DBSCANと階層的クラスタリング)を同じデータセットに適用したと…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。