教師なし学習応用

顧客セグメンテーションでk-meansを使用し、最初は5つのセグメントで良好な結果が得られていました。しかし、新しい顧客データが追加されたため再度実行したところ、クラスタの構成が大きく変わってしまいました。この問題を改善するための最も効果的なアプローチはどれか?

A.新規顧客データの外れ値を検出して除去し、既存顧客データとの分布を一致させてから再クラスタリングする
✗ 新規データの外れ値除去は一つのアプローチですが、『新しい顧客セグメント』が実際に存在する場合、それを除去することは本来の目的に反します。また、分布を一致させることは現実的でない場合が多いです。
B.k-meansの代わりにDBSCANに変更し、密度ベースのクラスタリングで安定性を高める
✗ DBSCANへの変更は一つの選択肢ですが、問題の本質(k-meansの初期値依存性)を根本的には解決しません。逆にDBSCANのεとMinPtsの調整が必要になり、複雑性が増すだけです。
C.複数回のk-means実行で最小の慣性値を持つ結果を選択するか、初期クラスタ中心を固定するなどして、結果の安定性を向上させる← 正解
✓ 正解です。k-meansは初期クラスタ中心に依存するため、複数回実行で最良結果を選択するか、既知の良好なクラスタ中心を初期値として固定することで、結果の安定性と再現性を大幅に向上させられます。
D.クラスタ数を3に削減し、より粗粒度のセグメンテーションにすることで、新規データの影響を軽減する
✗ クラスタ数を意図的に削減することで安定性が向上する可能性はありますが、これは新規データへの『適応』ではなく『単純化』であり、元々良好だった5セグメントの有用性を喪失させます。

この問題のポイント

k-meansは初期クラスタ中心に依存するため、複数回実行で最良結果を選択するか、既知の良好なクラスタ中心を初期値として固定することで、結果の安定性と再現性を大幅に向上させられます。

AI-900:Microsoft Azure AI Fundamentals の問題一覧