教師なし学習応用

複数の異なる教師なし学習アルゴリズム(k-means、DBSCANと階層的クラスタリング)を同じデータセットに適用したとき、3つのアルゴリズムが全く異なるクラスタリング結果を出力しました。この相違が生じる理由として最も適切なものはどれか?

A.各アルゴリズムが異なる距離メトリック(ユークリッド距離、マンハッタン距離など)を使用しているため、結果の相違は必然である
✗ 距離メトリックの相違は確かに結果に影響しますが、同じメトリックで統一しても異なるアルゴリズムは異なる結果を出す場合があります。メトリック差だけでは根本的な理由ではありません。
B.各アルゴリズムが異なる「クラスタの定義」に基づいており、何をもって『クラスタ』とするかの前提が異なるため← 正解
✓ 正解です。k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。
C.データセットにノイズが含まれており、教師なし学習では全てのアルゴリズムが自動的に異なるノイズ除外戦略を採用する
✗ ノイズの存在は結果の品質に影響しますが、各アルゴリズムが『自動的に異なるノイズ除外戦略』を採用することはありません。ノイズ処理はアルゴリズムの内在的な特性に依存します。
D.クラスタリングに用いる計算機のメモリ容量が異なると、アルゴリズムの処理が異なり、結果のばらつきが生じる
✗ 計算機のメモリ容量とアルゴリズムの処理結果そのものは直接的な因果関係がありません。メモリ不足でクラッシュすることはあっても、異なる結果が出る理由にはなりません。

この問題のポイント

k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。

AI-900:Microsoft Azure AI Fundamentals の問題一覧