複数の異なる教師なし学習アルゴリズム（k-means、DBSCANと階層的クラスタリング）… | AI-900：Microsoft Azure AI Fundamentals

教師なし学習応用

複数の異なる教師なし学習アルゴリズム（k-means、DBSCANと階層的クラスタリング）を同じデータセットに適用したとき、3つのアルゴリズムが全く異なるクラスタリング結果を出力しました。この相違が生じる理由として最も適切なものはどれか？

A.各アルゴリズムが異なる距離メトリック（ユークリッド距離、マンハッタン距離など）を使用しているため、結果の相違は必然である

✗ 距離メトリックの相違は確かに結果に影響しますが、同じメトリックで統一しても異なるアルゴリズムは異なる結果を出す場合があります。メトリック差だけでは根本的な理由ではありません。

B.各アルゴリズムが異なる「クラスタの定義」に基づいており、何をもって『クラスタ』とするかの前提が異なるため← 正解

✓ 正解です。k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。

C.データセットにノイズが含まれており、教師なし学習では全てのアルゴリズムが自動的に異なるノイズ除外戦略を採用する

✗ ノイズの存在は結果の品質に影響しますが、各アルゴリズムが『自動的に異なるノイズ除外戦略』を採用することはありません。ノイズ処理はアルゴリズムの内在的な特性に依存します。

D.クラスタリングに用いる計算機のメモリ容量が異なると、アルゴリズムの処理が異なり、結果のばらつきが生じる

✗ 計算機のメモリ容量とアルゴリズムの処理結果そのものは直接的な因果関係がありません。メモリ不足でクラッシュすることはあっても、異なる結果が出る理由にはなりません。

この問題のポイント

k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。

「教師なし学習」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。