教師なし学習応用
複数の異なる教師なし学習アルゴリズム(k-means、DBSCANと階層的クラスタリング)を同じデータセットに適用したとき、3つのアルゴリズムが全く異なるクラスタリング結果を出力しました。この相違が生じる理由として最も適切なものはどれか?
A.各アルゴリズムが異なる距離メトリック(ユークリッド距離、マンハッタン距離など)を使用しているため、結果の相違は必然である
✗ 距離メトリックの相違は確かに結果に影響しますが、同じメトリックで統一しても異なるアルゴリズムは異なる結果を出す場合があります。メトリック差だけでは根本的な理由ではありません。
B.各アルゴリズムが異なる「クラスタの定義」に基づいており、何をもって『クラスタ』とするかの前提が異なるため← 正解
✓ 正解です。k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。
C.データセットにノイズが含まれており、教師なし学習では全てのアルゴリズムが自動的に異なるノイズ除外戦略を採用する
✗ ノイズの存在は結果の品質に影響しますが、各アルゴリズムが『自動的に異なるノイズ除外戦略』を採用することはありません。ノイズ処理はアルゴリズムの内在的な特性に依存します。
D.クラスタリングに用いる計算機のメモリ容量が異なると、アルゴリズムの処理が異なり、結果のばらつきが生じる
✗ 計算機のメモリ容量とアルゴリズムの処理結果そのものは直接的な因果関係がありません。メモリ不足でクラッシュすることはあっても、異なる結果が出る理由にはなりません。
この問題のポイント
k-meansは「球形で等サイズのクラスタ」を想定し、DBSCANは「密度が高い領域」を、階層的クラスタリングは「段階的な階層構造」を前提としており、『クラスタ』の定義自体が異なるため、結果の相違は自然で当然です。
「教師なし学習」の他の問題
k-meansクラスタリングで「最適なクラスタ数K」を決める一般的な方法はどれか?PCA(主成分分析)の目的として最も適切なものはどれか?k-meansクラスタリングを実行したとき、初期クラスタ中心をランダムに選び直して再度実行すると、全く異なるクラスタ結果…階層的クラスタリング(凝集型)を用いて大規模なテキストドキュメント群をクラスタリングしたところ、途中で計算が極めて遅くな…DBSCAN(密度ベースのクラスタリング)でε(近傍半径)パラメータを0.5から1.5に増加させたとき、一般的にどのよう…PCAで50個の特徴量を10個の主成分に削減した後、元のデータに対する復元誤差が予想より大きかったとします。この原因とし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。