教師なし学習定義

異常検出(Anomaly Detection)における「外れ値(Outlier)」の定義として最も適切なものはどれか?

A.大多数のデータパターンから大きく逸脱し、異なる分布や生成メカニズムを持つ観測値← 正解
✓ 正解です。外れ値は通常のデータパターンから統計的に大きく乖離し、異なるメカニズムで生成されたと考えられる異常な観測値です。
B.データセット内で最も高い値と最も低い値の差を示す統計量
✗ これはデータの範囲(レンジ)の説明であり、外れ値の定義ではありません。
C.機械学習モデルが正しく予測できなかったサンプルのこと
✗ モデルの予測誤りと外れ値は異なる概念です。予測誤りはモデルの性能に関し、外れ値はデータ自体の性質です。
D.クラスタリング結果において、最も近いクラスタまでの距離が平均値を超えるデータポイント
✗ クラスタ内でのポイントの位置とは無関係に、全体的なデータ分布から見て異常な値が外れ値です。

この問題のポイント

外れ値は通常のデータパターンから統計的に大きく乖離し、異なるメカニズムで生成されたと考えられる異常な観測値です。

AI-900:Microsoft Azure AI Fundamentals の問題一覧