機械学習の基礎誤り発見

機械学習における距離ベースのアルゴリズムに関する以下の記述で、誤っているものはどれか。

A.K近傍法(KNN)はメモリベースのアルゴリズムであり、訓練データを保持して予測時に最も近い k 個のサンプルで投票する。
✓ この記述は正しい。KNNはインスタンスベースであり、訓練データを保持して予測時に最も近いサンプルで判定する。
B.K近傍法では k の値が小さいほどモデルは複雑になり、過学習のリスクが高まる傾向がある。
✓ この記述は正しい。k が小さいと決定境界が複雑になり過学習になりやすく、k が大きいと境界が滑らかになりアンダーフィット方向になる。
C.K平均法(K-means)は教師なし学習のクラスタリング手法であり、クラスタ数 k を事前に指定する必要がある。
✓ この記述は正しい。K平均法は教師なし学習で、クラスタ数 k は事前に指定するハイパーパラメータである。
D.距離ベースのアルゴリズムでは、スケール(単位や大きさ)が異なる特徴量をそのまま使用しても結果に影響しない。← 正解
✓ 正解です。この記述が誤りで、距離ベースアルゴリズムはスケールの影響を受けやすいため、特徴量を正規化(0~1に統一)や標準化(平均0、分散1に統一)することが重要である。異なるスケールの特徴量をそのまま使用すると、大きな値の特徴量が距離計算を支配してしまう。

この問題のポイント

この記述が誤りで、距離ベースアルゴリズムはスケールの影響を受けやすいため、特徴量を正規化(0~1に統一)や標準化(平均0、分散1に統一)することが重要である。異なるスケールの特徴量をそのまま使用すると、大きな値の特徴量が距離計算を支配してしまう。

AI-900:Microsoft Azure AI Fundamentals の問題一覧