機械学習の基礎誤り発見
機械学習における距離ベースのアルゴリズムに関する以下の記述で、誤っているものはどれか。
A.K近傍法(KNN)はメモリベースのアルゴリズムであり、訓練データを保持して予測時に最も近い k 個のサンプルで投票する。
✓ この記述は正しい。KNNはインスタンスベースであり、訓練データを保持して予測時に最も近いサンプルで判定する。
B.K近傍法では k の値が小さいほどモデルは複雑になり、過学習のリスクが高まる傾向がある。
✓ この記述は正しい。k が小さいと決定境界が複雑になり過学習になりやすく、k が大きいと境界が滑らかになりアンダーフィット方向になる。
C.K平均法(K-means)は教師なし学習のクラスタリング手法であり、クラスタ数 k を事前に指定する必要がある。
✓ この記述は正しい。K平均法は教師なし学習で、クラスタ数 k は事前に指定するハイパーパラメータである。
D.距離ベースのアルゴリズムでは、スケール(単位や大きさ)が異なる特徴量をそのまま使用しても結果に影響しない。← 正解
✓ 正解です。この記述が誤りで、距離ベースアルゴリズムはスケールの影響を受けやすいため、特徴量を正規化(0~1に統一)や標準化(平均0、分散1に統一)することが重要である。異なるスケールの特徴量をそのまま使用すると、大きな値の特徴量が距離計算を支配してしまう。
この問題のポイント
この記述が誤りで、距離ベースアルゴリズムはスケールの影響を受けやすいため、特徴量を正規化(0~1に統一)や標準化(平均0、分散1に統一)することが重要である。異なるスケールの特徴量をそのまま使用すると、大きな値の特徴量が距離計算を支配してしまう。
「機械学習の基礎」の他の問題
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。