機械学習の基礎誤り発見
以下の記述で誤っているものはどれか。
A.一般化性能が高いモデルとは、訓練データと検証データの両方で同等の高い性能を示すモデルである。
✓ この記述は正しい。訓練-検証のギャップが小さく、両者で高い性能を示す状態を目指す。
B.層化k分割交差検証(Stratified k-Fold)は、クラス不均衡データセットにおいても、各分割でクラスの比率を保持することを保証する。
✓ この記述は正しい。クラス不均衡を考慮した適切な交差検証手法である。
C.混同行列(Confusion Matrix)からは、真陽性(TP)、偽陽性(FP)、真陰性(TN)、偽陰性(FN)の4つの値が直接読み取れる。
✓ この記述は正しい。混同行列は分類問題の性能評価の基本となる情報を提供する。
D.特徴量スケーリング(正規化・標準化)は、距離ベースのアルゴリズム(SVM、k-NNなど)では不要である。← 正解
✓ 正解です。この記述が誤りで、距離ベースのアルゴリズムこそが特徴量スケーリングを必要とする。スケーリングを行わないと、大きなスケールの特徴量が過度に影響し、予測性能が低下する。