機械学習の基礎誤り発見

機械学習における特徴量エンジニアリングと前処理に関する以下の記述で、誤っているものはどれか。

A.欠損値の処理方法には削除、平均値補完、中央値補完などがあり、タスク特性に応じて適切な方法を選択する。
✓ この記述は正しい。欠損値は複数の処理方法があり、データ特性やアルゴリズムに応じて選択することが重要である。
B.カテゴリカル変数(例:色の属性)を数値に変換する場合、One-Hot エンコーディングがよく用いられる。
✓ この記述は正しい。One-Hot エンコーディングはカテゴリカル変数を二値ベクトルに変換する標準的な手法である。
C.複数の特徴量の間に強い相関がある場合、モデルに負の影響を与えるため、すべての相関のある特徴量を削除すべきである。← 正解
✓ 正解です。この記述が誤りで、相関のある特徴量をすべて削除する必要はない。決定木系アルゴリズムは多重共線性に強く、また強い相関のある特徴量でも異なる情報を含むことがある。過度な削除は逆に情報喪失につながる。選別的に除去するべきである。
D.時間系列データの場合、「明日の気温予測」など未来の値を目的変数にする際、訓練・テスト分割の位置が特に重要である。
✓ この記述は正しい。時間系列では訓練セットが過去、テストセットが未来という時間的順序が重要であり、ランダム分割は不適切である。

この問題のポイント

この記述が誤りで、相関のある特徴量をすべて削除する必要はない。決定木系アルゴリズムは多重共線性に強く、また強い相関のある特徴量でも異なる情報を含むことがある。過度な削除は逆に情報喪失につながる。選別的に除去するべきである。

AI-900:Microsoft Azure AI Fundamentals の問題一覧