AI-900試験対策応用

ある小売企業が顧客の購買履歴データから将来の購買傾向を予測したいと考えています。このシナリオで Azure Machine Learning を使用する際、データが不均衡(ある商品カテゴリのデータが極端に少ない)だった場合、モデルの精度にどのような影響が起こる可能性が高いか?

A.データが少ないカテゴリの予測精度が低下し、モデル全体の正確性が損なわれる可能性がある← 正解
✓ 正解です。不均衡データではモデルが多数派カテゴリに偏って学習し、少数派カテゴリの予測精度が著しく低下します。
B.Azure Machine Learning が自動的にデータを均衡化するため、精度への影響はない
✗ Azure Machine Learning は自動的にデータを均衡化しません。前処理としてオーバーサンプリングやウェイト調整が必要です。
C.不均衡データは Azure Machine Learning の学習を高速化するため、むしろ精度が向上する
✗ データ不均衡はむしろ学習を阻害し、モデル性能を低下させます。高速化にはなりません。
D.データの不均衡はアルゴリズム選択に関係なく、常に精度が50%以下に低下する
✗ 不均衡データでも適切な前処理とアルゴリズム選択により、50%以上の精度を維持することは可能です。

この問題のポイント

不均衡データではモデルが多数派カテゴリに偏って学習し、少数派カテゴリの予測精度が著しく低下します。

AI-900:Microsoft Azure AI Fundamentals の問題一覧