Azure ML応用

Azure AutoML で分類モデルを作成するとき、不均衡データセット(陰性サンプル85%:陽性サンプル15%)に対して正解率(Accuracy)を主要評価指標に設定してモデルを自動生成した場合、どのような問題が起きやすいか?

A.生成されたモデルは陽性サンプルをほぼすべて陽性と誤判定し、偽陽性率(False Positive Rate)が非常に高くなる
✗ この現象(偽陽性率の上昇)は発生しません。むしろ陽性クラスの検出能力が失われるのが問題です。
B.生成されたモデルはすべてのサンプルを陰性と予測する単純な戦略を採用し、正解率は高いが陽性検出能力が失われる← 正解
✓ 正解です。不均衡データで正解率を最適化すると、すべてを陰性と予測するだけで正解率85%を達成でき、モデルが陽性クラスを識別する意欲を失います。
C.生成されたモデルの訓練時間が極端に長くなり、タイムアウトエラーが頻繁に発生する
✗ データの不均衡はAutoMLの訓練時間に直接は影響しません。むしろデータ特性に起因する問題です。
D.生成されたモデルは陽性サンプルを過度に重視するため、逆に陰性サンプルの誤分類が増加する
✗ 正解率最適化では陰性クラスを優先するため、逆の現象(陽性誤分類増加)が起こります。

この問題のポイント

不均衡データで正解率を最適化すると、すべてを陰性と予測するだけで正解率85%を達成でき、モデルが陽性クラスを識別する意欲を失います。

AI-900:Microsoft Azure AI Fundamentals の問題一覧