機械学習の評価応用

機械学習モデルのAUC-ROCスコアが0.92で、別のモデルは0.88でした。両者を比較する際、AUC-ROCスコアが高い方が「必ず良い」と断定できない理由として最も適切なものはどれですか?

A.AUC-ROCスコアは訓練データの質に依存し、テストデータへの汎化を保証しない
✗ AUC-ROCは訓練とテストの関係に関する説明ですが、「必ず良いとは限らない」理由としては間接的です。
B.AUC-ROCは様々な閾値での性能を平均化した指標であり、実際の運用条件(ビジネス要件による最適な閾値)では低いスコアのモデルが優れることもある← 正解
✓ 正解です。AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。
C.AUC-ROCスコア0.92と0.88の差は統計的に有意でない可能性があり、追加の検定が必要
✗ 統計検定も重要ですが、本質的には「運用条件による最適性」の問題です。検定では『数値の差の有意性』を測り、『選択の正当性』は別問題です。
D.AUC-ROCスコアはサンプルサイズに大きく影響され、小さいテストセットでは信頼できない
✗ AUC-ROCは比較的サンプルサイズに頑健な指標です。小さいセットでも相対的な比較は可能です。

この問題のポイント

AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。

AI-900:Microsoft Azure AI Fundamentals の問題一覧