機械学習モデルのAUC-ROCスコアが0.92で、別のモデルは0.88でした。両者を比較す… | AI-900：Microsoft Azure AI Fundamentals

機械学習の評価応用

機械学習モデルのAUC-ROCスコアが0.92で、別のモデルは0.88でした。両者を比較する際、AUC-ROCスコアが高い方が「必ず良い」と断定できない理由として最も適切なものはどれですか？

A.AUC-ROCスコアは訓練データの質に依存し、テストデータへの汎化を保証しない

✗ AUC-ROCは訓練とテストの関係に関する説明ですが、「必ず良いとは限らない」理由としては間接的です。

B.AUC-ROCは様々な閾値での性能を平均化した指標であり、実際の運用条件（ビジネス要件による最適な閾値）では低いスコアのモデルが優れることもある← 正解

✓ 正解です。AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。

C.AUC-ROCスコア0.92と0.88の差は統計的に有意でない可能性があり、追加の検定が必要

✗ 統計検定も重要ですが、本質的には「運用条件による最適性」の問題です。検定では『数値の差の有意性』を測り、『選択の正当性』は別問題です。

D.AUC-ROCスコアはサンプルサイズに大きく影響され、小さいテストセットでは信頼できない

✗ AUC-ROCは比較的サンプルサイズに頑健な指標です。小さいセットでも相対的な比較は可能です。

この問題のポイント

AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。

「機械学習の評価」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。