機械学習の評価応用
機械学習モデルのAUC-ROCスコアが0.92で、別のモデルは0.88でした。両者を比較する際、AUC-ROCスコアが高い方が「必ず良い」と断定できない理由として最も適切なものはどれですか?
A.AUC-ROCスコアは訓練データの質に依存し、テストデータへの汎化を保証しない
✗ AUC-ROCは訓練とテストの関係に関する説明ですが、「必ず良いとは限らない」理由としては間接的です。
B.AUC-ROCは様々な閾値での性能を平均化した指標であり、実際の運用条件(ビジネス要件による最適な閾値)では低いスコアのモデルが優れることもある← 正解
✓ 正解です。AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。
C.AUC-ROCスコア0.92と0.88の差は統計的に有意でない可能性があり、追加の検定が必要
✗ 統計検定も重要ですが、本質的には「運用条件による最適性」の問題です。検定では『数値の差の有意性』を測り、『選択の正当性』は別問題です。
D.AUC-ROCスコアはサンプルサイズに大きく影響され、小さいテストセットでは信頼できない
✗ AUC-ROCは比較的サンプルサイズに頑健な指標です。小さいセットでも相対的な比較は可能です。
この問題のポイント
AUC-ROCは全閾値での性能を集計した指標です。実運用では偽陰性コスト>偽陽性コストなど、特定の閾値が最適な場合があり、その条件では0.88のモデルが0.92より優れることもあります。
「機械学習の評価」の他の問題
スパムフィルターで「正常メールを誤ってスパムと判定する(誤検知)」を極力防ぎたい場合に最優先すべき指標はどれか?AUC-ROCスコアが0.5のモデルはどのような状態を示すか?回帰モデルの評価指標として「予測値と実際値の差の二乗の平均の平方根」を計算するものはどれか?不均衡データ(陽性99%・陰性1%)において「精度(Accuracy)だけが高い(99%)」モデルの問題点はどれか?分類モデルの評価において、適合率(Precision)と再現率(Recall)の違いとして最も正確なものはどれか?医療診断モデルで「疾患有りと予測したが実際は無い(偽陽性)」を減らしたい場合と、「疾患有りを見落とす(偽陰性)」を減らし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。