機械学習の評価応用
クレジットカード詐欺検出モデルで、精度(Accuracy)は98%でしたが、実際の詐欺事例の85%を検出できていません。この矛盾が起きる理由として最も適切なものはどれですか?
A.訓練データが不足しており、モデルに充分な学習ができていない
✗ 訓練データ不足は通常、精度自体を低下させます。ここでは精度が高いため、問題は別の原因です。
B.詐欺取引が全体の2%程度と少数派であり、精度が高くても詐欺を見落とす可能性があり、再現率(感度)を確認する必要がある← 正解
✓ 正解です。詐欺は全取引の2%など極少数派です。すべてを正常と判定しても98%の精度が得られるため、精度だけでは詐欺検出性能を評価できず、再現率(見落とした詐欺数)を確認する必要があります。
C.モデルの予測閾値が高すぎるため、判定基準を下げるだけで改善する
✗ 閾値調整は再現率と適合率のトレードオフに影響しますが、「精度は高いのに詐欺検出率が低い」という矛盾を説明しません。
D.評価指標として精度を使うことが誤りで、別の指標に変更すべき
✗ 精度自体が悪い指標ではなく、不均衡データにおいて精度だけで判断することが問題です。追加指標で補完する必要があります。
この問題のポイント
詐欺は全取引の2%など極少数派です。すべてを正常と判定しても98%の精度が得られるため、精度だけでは詐欺検出性能を評価できず、再現率(見落とした詐欺数)を確認する必要があります。
「機械学習の評価」の他の問題
スパムフィルターで「正常メールを誤ってスパムと判定する(誤検知)」を極力防ぎたい場合に最優先すべき指標はどれか?AUC-ROCスコアが0.5のモデルはどのような状態を示すか?回帰モデルの評価指標として「予測値と実際値の差の二乗の平均の平方根」を計算するものはどれか?不均衡データ(陽性99%・陰性1%)において「精度(Accuracy)だけが高い(99%)」モデルの問題点はどれか?分類モデルの評価において、適合率(Precision)と再現率(Recall)の違いとして最も正確なものはどれか?医療診断モデルで「疾患有りと予測したが実際は無い(偽陽性)」を減らしたい場合と、「疾患有りを見落とす(偽陰性)」を減らし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。