機械学習の評価応用
医療診断AIモデルで、訓練データに含まれる患者の年齢分布が20~40歳に偏っていました。このモデルを60~80歳の高齢患者に適用したところ、精度は95%でしたが、実際には多くの診断ミスが報告されました。この現象を最も適切に説明する概念はどれですか?
A.訓練データの質が低いため、精度指標自体が信頼できない
✗ 訓練データの質が低い場合、精度指標は低くなる傾向がありますが、ここでは精度は高く報告されています。問題は指標の信頼性ではなく、異なる分布への対応です。
B.モデルが訓練データの年齢分布に過度に適応(過学習)し、分布外のデータへの汎化性能が低い← 正解
✓ 正解です。年齢分布が限定された訓練データに適応したモデルは、その範囲内では高い精度を示しますが、異なる年齢分布のテストデータ(分布外)に対しては性能が低下します。これを汎化性能の低さと言います。
C.高齢患者のデータが多すぎるため、モデルが年齢に基づいて判定している
✗ モデルが特に年齢を判定基準にしているとしても、それ自体は診断精度95%という結果に反映されます。問題の本質は訓練分布と運用分布のズレです。
D.精度95%は実際には低い数値であり、モデルの再訓練が必要
✗ 精度95%は通常は高い数値です。数値の大小ではなく、訓練時と運用時のデータ分布の相違が根本原因です。
この問題のポイント
年齢分布が限定された訓練データに適応したモデルは、その範囲内では高い精度を示しますが、異なる年齢分布のテストデータ(分布外)に対しては性能が低下します。これを汎化性能の低さと言います。
「機械学習の評価」の他の問題
スパムフィルターで「正常メールを誤ってスパムと判定する(誤検知)」を極力防ぎたい場合に最優先すべき指標はどれか?AUC-ROCスコアが0.5のモデルはどのような状態を示すか?回帰モデルの評価指標として「予測値と実際値の差の二乗の平均の平方根」を計算するものはどれか?不均衡データ(陽性99%・陰性1%)において「精度(Accuracy)だけが高い(99%)」モデルの問題点はどれか?分類モデルの評価において、適合率(Precision)と再現率(Recall)の違いとして最も正確なものはどれか?医療診断モデルで「疾患有りと予測したが実際は無い(偽陽性)」を減らしたい場合と、「疾患有りを見落とす(偽陰性)」を減らし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。