機械学習の評価応用

医療診断AIモデルで、訓練データに含まれる患者の年齢分布が20~40歳に偏っていました。このモデルを60~80歳の高齢患者に適用したところ、精度は95%でしたが、実際には多くの診断ミスが報告されました。この現象を最も適切に説明する概念はどれですか?

A.訓練データの質が低いため、精度指標自体が信頼できない
✗ 訓練データの質が低い場合、精度指標は低くなる傾向がありますが、ここでは精度は高く報告されています。問題は指標の信頼性ではなく、異なる分布への対応です。
B.モデルが訓練データの年齢分布に過度に適応(過学習)し、分布外のデータへの汎化性能が低い← 正解
✓ 正解です。年齢分布が限定された訓練データに適応したモデルは、その範囲内では高い精度を示しますが、異なる年齢分布のテストデータ(分布外)に対しては性能が低下します。これを汎化性能の低さと言います。
C.高齢患者のデータが多すぎるため、モデルが年齢に基づいて判定している
✗ モデルが特に年齢を判定基準にしているとしても、それ自体は診断精度95%という結果に反映されます。問題の本質は訓練分布と運用分布のズレです。
D.精度95%は実際には低い数値であり、モデルの再訓練が必要
✗ 精度95%は通常は高い数値です。数値の大小ではなく、訓練時と運用時のデータ分布の相違が根本原因です。

この問題のポイント

年齢分布が限定された訓練データに適応したモデルは、その範囲内では高い精度を示しますが、異なる年齢分布のテストデータ(分布外)に対しては性能が低下します。これを汎化性能の低さと言います。

AI-900:Microsoft Azure AI Fundamentals の問題一覧