機械学習の評価誤り発見
機械学習モデルの交差検証(クロスバリデーション)と過学習に関する以下の記述で、誤っているものはどれか?
A.k分割交差検証では、データをk個の部分に分割し、各回でk-1個を訓練データ、1個をテストデータとして評価を繰り返す。
✓ この記述は正しい。k分割交差検証の基本的な仕組みが正確に説明されている。
B.交差検証を使用する主な目的は、モデルの汎化性能をより信頼性高く評価することであり、データサイズが限られた環境で有効である。
✓ この記述は正しい。交差検証はデータの効率的活用と汎化性能評価に有効である。
C.過学習(Overfitting)とは、モデルがテストデータの特性に過度に適応し、訓練データには高い精度を示すが、新規データへの予測精度が低くなる現象である。← 正解
✓ 正解です。この記述が誤りで、過学習は「訓練データの特性に過度に適応」することである。説明文で「テストデータ」とあるのは間違いで、正しくは「訓練データ」に対する過度な適応である。
D.正則化(Regularization)はモデルの複雑性にペナルティを加え、過学習を防ぐ手法である。
✓ この記述は正しい。L1正則化やL2正則化などが過学習を防ぐ標準的な手法である。
この問題のポイント
この記述が誤りで、過学習は「訓練データの特性に過度に適応」することである。説明文で「テストデータ」とあるのは間違いで、正しくは「訓練データ」に対する過度な適応である。
「機械学習の評価」の他の問題
スパムフィルターで「正常メールを誤ってスパムと判定する(誤検知)」を極力防ぎたい場合に最優先すべき指標はどれか?AUC-ROCスコアが0.5のモデルはどのような状態を示すか?回帰モデルの評価指標として「予測値と実際値の差の二乗の平均の平方根」を計算するものはどれか?不均衡データ(陽性99%・陰性1%)において「精度(Accuracy)だけが高い(99%)」モデルの問題点はどれか?分類モデルの評価において、適合率(Precision)と再現率(Recall)の違いとして最も正確なものはどれか?医療診断モデルで「疾患有りと予測したが実際は無い(偽陽性)」を減らしたい場合と、「疾患有りを見落とす(偽陰性)」を減らし…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。