機械学習の基礎応用問題

時系列データで、訓練データ(2020年1月~12月)でモデルを学習し、テストデータ(2021年1月~12月)で評価した結果、訓練スコアは0.95、テストスコアは0.72でした。この原因として最も妥当な説明はどれですか?

A.2021年のデータが2020年より簡単であり、モデルの学習が不十分である
✗ テストスコアが大幅に低いのに「テストが簡単」という説明は逆であり、根拠がありません。
B.時系列データの特性が時間とともに変化(コンセプトドリフト)し、過去のパターンが未来に当てはまらなくなっている← 正解
✓ 正解です。時系列データでは環境変化により、過去のパターンが未来に通用しなくなるコンセプトドリフトが頻発します。これが大きな性能低下の主因です。
C.訓練データとテストデータの分割方法に誤りはなく、単に過学習が発生している
✗ 過学習でもスコア低下は起きますが、時系列で1年分の訓練・1年分のテストでは、コンセプトドリフトが主原因の可能性が高いです。
D.テストデータのサンプルサイズが訓練データより小さいため、評価結果が不安定になっている
✗ サンプルサイズ差は評価の不安定さを引き起こしますが、0.95と0.72ほどの大幅な差の主原因にはなりません。

G検定(深層学習・ジェネラリスト検定) の問題一覧