AIソリューションの実装とユースケース応用問題

Amazon Comprehendでカスタム分類モデルをトレーニングしていますが、トレーニングデータの特定カテゴリのサンプルが他のカテゴリの10分の1しかありません。このデータ不均衡が発生した場合、モデルの挙動としてどのような問題が起きる可能性が最も高いですか?

A.モデルのトレーニング時間が大幅に短縮され、コストが削減される
✗ データ不均衡はトレーニング時間の短縮とは無関係で、むしろモデル品質の問題を引き起こします。
B.サンプルが少ないカテゴリを正しく分類する精度が低下し、多数派カテゴリに偏った予測をする← 正解
✓ 正解です。クラス不均衡では少数クラスのパターン学習が不十分となり、多数クラスへの偏りが生じます。
C.モデルがすべてのカテゴリを均等に無視して、ランダムな予測を行うようになる
✗ データ不均衡でモデルがランダム予測をすることはなく、多数派クラスへの偏りが典型的な症状です。
D.サンプルが多いカテゴリの精度が低下し、サンプルが少ないカテゴリの精度が向上する
✗ データ不均衡の影響は逆で、サンプルが少ないカテゴリの精度が低下するのが一般的です。

AWS Certified AI Practitioner(AIF-C01) の問題一覧