Amazon Comprehendでカスタム分類モデルをトレーニングしていますが、トレーニ… | AWS Certified AI Practitioner（AIF-C01）

AIソリューションの実装とユースケース応用

Amazon Comprehendでカスタム分類モデルをトレーニングしていますが、トレーニングデータの特定カテゴリのサンプルが他のカテゴリの10分の1しかありません。このデータ不均衡が発生した場合、モデルの挙動としてどのような問題が起きる可能性が最も高いですか？

A.モデルのトレーニング時間が大幅に短縮され、コストが削減される

✗ データ不均衡はトレーニング時間の短縮とは無関係で、むしろモデル品質の問題を引き起こします。

B.サンプルが少ないカテゴリを正しく分類する精度が低下し、多数派カテゴリに偏った予測をする← 正解

✓ 正解です。クラス不均衡では少数クラスのパターン学習が不十分となり、多数クラスへの偏りが生じます。

C.モデルがすべてのカテゴリを均等に無視して、ランダムな予測を行うようになる

✗ データ不均衡でモデルがランダム予測をすることはなく、多数派クラスへの偏りが典型的な症状です。

D.サンプルが多いカテゴリの精度が低下し、サンプルが少ないカテゴリの精度が向上する

✗ データ不均衡の影響は逆で、サンプルが少ないカテゴリの精度が低下するのが一般的です。

この問題のポイント

クラス不均衡では少数クラスのパターン学習が不十分となり、多数クラスへの偏りが生じます。

「AIソリューションの実装とユースケース」の他の問題

G検定（深層学習・ジェネラリスト検定）

日本ディープラーニング協会（JDLA）が主催するAI・深層学習の基礎資格。AIの概念・機械学習・ディープラーニング・生成AIの基礎を問う。2025-2026年に受験者急増中。