ある大規模言語モデルの訓練に際し、全データセット1,000万件のうち、特定の民族グループA… | G検定（深層学習・ジェネラリスト検定）

AIの社会実装と倫理・法律計算

ある大規模言語モデルの訓練に際し、全データセット1,000万件のうち、特定の民族グループAに関するテキストが80万件、グループBに関するテキストが10万件含まれていました。グループAのデータ比率はグループBの何倍ですか？このデータ不均衡はどのような問題を引き起こす可能性がありますか？

A.8倍、特定グループに対するバイアスと不公平性← 正解

✓ 正解です。データ比率＝80万÷10万＝8倍。このような不均衡は、特定グループに対する表現の偏り、バイアスを学習し、不公平で差別的な出力をもたらす恐れがあります。

B.9倍、学習速度の低下

✗ 計算が誤っています。80万÷10万＝8倍であり、9倍ではありません。また、問題の本質はデータ不均衡によるバイアスです。

C.7倍、計算コストの増加

✗ 計算が誤っています。80万÷10万＝8倍です。また、データ不均衡の主問題は計算コストではなく、バイアスと公平性です。

D.8倍、過学習による精度低下のみ

✗ 計算は正しい（8倍）ですが、単なる過学習だけでなく、訓練不足のグループに対するバイアスと差別的な出力が生じる可能性が高いです。

この問題のポイント

データ比率＝80万÷10万＝8倍。このような不均衡は、特定グループに対する表現の偏り、バイアスを学習し、不公平で差別的な出力をもたらす恐れがあります。

「AIの社会実装と倫理・法律」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。