AIの社会実装と倫理・法律計算問題

ある大規模言語モデルの訓練に際し、全データセット1,000万件のうち、特定の民族グループAに関するテキストが80万件、グループBに関するテキストが10万件含まれていました。グループAのデータ比率はグループBの何倍ですか?このデータ不均衡はどのような問題を引き起こす可能性がありますか?

A.8倍、特定グループに対するバイアスと不公平性← 正解
✓ 正解です。データ比率=80万÷10万=8倍。このような不均衡は、特定グループに対する表現の偏り、バイアスを学習し、不公平で差別的な出力をもたらす恐れがあります。
B.9倍、学習速度の低下
✗ 計算が誤っています。80万÷10万=8倍であり、9倍ではありません。また、問題の本質はデータ不均衡によるバイアスです。
C.7倍、計算コストの増加
✗ 計算が誤っています。80万÷10万=8倍です。また、データ不均衡の主問題は計算コストではなく、バイアスと公平性です。
D.8倍、過学習による精度低下のみ
✗ 計算は正しい(8倍)ですが、単なる過学習だけでなく、訓練不足のグループに対するバイアスと差別的な出力が生じる可能性が高いです。

G検定(深層学習・ジェネラリスト検定) の問題一覧