生成AIの基礎誤り発見

生成AIモデルの評価指標に関する以下の記述のうち、誤っているものはどれですか?

A.BLEU(Bilingual Evaluation Understudy)スコアは、機械翻訳の品質を評価するために開発された指標で、生成テキストと参照テキストのn-gramの一致度を測定する。
✓ この記述は正しい。BLEUは翻訳品質評価の代表的な自動評価指標で、n-gramの精度を元に算出されます。
B.「パープレキシティ(Perplexity)」は言語モデルの評価指標であり、値が低いほどモデルがテキストをより適切に予測できていることを示す。
✓ この記述は正しい。パープレキシティはモデルの不確実性を示す指標で、低いほど予測精度が高いことを意味します。
C.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は主に文書要約の評価に使用され、生成テキストと参照テキストの適合率(Precision)のみを測定する指標である。← 正解
✓ 正解です。この記述が誤りで、正しくはROUGEはRecall(再現率)を中心に測定する指標です。ROUGE-1やROUGE-LはRecallとPrecisionの両方を考慮したF値も算出できます。
D.人間による評価(Human Evaluation)は自動評価指標では捉えにくい流暢さや創造性などの質的側面を測定できるが、コストや時間がかかるという課題がある。
✓ この記述は正しい。人間評価は質的な側面を捉えられる一方、スケーラビリティやコストに課題があります。

AWS Certified AI Practitioner(AIF-C01) の問題一覧