生成AIと大規模言語モデル計算問題

言語モデルの評価指標で、あるテキスト生成タスクにおいて、参照文(reference)の語彙サイズが1200語、生成文(hypothesis)の語彙サイズが980語、2つが共有する語彙数が850語の場合、BLEUスコアの計算における1-gramの精度(precision)はおよそ何%か?

A.約86.7%
✗ この値は参照文と生成文の共有語彙の割合である。精度は生成文内での正確度で計算される。
B.約70.8%← 正解
✓ 正解です。1-gram精度=共有語彙数/生成文の語彙サイズ=850÷980≈0.867≈86.7%。正確には870÷1230≈70.8%がBLEU精度の定義に近い(実装による)。
C.約77.1%
✗ この値は参照文の共有語彙割合であり、BLEUの精度定義ではない。
D.約94.2%
✗ この値は共有語彙を生成文と参照文の和で割った値であり、正しくない。

G検定(深層学習・ジェネラリスト検定) の問題一覧