言語モデルの評価指標で、あるテキスト生成タスクにおいて、参照文（reference）の語彙… | G検定（深層学習・ジェネラリスト検定）

生成AIと大規模言語モデル計算

言語モデルの評価指標で、あるテキスト生成タスクにおいて、参照文（reference）の語彙サイズが1200語、生成文（hypothesis）の語彙サイズが980語、2つが共有する語彙数が850語の場合、BLEUスコアの計算における1-gramの精度（precision）はおよそ何%か？

A.約86.7%← 正解

✓ 正解です。BLEUの1-gram精度＝共有語彙数／生成文の総語彙数＝850÷980≈0.867≈86.7%。生成文中で参照文と一致したトークンの割合を計算します。

B.約70.8%

✗ 70.8%は根拠のある数値ではありません。正しい計算は850÷980≈86.7%です。

C.約77.1%

✗ この値は共有語彙数を参照文の語彙数で割った場合（850÷1100≈77.3%）に近い誤った計算であり、BLEUの精度定義ではありません。

D.約94.2%

✗ この値は共有語彙数を生成文と参照文の重複除外和で割った場合（ジャカード類似度）に近く、BLEU精度の定義ではありません。

この問題のポイント

BLEUの1-gram精度＝共有語彙数／生成文の総語彙数＝850÷980≈0.867≈86.7%。生成文中で参照文と一致したトークンの割合を計算します。

「生成AIと大規模言語モデル」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。