トランスフォーマーモデルの自己注意機構において、クエリ行列Q、キー行列K、バリュー行列Vが… | G検定（深層学習・ジェネラリスト検定）

生成AIと大規模言語モデル計算

トランスフォーマーモデルの自己注意機構において、クエリ行列Q、キー行列K、バリュー行列Vがそれぞれ（バッチサイズ12、シーケンス長8、埋め込み次元256）の形状を持つとき、スケール化ドット積注意（Scaled Dot-Product Attention）の計算で用いるスケーリング係数は何か？

A.1/8

✗ スケーリング係数はシーケンス長ではなく、キーの埋め込み次元で決定される。

B.1/√256← 正解

✓ 正解です。スケール化ドット積注意はAttention(Q,K,V)=softmax(QK^T/√d_k)V の形式であり、d_kは埋め込み次元（256）である。スケーリング係数は1/√256となる。

C.1/12

✗ バッチサイズはスケーリング係数に影響しない。スケーリング係数はキー次元に基づく。

D.1/√16

✗ この値は埋め込み次元の半分の平方根の逆数であり、正しい計算ではない。

この問題のポイント

スケール化ドット積注意はAttention(Q,K,V)=softmax(QK^T/√d_k)V の形式であり、d_kは埋め込み次元（256）である。スケーリング係数は1/√256となる。

「生成AIと大規模言語モデル」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。