生成AIと大規模言語モデル計算問題

トランスフォーマー模型の自己注意機構において、クエリ行列Q、キー行列K、バリュー行列Vがそれぞれ(バッチサイズ12、シーケンス長8、埋め込み次元256)の形状を持つとき、スケール化ドット積注意(Scaled Dot-Product Attention)の計算で用いるスケーリング係数は何か?

A.1/8
✗ スケーリング係数はシーケンス長ではなく、キーの埋め込み次元で決定される。
B.1/√256← 正解
✓ 正解です。スケール化ドット積注意はAttention(Q,K,V)=softmax(QK^T/√d_k)V の形式であり、d_kは埋め込み次元(256)である。スケーリング係数は1/√256となる。
C.1/12
✗ バッチサイズはスケーリング係数に影響しない。スケーリング係数はキー次元に基づく。
D.1/√16
✗ この値は埋め込み次元の半分の平方根の逆数であり、正しい計算ではない。

G検定(深層学習・ジェネラリスト検定) の問題一覧