生成AIと大規模言語モデル計算問題
トランスフォーマー模型において、マルチヘッド注意機構が8個のヘッドを持ち、全埋め込み次元が512である場合、各ヘッドの埋め込み次元(d_head)はいくつか?
A.64← 正解
✓ 正解です。各ヘッドの埋め込み次元=全埋め込み次元/ヘッド数=512÷8=64。
B.512
✗ これは全埋め込み次元であり、ヘッド数による除算を行っていない。
C.4096
✗ ヘッド数と全埋め込み次元を掛けた値であり、正しい計算ではない。
D.32
✗ この値は正しい値の半分であり、計算誤りがある。