トランスフォーマー構造のLLMにおいて、コンテキスト長を2倍に拡張した場合、計算複雑性と推論速度へはどのような影響が生じるか？

Question

Accepted Answer

正解: 自己注意機構の計算量がコンテキスト長の2乗に比例するため、計算量は4倍になり、推論速度は大幅に低下する。✓ 正解です。自己注意機構はQ・K・V間の全ペア計算（O(n²)）が必要なため、コンテキスト長2倍でメモリと計算量は約4倍になり、推論速度が大幅に低下します。

「生成AIと大規模言語モデル」の他の問題