深層学習応用

Attention機構を備えたTransformerモデルにおいて、入力シーケンスの長さが倍になった場合、計算複雑度はどのように変化するか?

A.線形に増加し、訓練時間も約2倍になる
✗ Transformerの複雑度はシーケンス長に関して線形ではなく、Self-Attention計算は二次的なスケーリングを持つ。
B.計算複雑度が二次関数的に増加し、メモリ使用量と訓練時間が約4倍になる← 正解
✓ 正解です。Transformerの自己注意(Self-Attention)層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。
C.指数関数的に増加し、実用的な訓練が困難になる
✗ Transformerの複雑度は指数関数的ではなく、二次関数的である。実用的なシーケンス長では通常訓練可能である。
D.複雑度は変わらず、シーケンス長に対してスケーラブルである
✗ Transformerは確かにRNNより長距離依存を扱えるが、シーケンス長に対してスケーラブルではなく、二次複雑度がボトルネックである。

この問題のポイント

Transformerの自己注意(Self-Attention)層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。

AI-900:Microsoft Azure AI Fundamentals の問題一覧