Attention機構を備えたTransformerモデルにおいて、入力シーケンスの長さが… | AI-900：Microsoft Azure AI Fundamentals

深層学習応用

Attention機構を備えたTransformerモデルにおいて、入力シーケンスの長さが倍になった場合、計算複雑度はどのように変化するか？

A.線形に増加し、訓練時間も約2倍になる

✗ Transformerの複雑度はシーケンス長に関して線形ではなく、Self-Attention計算は二次的なスケーリングを持つ。

B.計算複雑度が二次関数的に増加し、メモリ使用量と訓練時間が約4倍になる← 正解

✓ 正解です。Transformerの自己注意（Self-Attention）層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。

C.指数関数的に増加し、実用的な訓練が困難になる

✗ Transformerの複雑度は指数関数的ではなく、二次関数的である。実用的なシーケンス長では通常訓練可能である。

D.複雑度は変わらず、シーケンス長に対してスケーラブルである

✗ Transformerは確かにRNNより長距離依存を扱えるが、シーケンス長に対してスケーラブルではなく、二次複雑度がボトルネックである。

この問題のポイント

Transformerの自己注意（Self-Attention）層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。

「深層学習」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。