深層学習応用
Attention機構を備えたTransformerモデルにおいて、入力シーケンスの長さが倍になった場合、計算複雑度はどのように変化するか?
A.線形に増加し、訓練時間も約2倍になる
✗ Transformerの複雑度はシーケンス長に関して線形ではなく、Self-Attention計算は二次的なスケーリングを持つ。
B.計算複雑度が二次関数的に増加し、メモリ使用量と訓練時間が約4倍になる← 正解
✓ 正解です。Transformerの自己注意(Self-Attention)層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。
C.指数関数的に増加し、実用的な訓練が困難になる
✗ Transformerの複雑度は指数関数的ではなく、二次関数的である。実用的なシーケンス長では通常訓練可能である。
D.複雑度は変わらず、シーケンス長に対してスケーラブルである
✗ Transformerは確かにRNNより長距離依存を扱えるが、シーケンス長に対してスケーラブルではなく、二次複雑度がボトルネックである。
この問題のポイント
Transformerの自己注意(Self-Attention)層は O(n²) の時間・空間複雑度を持つため、シーケンス長が2倍になると計算量は約4倍に増加します。
「深層学習」の他の問題
CNN(畳み込みニューラルネットワーク)が画像認識に適している主な理由はどれか?長文テキストや会話履歴など「長距離の依存関係」を効率的に学習するGPTなどの基盤になっているアーキテクチャはどれか?ニューラルネットワークの訓練中、勾配消失問題(Vanishing Gradient Problem)が発生した場合、以下…転移学習を用いて、新しい医療画像分類タスク向けに事前学習済みモデルを微調整する際、訓練データが非常に限定的(200枚程度…リカレントニューラルネットワーク(RNN)を用いた時系列予測モデルで、シーケンスの長さが急激に増加した場合、以下のうち最…バッチ正規化(Batch Normalization)を訓練中に適用したが、訓練セットでの精度は高いのにテストセットでの…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
DP-900:Microsoft Azure Data Fundamentals
Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。