自然言語処理でAttention機構を導入した結果、以前のRNNモデルと比べて並列処理性能… | G検定（深層学習・ジェネラリスト検定）

深層学習（ディープラーニング）応用

自然言語処理でAttention機構を導入した結果、以前のRNNモデルと比べて並列処理性能が向上した理由は何か？

A.Attentionが再帰的な構造を排除し、全トークン間の依存関係を同時に計算できるようになったため← 正解

✓ 正解です。Transformerなどの自己注意メカニズムは列方向の逐次処理を不要にし、全トークン間の相互作用を並列に計算できます。

B.Attentionメカニズムが活性化関数の計算量を削減したため

✗ Attentionは活性化関数とは独立して機能し、活性化関数の計算量削減には直接関係しません。

C.Attentionが勾配消失問題を完全に解決し、逆伝播の速度を向上させたため

✗ Attentionは勾配の流れを改善しますが、完全に消失問題を解決するわけではなく、むしろ短距離接続により緩和します。

D.Attentionが時系列データの長さに依存せず、常に固定時間で計算できるようになったため

✗ Attentionの計算量はシーケンス長の二乗に比例するため、長さに依存しません。

この問題のポイント

Transformerなどの自己注意メカニズムは列方向の逐次処理を不要にし、全トークン間の相互作用を並列に計算できます。

「深層学習（ディープラーニング）」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。