深層学習(ディープラーニング)応用問題

自然言語処理でAttention機構を導入した結果、以前のRNNモデルと比べて並列処理性能が向上した理由は何か?

A.Attentionが再帰的な構造を排除し、全トークン間の依存関係を同時に計算できるようになったため← 正解
✓ 正解です。Transformerなどの自己注意メカニズムは列方向の逐次処理を不要にし、全トークン間の相互作用を並列に計算できます。
B.Attentionメカニズムが活性化関数の計算量を削減したため
✗ Attentionは活性化関数とは独立して機能し、活性化関数の計算量削減には直接関係しません。
C.Attentionが勾配消失問題を完全に解決し、逆伝播の速度を向上させたため
✗ Attentionは勾配の流れを改善しますが、完全に消失問題を解決するわけではなく、むしろ短距離接続により緩和します。
D.Attentionが時系列データの長さに依存せず、常に固定時間で計算できるようになったため
✗ Attentionの計算量はシーケンス長の二乗に比例するため、長さに依存しません。

G検定(深層学習・ジェネラリスト検定) の問題一覧