深層学習(ディープラーニング)応用問題
自然言語処理でAttention機構を導入した結果、以前のRNNモデルと比べて並列処理性能が向上した理由は何か?
A.Attentionが再帰的な構造を排除し、全トークン間の依存関係を同時に計算できるようになったため← 正解
✓ 正解です。Transformerなどの自己注意メカニズムは列方向の逐次処理を不要にし、全トークン間の相互作用を並列に計算できます。
B.Attentionメカニズムが活性化関数の計算量を削減したため
✗ Attentionは活性化関数とは独立して機能し、活性化関数の計算量削減には直接関係しません。
C.Attentionが勾配消失問題を完全に解決し、逆伝播の速度を向上させたため
✗ Attentionは勾配の流れを改善しますが、完全に消失問題を解決するわけではなく、むしろ短距離接続により緩和します。
D.Attentionが時系列データの長さに依存せず、常に固定時間で計算できるようになったため
✗ Attentionの計算量はシーケンス長の二乗に比例するため、長さに依存しません。
「深層学習(ディープラーニング)」の他の問題
ニューラルネットワークの訓練中に勾配消失問題が発生した場合、以下の対策のうち最も直接的な解決策はどれか?CNN(畳み込みニューラルネットワーク)で過学習が顕著に発生した場合、以下の対策のうち最も効果的なのはどれか?RNN(再帰型ニューラルネットワーク)で長期の依存関係をモデル化する必要がある場合、標準的なRNNではなくLSTMやGR…画像分類タスクで訓練データセットが著しく不均衡(あるクラスが極端に少ない)な場合、モデルの性能を改善するために講じるべき…転移学習(Transfer Learning)で大規模な事前訓練済みモデルを利用する際、目的タスクのデータが非常に少ない…CNNとRNNの最も重要な違いはどれか。