深層学習定義問題

長文テキストや会話履歴など「長距離の依存関係」を効率的に学習するGPTなどの基盤になっているアーキテクチャはどれか?

A.CNN(畳み込みニューラルネットワーク)
✗ 画像の局所特徴抽出に強いが、長距離の文脈依存関係の学習には不向き。
B.RNN(再帰型ニューラルネットワーク)
✗ 長距離依存の学習は可能だがシーケンスの長さに応じて勾配消失問題が起きやすい。
C.Transformer← 正解
✓ 正解。Self-Attentionで全トークン間の関係を同時に計算し、長距離依存を効率的に学習できる。
D.GAN(敵対的生成ネットワーク)
✗ 画像生成に特化した生成モデル。テキスト処理の基盤ではない。

AI-900:Microsoft Azure AI Fundamentals の問題一覧