深層学習(ディープラーニング)誤り発見
以下の最適化アルゴリズムとその特性に関する記述について、誤っているものはどれか?
A.確率的勾配降下法(SGD)はミニバッチで計算した勾配を用いて重みを更新し、バッチ勾配降下法より計算効率が良い
✓ この記述は正しい。SGDはメモリ効率に優れ、ノイズがある勾配により正則化効果も得られます。
B.Momentumはまるで物理的な運動量を持つかのように、過去の勾配方向を蓄積して現在の更新に反映させる
✓ この記述は正しい。Momentumは慣性項を導入し、局所最適値の脱出とより安定な収束を促進します。
C.Adamは適応的学習率を使用し、各パラメータの勾配の1次及び2次モーメントを記録してスケーリングを行う
✓ この記述は正しい。Adamはβ1、β2で1次・2次モーメントの指数移動平均を追跡し、適応的に学習率を調整します。
D.学習率(Learning Rate)が大きすぎる場合、必ず損失関数は単調に減少し、振動や発散は生じない← 正解
✓ 正解です。この記述が誤りで、正しくは「学習率が大きすぎる場合、損失は振動したり発散したりする可能性があり、最適点を通り越してしまう」です。これは最適化の基本的な注意点です。
「深層学習(ディープラーニング)」の他の問題
ニューラルネットワークの訓練中に勾配消失問題が発生した場合、以下の対策のうち最も直接的な解決策はどれか?CNN(畳み込みニューラルネットワーク)で過学習が顕著に発生した場合、以下の対策のうち最も効果的なのはどれか?RNN(再帰型ニューラルネットワーク)で長期の依存関係をモデル化する必要がある場合、標準的なRNNではなくLSTMやGR…画像分類タスクで訓練データセットが著しく不均衡(あるクラスが極端に少ない)な場合、モデルの性能を改善するために講じるべき…転移学習(Transfer Learning)で大規模な事前訓練済みモデルを利用する際、目的タスクのデータが非常に少ない…自然言語処理でAttention機構を導入した結果、以前のRNNモデルと比べて並列処理性能が向上した理由は何か?