機械学習の基礎応用問題
ニューラルネットワークの勾配消失問題(Vanishing Gradient Problem)が起きている場合、深いネットワークの初期層と後期層でどのような学習速度の差が生じますか?
A.初期層と後期層の学習速度に大きな違いはなく、均等に学習が進行する
✗ 勾配消失が起きている場合、層の深さに応じて勾配が指数関数的に小さくなるため、学習速度に大きな差が生じます。
B.後期層(出力に近い層)の学習が進み、初期層(入力に近い層)の学習が極めて遅くなる← 正解
✓ 正解です。逆伝播時に、初期層に向かうほど勾配が小さくなり、初期層の重みの更新がほぼ停止するため、初期層は学習が進みません。
C.初期層の学習が進み、後期層の学習が遅くなる
✗ 逆伝播のメカニズムから、後期層より初期層で勾配がより小さくなるため、この説明は逆です。
D.勾配消失により、全ての層で学習が完全に停止する
✗ 完全に停止するのではなく、初期層では更新が極めて遅くなるため、学習が非常に困難になります。