生成AIと大規模言語モデル誤り発見

以下の記述で誤っているものはどれか。

A.データ拡張(Data Augmentation)は訓練データを増やすための手法であり、モデルの過学習を軽減し汎化性能を向上させる。
✓ この記述は正しい。データ拡張は統計的学習の基本的で有効な手法であり、訓練データの多様性を増す。
B.トークン確率の累積分布が一定の閾値を超えるまで候補を絞り込むTop-pサンプリングは、テンペラチャよりも多様性制御が細かい。← 正解
✓ 正解です。この記述が誤りで、Top-pサンプリングはテンペラチャと比較して「多様性制御が細かい」のではなく、確率的に累積確率ベースで候補を選ぶため、テンペラチャとは異なるアプローチです(細かさは一概には言えません)。
C.勾配消失問題はニューラルネットワークの逆伝播で勾配が指数関数的に減少する現象であり、GRUやLSTMで軽減される。
✓ この記述は正しい。勾配消失はディープネットワークの訓練を困難にし、LSTMゲート機構で改善された経緯がある。
D.エンベディング(埋め込み)は単語や文字を高次元の密度ベクトルに変換し、セマンティック情報を保持する表現である。
✓ この記述は正しい。エンベディングはニューラルモデルの基本的な入力表現であり、意味的な近さを反映する。

G検定(深層学習・ジェネラリスト検定) の問題一覧