生成AIと大規模言語モデル定義問題

大規模言語モデル(LLM)における「トークン化(Tokenization)」とは何か。最も適切な説明はどれか。

A.訓練済みモデルのパラメータを微調整して、特定のタスクに適応させるプロセス
✗ これはファインチューニングの説明です。トークン化とは異なるプロセスです。
B.テキストを単語や部分単語などの小さな単位(トークン)に分割する前処理← 正解
✓ 正解です。トークン化はテキストを処理可能な小単位に分割する重要な前処理ステップです。
C.モデルが生成したテキストの確率分布から実際の単語を選択するプロセス
✗ これはサンプリングやデコーディング戦略の説明であり、トークン化ではありません。
D.異なる言語間で意味を保持したまま翻訳するための埋め込み空間の変換
✗ これは多言語埋め込みやクロスリンガルモデルに関する説明です。

G検定(深層学習・ジェネラリスト検定) の問題一覧