大規模言語モデル（LLM）における「トークン化（Tokenization）」とは何か。最も… | G検定（深層学習・ジェネラリスト検定）

生成AIと大規模言語モデル定義

大規模言語モデル（LLM）における「トークン化（Tokenization）」とは何か。最も適切な説明はどれか。

A.訓練済みモデルのパラメータを微調整して、特定のタスクに適応させるプロセス

✗ これはファインチューニングの説明です。トークン化とは異なるプロセスです。

B.テキストを単語や部分単語などの小さな単位（トークン）に分割する前処理← 正解

✓ 正解です。トークン化はテキストを処理可能な小単位に分割する重要な前処理ステップです。

C.モデルが生成したテキストの確率分布から実際の単語を選択するプロセス

✗ これはサンプリングやデコーディング戦略の説明であり、トークン化ではありません。

D.異なる言語間で意味を保持したまま翻訳するための埋め込み空間の変換

✗ これは多言語埋め込みやクロスリンガルモデルに関する説明です。

この問題のポイント

トークン化はテキストを処理可能な小単位に分割する重要な前処理ステップです。

「生成AIと大規模言語モデル」の他の問題

AWS Certified AI Practitioner（AIF-C01）

AWSにおけるAI・ML・生成AIサービスの基礎知識を問う新資格。AIの概念からAWSのAIサービスまで幅広く出題。