AIソリューションの実装とユースケース定義問題

自然言語処理(NLP)における「トークン化(Tokenization)」とは何ですか?

A.テキストデータを数値ベクトルに変換してモデルが処理できる形式にする最終ステップ
✗ 数値ベクトルへの変換は「埋め込み(Embedding)」であり、トークン化とは異なります。
B.テキストを単語やサブワードなどの小さな単位(トークン)に分割するプロセス← 正解
✓ 正解です。トークン化はテキストを単語・サブワード・文字などの小単位に分割する前処理ステップです。
C.モデルが生成したテキストの品質を評価するためのスコアリング手法
✗ テキスト品質のスコアリングはBLEUスコアなどの評価指標であり、トークン化ではありません。
D.大規模言語モデルに対して特定タスク向けの追加学習を行うプロセス
✗ 特定タスクへの追加学習は「ファインチューニング」であり、トークン化とは別の概念です。

AWS Certified AI Practitioner(AIF-C01) の問題一覧