生成AIの基礎計算問題

あるRAGシステムでは、ドキュメントを512トークンずつのチャンクに分割し、各チャンク間に64トークンのオーバーラップを設けています。総トークン数が10,000トークンのドキュメントを処理した場合、生成されるチャンク数として最も近いものはどれですか?

A.約22チャンク← 正解
✓ 正解です。実効ステップ=512-64=448トークン/チャンク。チャンク数≒(10,000-512)/448+1≒21.2≈約22チャンクとなります。
B.約19チャンク
✗ 約19チャンクはオーバーラップを考慮せず10,000÷512≒19.5と計算した場合の誤りです。
C.約16チャンク
✗ 約16チャンクはオーバーラップを過大に見積もるなど計算が誤っています。
D.約27チャンク
✗ 約27チャンクはオーバーラップサイズを誤って大きくカウントした場合の値です。

AWS Certified AI Practitioner(AIF-C01) の問題一覧