生成AI詳細応用

Embedding APIを使用して、企業内ドキュメント検索システムを構築しています。text-embedding-ada-002モデルを選択する際、より大きなEmbedding次元数(1536次元)を使用することのトレードオフとして、最も重大な影響はどれか?

A.Embedding生成の精度は向上するが、ベクトル保存に必要なストレージとメモリが増加し、検索レイテンシが悪化する可能性がある← 正解
✓ 正解です。高次元のEmbeddingはより多くの情報を保持しますが、ストレージ、メモリ、計算コストが増加し、ベクトル類似度計算のレイテンシが増加するトレードオフがあります。
B.セマンティック類似度の計算精度が低下し、関連ドキュメントの検索結果が減少する
✗ むしろ次元数の増加は精度向上につながります。低下ではなく、より詳細な意味情報を捉えられます。
C.Embeddingモデルの学習時間が延長され、デプロイまでの時間が大幅に増加する
✗ text-embedding-ada-002は事前学習済みモデルのため、次元数変更では学習時間は発生しません。
D.多言語対応性が失われ、日本語ドキュメントのEmbeddingが生成できなくなる
✗ text-embedding-ada-002は次元数に関わらず多言語対応です。次元数の変更で言語対応が失われることはありません。

この問題のポイント

高次元のEmbeddingはより多くの情報を保持しますが、ストレージ、メモリ、計算コストが増加し、ベクトル類似度計算のレイテンシが増加するトレードオフがあります。

AI-900:Microsoft Azure AI Fundamentals の問題一覧