AIソリューションの実装とユースケース応用問題

Amazon Bedrockを使用してRAG(Retrieval-Augmented Generation)システムを構築し、企業の社内ドキュメント(3,000個のPDF、合計5GB)をNowledge Baseに登録しました。システムが本番環境で稼働開始後、ユーザーから「特定の新製品に関する質問をすると、2年前の古い製品情報が取得されてしまう」という報告が来ました。新製品情報は1ヶ月前に作成されたドキュメントに記載されており、Knowledge Baseへの登録も完了しているはずです。この状況で、最も可能性の高い原因と、その解決方法として最も適切なものはどれですか?

A.新製品ドキュメントのテキスト抽出時にメタデータ(作成日時や製品バージョン情報)が正しく抽出されなかった。Knowledge Baseのメタデータフィルタリング機能を有効にして、ドキュメントの作成日時に基づくフィルタリングを設定し、古い情報を優先度低下させるべきである。
✗ メタデータフィルタリングは有効な手段ですが、Knowledge Baseに登録されたドキュメントが正しく検索対象に含まれていない場合、フィルタリングでは問題を完全には解決できません。
B.Knowledge Baseの検索時に使用される埋め込みモデル(Embedding Model)が古い製品情報に対して高い類似度スコアを返している。より最新の埋め込みモデルに変更し、Knowledge Baseのベクトル化を再実施する必要がある。← 正解
✓ 正解です。埋め込みモデルが古い製品情報とのセマンティック類似度を高く評価している可能性が高く、より最新の埋め込みモデルに変更してベクトルを再生成することで、新製品情報が正しく優先される可能性が高まります。
C.新製品ドキュメントがPDF形式で、テキスト抽出の精度が不十分なため、セマンティック検索時にマッチしにくくなっている。ドキュメントをテキスト形式に変換してから再度Knowledge Baseに登録し直すべきである。
✗ PDF形式自体がRAGシステムで広くサポートされており、形式変換がこの問題の根本的な解決策ではありません。また、テキスト抽出精度の問題であれば、他の質問では検索が機能しているはずです。
D.Bedrockの基盤モデルのトレーニングデータが古く、新製品に関する学習が不十分なため、古い情報を優先的に返す傾向を持っている。このモデルのファインチューニングを実施して新製品情報を学習させるべきである。
✗ Bedrockの基盤モデルのファインチューニングよりも、Knowledge Baseの検索・検索ロジックの問題を先に検査・改善する方が効率的です。モデルのファインチューニングは高コストで時間がかかります。

AWS Certified AI Practitioner(AIF-C01) の問題一覧