生成AI応用誤り発見

生成AIアプリケーションのテストと評価に関する以下の記述で、誤っているものはどれか。

A.生成AIの出力品質を評価するため、人的評価(Human Evaluation)と自動メトリクス(例:BLEU、ROUGE)を組み合わせることが推奨される。
✓ この記述は正しい。人的評価と自動メトリクスの組み合わせにより、出力の多角的な品質評価が可能になります。
B.プロンプトの異なるバージョンを同じデータセットで比較テストする場合、ランダム性による変動を排除するため温度(Temperature)を最大値に設定すべきである。← 正解
✓ 正解です。この記述が誤りで、テスト時は温度を0に近い値に設定して出力を決定的にし、ランダム性を排除して公正な比較を実施すべきです。
C.敵対的テスト(Adversarial Testing)では、システムの弱点や予期しない動作を意図的に引き出すため、異常な入力や攻撃的なプロンプトを使用する。
✓ この記述は正しい。敵対的テストはセキュリティと堅牢性を検証する重要なプロセスで、エッジケースや攻撃シナリオを意図的にテストします。
D.継続的な監視により、デプロイ後のモデル出力の品質低下や意図しない動作変化を早期に検出できる。
✓ この記述は正しい。デプロイ後も継続的に監視することで、モデル性能の低下やデータドリフトの影響を検出できます。

この問題のポイント

この記述が誤りで、テスト時は温度を0に近い値に設定して出力を決定的にし、ランダム性を排除して公正な比較を実施すべきです。

AI-900:Microsoft Azure AI Fundamentals の問題一覧