生成AIアプリケーションのテストと評価に関する以下の記述で、誤っているものはどれか。 | AI-900：Microsoft Azure AI Fundamentals

生成AI応用誤り発見

生成AIアプリケーションのテストと評価に関する以下の記述で、誤っているものはどれか。

A.生成AIの出力品質を評価するため、人的評価（Human Evaluation）と自動メトリクス（例：BLEU、ROUGE）を組み合わせることが推奨される。

✓ この記述は正しい。人的評価と自動メトリクスの組み合わせにより、出力の多角的な品質評価が可能になります。

B.プロンプトの異なるバージョンを同じデータセットで比較テストする場合、ランダム性による変動を排除するため温度（Temperature）を最大値に設定すべきである。← 正解

✓ 正解です。この記述が誤りで、テスト時は温度を0に近い値に設定して出力を決定的にし、ランダム性を排除して公正な比較を実施すべきです。

C.敵対的テスト（Adversarial Testing）では、システムの弱点や予期しない動作を意図的に引き出すため、異常な入力や攻撃的なプロンプトを使用する。

✓ この記述は正しい。敵対的テストはセキュリティと堅牢性を検証する重要なプロセスで、エッジケースや攻撃シナリオを意図的にテストします。

D.継続的な監視により、デプロイ後のモデル出力の品質低下や意図しない動作変化を早期に検出できる。

✓ この記述は正しい。デプロイ後も継続的に監視することで、モデル性能の低下やデータドリフトの影響を検出できます。

この問題のポイント

この記述が誤りで、テスト時は温度を0に近い値に設定して出力を決定的にし、ランダム性を排除して公正な比較を実施すべきです。

「生成AI応用」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。