難問チャレンジ応用

Azure AI Content Safetyで「Jailbreak detection(ジェイルブレイク検出)」機能が有効化されている場合、ユーザーが巧妙な指示文(プロンプトインジェクション)をAzure OpenAI Serviceのモデルに送信したときに起こることはどれか?

A.Content Safetyが検出を試みますが、実際のモデル応答はジェイルブレイク手法により制限が回避される可能性があり、別途モデル側の制御が必要です← 正解
✓ 正解です。Content Safetyは検出を補助しますが、モデル側の防御層(System Prompts、Guard Rails)も重要です。
B.Content Safetyが検出した場合、自動的にモデル応答がブロックされ、ユーザーには警告メッセージのみが返されます
✗ Content Safetyが検出しても、自動ブロックは保証されません。検出後の処理は実装に依存します。
C.ジェイルブレイク指示文はContent Safetyで100%検出されるため、モデルに到達せず、問題は完全に解決されます
✗ Content Safetyでも100%検出は不可能です。多層防御アプローチが必要とされています。
D.Content Safetyはジェイルブレイク検出を行いますが、モデル自体の安全性プロトコルとは無関係に動作するため、併用意味がありません
✗ Content Safetyとモデル側の制御は協力して機能し、併用することで防御効果が高まります。

この問題のポイント

Content Safetyは検出を補助しますが、モデル側の防御層(System Prompts、Guard Rails)も重要です。

AI-900:Microsoft Azure AI Fundamentals の問題一覧