AI用語比較

強化学習と教師あり学習における報酬信号の役割の違いについて、正しく説明しているのはどれか?

A.教師あり学習では正確な正解ラベルが必須だが、強化学習では遅延的かつ不完全な報酬信号からも学習できる← 正解
✓ 正解です。教師あり学習は各サンプルに対して即座の正解ラベルが必要ですが、強化学習はエージェントの行動に対する遅延報酬や部分的な報酬からも学習できます。
B.強化学習と教師あり学習は報酬信号の概念が全く同じで、用語の違いに過ぎない
✗ 誤りです。教師あり学習の「ラベル」と強化学習の「報酬信号」は性質が異なります。前者は即座で完全な情報、後者は遅延的かつ不完全な情報です。
C.強化学習は報酬信号を使わず、教師あり学習のみが報酬に基づいて学習する
✗ 誤りです。強化学習は報酬信号を中心に設計されており、エージェントが累積報酬を最大化するポリシーを学習します。
D.教師あり学習の報酬信号は離散値のみであり、強化学習の報酬は連続値のみである
✗ 誤りです。どちらの学習パラダイムも離散値・連続値の両方の報酬信号に対応しています。データ型と学習方式は独立しています。

この問題のポイント

教師あり学習は各サンプルに対して即座の正解ラベルが必要ですが、強化学習はエージェントの行動に対する遅延報酬や部分的な報酬からも学習できます。

AI-900:Microsoft Azure AI Fundamentals の問題一覧