AIと機械学習の基礎概念定義問題

「強化学習(Reinforcement Learning)」における「報酬(Reward)」とは何か?

A.モデルの訓練に使用する正解ラベル付きデータセット
✗ 正解ラベル付きデータセットは教師あり学習で使用されます。強化学習では報酬信号が学習の基準となります。
B.エージェントが環境内でとった行動の良し悪しを示す数値フィードバック← 正解
✓ 正解です。報酬はエージェントの行動に対して環境から与えられる数値フィードバックで、学習の指針となります。
C.モデルの重みを更新するために使用される損失関数の値
✗ 損失関数は主に教師あり学習や教師なし学習で使われる概念であり、強化学習の報酬とは異なります。
D.複数のエージェントが協力してタスクを達成するための通信プロトコル
✗ 通信プロトコルはマルチエージェントシステムに関連する概念であり、報酬の定義とは関係ありません。

AWS Certified AI Practitioner(AIF-C01) の問題一覧