「強化学習（Reinforcement Learning）」における「報酬（Reward）… | AWS Certified AI Practitioner（AIF-C01）

AIと機械学習の基礎概念定義

「強化学習（Reinforcement Learning）」における「報酬（Reward）」とは何か？

A.モデルの訓練に使用する正解ラベル付きデータセット

✗ 正解ラベル付きデータセットは教師あり学習で使用されます。強化学習では報酬信号が学習の基準となります。

B.エージェントが環境内でとった行動の良し悪しを示す数値フィードバック← 正解

✓ 正解です。報酬はエージェントの行動に対して環境から与えられる数値フィードバックで、学習の指針となります。

C.モデルの重みを更新するために使用される損失関数の値

✗ 損失関数は主に教師あり学習や教師なし学習で使われる概念であり、強化学習の報酬とは異なります。

D.複数のエージェントが協力してタスクを達成するための通信プロトコル

✗ 通信プロトコルはマルチエージェントシステムに関連する概念であり、報酬の定義とは関係ありません。

この問題のポイント

報酬はエージェントの行動に対して環境から与えられる数値フィードバックで、学習の指針となります。

「AIと機械学習の基礎概念」の他の問題

G検定（深層学習・ジェネラリスト検定）

日本ディープラーニング協会（JDLA）が主催するAI・深層学習の基礎資格。AIの概念・機械学習・ディープラーニング・生成AIの基礎を問う。2025-2026年に受験者急増中。