強化學習 101 · 精通 TensorFlow 1.x

# 強化學習 101 強化學習由智能體從前一個時間步驟輸入觀察和獎勵并以動作產生輸出來描述，目標是最大化累積獎勵。智能體具有策略，值函數和模型： * 智能體用于選擇下一個動作的算法稱為**策略**。在上一節中，我們編寫了一個策略，它將采用一組參數 theta，并根據觀察和參數之間的乘法返回下一個動作。該策略由以下等式表示： ![](https://img.kancloud.cn/73/45/7345f1e1150dd33ac84fdac59cba11d3_1040x210.png) `S`是一組狀態，`A`是一組動作。策略是確定性的或隨機性的。 * 確定性策略在每次運行中為相同狀態返回相同的操作： ![](https://img.kancloud.cn/d6/d4/d6d423396bb703434781c093fa58ce60_680x210.png) * 隨機策略為每次運行中的相同狀態返回相同操作的不同概率： ![](https://img.kancloud.cn/0a/4b/0a4b505d7f8ae07964d811f147fc1221_2010x210.png) * **值函數**根據當前狀態中的所選動作預測長期獎勵的數量。因此，值函數特定于智能體使用的策略。獎勵表示行動的直接收益，而價值函數表示行動的累積或長期未來收益。獎勵由環境返回，價值函數由智能體在每個時間步驟估計。 * **模型**表示智能體在內部保存的環境。該模型可能是環境的不完美表示。智能體使用該模型來估計所選動作的獎勵和下一個狀態。智能體的目標還可以是為馬爾可夫決策過程（MDP）找到最優策略。 MDP 是從一個州到另一個州的觀察，行動，獎勵和過渡的數學表示。為簡潔起見，我們將省略對 MDP 的討論，并建議好奇的讀者在互聯網上搜索更深入 MDP 的資源。