深度強化學習 · 精通 TensorFlow 1.x

# 深度強化學習強化學習是一種學習形式，其中軟件智能體觀察環境并采取行動以最大化其對環境的獎勵，如下圖所示： ![](https://img.kancloud.cn/1a/38/1a388069553c3f44d7509c6fe668ee16_436x264.png) 這個比喻可以用來表示現實生活中的情況，如下所示： * 股票交易智能體觀察交易信息，新聞，分析和其他形式信息，并采取行動買入或賣出交易，以便以短期利潤或長期利潤的形式最大化獎勵。 * 保險智能體觀察有關客戶的信息，然后采取行動確定保險費金額，以便最大化利潤并最大限度地降低風險。 * 類人機器人觀察環境然后采取行動，例如步行，跑步或拾取物體，以便在實現目標方面最大化獎勵。強化學習已成功應用于許多應用，如廣告優化，股票市場交易，自動駕駛汽車，機器人和游戲，僅舉幾例。強化學習與監督學習不同，因為預先沒有標簽來調整模型的參數。該模型從運行中獲得的獎勵中學習。雖然短期獎勵可以立即獲得，但只有經過幾個步驟才能獲得長期獎勵。這種現象也稱為**延遲反饋**。強化學習也與無監督學習不同，因為在無監督學習中沒有可用的標簽，而在強化學習中，反饋可用于獎勵。在本章中，我們將通過涵蓋以下主題來了解強化學習及其在 TensorFlow 和 Keras 中的實現： * OpenAI Gym 101 * 將簡單的策略應用于 cartpole 游戲 * 強化學習 101 * Q 函數 * 探索和開發 * V 函數 * RL 技術 * RL 的簡單神經網絡策略 * 實現 Q-Learning * Q-Learning 的初始化和離散化 * 使用 Q-Table 進行 Q-Learning * 深度 Q 網絡：使用 Q-Network 進行 Q-Learning 我們將在 OpenAI Gym 中演示我們的示例，讓我們首先了解一下 OpenAI Gym。