<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 實現 Q-Learning Q-Learning 是一種無模型的方法,可以找到可以最大化智能體獎勵的最優策略。在最初的游戲過程中,智能體會為每對(狀態,動作)學習 Q 值,也稱為探索策略,如前面部分所述。一旦學習了 Q 值,那么最優策略將是在每個狀態中選擇具有最大 Q 值的動作,也稱為利用策略。學習算法可以以局部最優解決方案結束,因此我們通過設置`exploration_rate`參數來繼續使用探索策略。 Q-Learning 算法如下: ```py initialize Q(shape=[#s,#a]) to random values or zeroes Repeat (for each episode) observe current state s Repeat select an action a (apply explore or exploit strategy) observe state s_next as a result of action a update the Q-Table using bellman's equation set current state s = s_next until the episode ends or a max reward / max steps condition is reached Until a number of episodes or a condition is reached (such as max consecutive wins) ``` 上述算法中的`Q(s, )`表示我們在前面部分中描述的 Q 函數。此函數的值用于選擇操作而不是獎勵,因此此函數表示獎勵或折扣獎勵。使用未來狀態中 Q 函數的值更新 Q 函數的值。眾所周知的貝爾曼方程捕獲了這一更新: ![](https://img.kancloud.cn/e3/23/e323ffa677762ff073ab226799bb0aaf_2620x300.png) 這基本上意味著在時間步驟 t,在狀態 s 中,對于動作 a,最大未來獎勵(Q)等于來自當前狀態的獎勵加上來自下一狀態的最大未來獎勵。 Q(s,a)可以實現為 Q 表或稱為 Q 網絡的神經網絡。在這兩種情況下,Q 表或 Q 網絡的任務是基于給定輸入的 Q 值提供最佳可能的動作。隨著 Q 表變大,基于 Q 表的方法通常變得棘手,因此使神經網絡成為通過 Q 網絡逼近 Q 函數的最佳候選者。讓我們看看這兩種方法的實際應用。 您可以按照本書代碼包中的 Jupyter 筆記本`ch-13b_Reinforcement_Learning_DQN`中的代碼進行操作。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看