<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # V 函數(模型可用時學習優化) 如果事先知道模型,則智能體可以執行**策略搜索**以找到最大化值函數的最優策略。當模型可用時,智能體使用值函數,該函數可以樸素地定義為未來狀態的獎勵總和: ![](https://img.kancloud.cn/2a/83/2a8307eb7f7fbc7e1dcc98ffbe2de72b_1960x430.png) 因此,使用策略`p`選擇操作的時間步`t`的值將是: ![](https://img.kancloud.cn/97/52/9752bdd111eaca98113f92d3ca6be26c_2230x210.png) `V`是值,`R`是獎勵,值函數估計在未來最多`n`個時間步長。 當智能體使用這種方法估計獎勵時,它會平等地將所有行為視為獎勵。在極點推車示例中,如果民意調查在步驟 50 處進行,則它將把直到第 50 步的所有步驟視為對跌倒的同等責任。因此,不是添加未來獎勵,而是估計未來獎勵的加權總和。通常,權重是提高到時間步長的折扣率。如果貼現率為零,則值函數變為上面討論的幼稚函數,并且如果貼現率的值接近 1,例如 0.9 或 0.92,則與當前獎勵相比,未來獎勵的影響較小。 因此,現在行動`a`的時間步`t`的值將是: ![](https://img.kancloud.cn/9c/f4/9cf45434e50a954ce0da682e51b5dd43_4640x250.png) `V`是值,`R`是獎勵,`r`是折扣率。 **V 函數和 Q 函數之間的關系:** `V*(s)`是狀態`s`下的最優值函數,其給出最大獎勵,并且`Q*(s,a)`是狀態`s`下的最佳 Q 函數,其通過選擇動作`a`給出最大期望獎勵。 因此,`V*(s)`是所有可能動作中所有最優 Q 函數`Q*(s,a)`的最大值: ![](https://img.kancloud.cn/ad/94/ad9448f5f39b020b37d757bed3ab096f_2460x300.png)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看