V 函數（模型可用時學習優化） · 精通 TensorFlow 1.x

# V 函數（模型可用時學習優化）如果事先知道模型，則智能體可以執行**策略搜索**以找到最大化值函數的最優策略。當模型可用時，智能體使用值函數，該函數可以樸素地定義為未來狀態的獎勵總和： ![](https://img.kancloud.cn/2a/83/2a8307eb7f7fbc7e1dcc98ffbe2de72b_1960x430.png) 因此，使用策略`p`選擇操作的時間步`t`的值將是： ![](https://img.kancloud.cn/97/52/9752bdd111eaca98113f92d3ca6be26c_2230x210.png) `V`是值，`R`是獎勵，值函數估計在未來最多`n`個時間步長。當智能體使用這種方法估計獎勵時，它會平等地將所有行為視為獎勵。在極點推車示例中，如果民意調查在步驟 50 處進行，則它將把直到第 50 步的所有步驟視為對跌倒的同等責任。因此，不是添加未來獎勵，而是估計未來獎勵的加權總和。通常，權重是提高到時間步長的折扣率。如果貼現率為零，則值函數變為上面討論的幼稚函數，并且如果貼現率的值接近 1，例如 0.9 或 0.92，則與當前獎勵相比，未來獎勵的影響較小。因此，現在行動`a`的時間步`t`的值將是： ![](https://img.kancloud.cn/9c/f4/9cf45434e50a954ce0da682e51b5dd43_4640x250.png) `V`是值，`R`是獎勵，`r`是折扣率。 **V 函數和 Q 函數之間的關系：** `V*(s)`是狀態`s`下的最優值函數，其給出最大獎勵，并且`Q*(s，a)`是狀態`s`下的最佳 Q 函數，其通過選擇動作`a`給出最大期望獎勵。因此，`V*(s)`是所有可能動作中所有最優 Q 函數`Q*(s，a)`的最大值： ![](https://img.kancloud.cn/ad/94/ad9448f5f39b020b37d757bed3ab096f_2460x300.png)