RL 算法的探索與開發 · 精通 TensorFlow 1.x · 看云

<ruby id="bdb3f"></ruby>

<p id="bdb3f"><cite id="bdb3f"></cite></p>

<p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>

<p id="bdb3f"><cite id="bdb3f"></cite></p>

<pre id="bdb3f"></pre>

<pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

<ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
<pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre>

<output id="bdb3f"></output><p id="bdb3f"></p>

<pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

<ruby id="bdb3f"></ruby>

ThinkChat2.0新版上線，更智能更精彩，支持會話、畫圖、視頻、閱讀、搜索等，送10W Token，即刻開啟你的AI之旅 廣告

# RL 算法的探索與開發在沒有模型的情況下，智能體在每一步都要探索或利用。 **探索**意味著智能體選擇一個未知動作來找出獎勵和模型。 **剝削**意味著智能體選擇最知名的行動來獲得最大獎勵。如果智能體總是決定利用它，那么它可能會陷入局部最優值。因此，有時智能體會繞過學到的策略來探索未知的行為。同樣，如果智能體總是決定探索，那么它可能無法找到最優策略。因此，在探索和開發之間取得平衡非常重要。在我們的代碼中，我們通過使用概率`p`來選擇隨機動作和概率`1-p`來選擇最優動作來實現這一點。

<ruby id="bdb3f"></ruby>

<p id="bdb3f"><cite id="bdb3f"></cite></p>

<p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>

<p id="bdb3f"><cite id="bdb3f"></cite></p>

<pre id="bdb3f"></pre>

<pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

<ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
<pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre>

<output id="bdb3f"></output><p id="bdb3f"></p>

<pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

<ruby id="bdb3f"></ruby>

哎呀哎呀视频在线观看