Q-Learning 的初始化和離散化 · 精通 TensorFlow 1.x

# Q-Learning 的初始化和離散化極地車環境返回的觀測涉及環境狀況。極點車的狀態由我們需要離散的連續值表示。如果我們將這些值離散化為小的狀態空間，那么智能體會得到更快的訓練，但需要注意的是會有收斂到最優策略的風險。我們使用以下輔助函數來離散極推車環境的狀態空間： ```py # discretize the value to a state space def discretize(val,bounds,n_states): discrete_val = 0 if val <= bounds[0]: discrete_val = 0 elif val >= bounds[1]: discrete_val = n_states-1 else: discrete_val = int(round( (n_states-1) * ((val-bounds[0])/ (bounds[1]-bounds[0])) )) return discrete_val def discretize_state(vals,s_bounds,n_s): discrete_vals = [] for i in range(len(n_s)): discrete_vals.append(discretize(vals[i],s_bounds[i],n_s[i])) return np.array(discrete_vals,dtype=np.int) ``` 我們將每個觀察尺寸的空間離散為 10 個單元。您可能想嘗試不同的離散空間。在離散化之后，我們找到觀察的上限和下限，并將速度和角速度的界限改變在-1 和+1 之間，而不是-Inf 和+ Inf。代碼如下： ```py env = gym.make('CartPole-v0') n_a = env.action_space.n # number of discrete states for each observation dimension n_s = np.array([10,10,10,10]) # position, velocity, angle, angular velocity s_bounds = np.array(list(zip(env.observation_space.low, env.observation_space.high))) # the velocity and angular velocity bounds are # too high so we bound between -1, +1 s_bounds[1] = (-1.0,1.0) s_bounds[3] = (-1.0,1.0) ```