
2022世足賽賠率強化學習率和監督學習率分別設置為為 0.1 和 0.005,兩者都使用隨機梯度下降(SGD),沒有神經網絡隨機最優化的趨勢。每一個代理進行3次隨機梯度更新,遊戲中每128步、每個神經網絡中最小批次數量為128。DQN 算法的目標網絡每300次更新就重新調整。NFSP 的預期參數設置為 η = 0.1。ε-貪婪策略的探索從 0.06 開始,下降到0,與迭代次數的逆平方根成比例。 百家樂教學為了研究 NSFP 各種組成部分的相關度,也就是說,蓄水池取樣和期望動態,我們進行了一個分離他們效果的實驗。圖4顯示,這些變動導緻表現下降。特別是使用固定大小的滑動窗口來儲存代理自己行為的經驗,會導緻偏離。對於一個0.5的高期望參數,NFSP 的表現進入了停滯。最終,百家樂教學使用指數平均蓄水池取樣進行監督學習記憶更新,導緻了噪音表現。nba即時4.3. 與DQN比較之前已有多個穩定算法提出過用於深度強化學習,尤其是 DQN 算法(Mnih 等人,2015)。但是,這些算法的實證穩定性之前只在單一代理、完美(或接近完美)信息 MDP 中建立過。這裏,百家樂教學我們研究與 NFSP 相比,在多代理、信息不完美遊戲中的 DQN 穩定性。 DQN 學會一種決定論的貪婪策略。這在 MDP 中足夠進行最優行為,算法就是為此而設計的。不過,在信息不完美遊戲通常要求最優行為的隨機策略。這樣,除了 DQN 的 ε-貪婪策略,我們將其行為存儲在一個監督學習記憶 MSL 中,並學習其平均行為。