期刊在線咨詢服務,立即咨詢

400-838-9662 購物車(0)

深度Q學習的二次主動采樣方法

趙英男; 劉鵬; 趙巍; 唐降龍 哈爾濱工業大學計算機科學與技術學院模式識別與智能系統研究中心; 哈爾濱150001

關鍵詞:優先經驗回放 深度q網絡 累積回報 

摘要:實現深度Q學習的一種方式是深度Q網絡(Deep Q-networks,DQN).經驗回放方法利用經驗池中的樣本訓練深度Q網絡,構造經驗池需要智能體與環境進行大量交互,這樣會增加成本和風險.一種減少智能體與環境交互次數的有效方式是高效利用樣本.樣本所在序列的累積回報對深度Q網絡訓練有影響.累積回報大的序列中的樣本相對于累積回報小的序列中的樣本更能加速深度Q網絡的收斂速度,并提升策略的質量.本文提出深度Q學習的二次主動采樣方法.首先,根據序列累積回報的分布構造優先級對經驗池中的序列進行采樣.然后,在已采樣的序列中根據樣本的TD-error(Temporal-difference error)分布構造優先級對樣本采樣.隨后用兩次采樣得到的樣本訓練深度Q網絡.該方法從序列累積回報和TD-error兩個方面選擇樣本,以達到加速深度Q網絡收斂,提升策略質量的目的.在Atari平臺上進行了驗證.實驗結果表明,用經過二次主動采樣得到的樣本訓練深度Q網絡取得了良好的效果.

自動化學報雜志要求:

{1}關鍵詞選擇貼近文義的規范性單詞或組合詞(3—5個)。

{2}來稿應標明第一作者的工作單位、通信地址、電話等。

{3}文稿題目及各級標題要求簡短醒目,各級標題采用阿拉伯數字分級編號,即按照1;1.1;1.1.1……統一編號。

{4}參考文獻應引用所有公開發表的,并與本文有關的,近年主要中外文獻(以本學科或相關學科期刊為主)。

{5}多位作者的署名之間用空格隔開。英文摘要中,作者姓名的中文拼音,姓前名后,中間為空格,姓氏的全部字母均大寫,名字的首字母大寫。


注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

自動化學報

北大期刊
預計1-3個月審稿

期刊主頁
相關期刊
我們的服務
主站蜘蛛池模板: 天美传媒一区二区三区| 四虎1515hh永久久免费| 欧美成人久久久| 国产卡一卡二卡三卡四| 一区二区三区观看| 欧美三级视频在线| 四虎永久成人免费影院域名| 日本片免费观看一区二区| 成年人在线免费观看网站| 亚洲成人一级电影| 老师上课跳d突然被开到最大视频 老师你下面好湿好深视频 | 国产精品嫩草影院线路| 久久一本精品久久精品66| 波多野结衣456| 国产三级观看久久| 69老湿机体验区手机| 护士人妻hd中文字幕| 亚洲日本乱码在线观看| 美女黄网站人色视频免费国产| 国产精品麻豆高清在线观看| 中文无码久久精品| 日韩欧美成末人一区二区三区| 人妻少妇精品无码专区动漫| 韩国无遮挡羞羞漫画| 在线观看视频免费国语| 一本大道香蕉久在线不卡视频| 最近中文字幕高清2019中文字幕| 免费观看的a级毛片的网站| 黑巨茎大战俄罗斯美女| 大地资源在线资源官网| 久久久久久久久久久久福利| 最新版天堂中文在线| 亚洲国产欧美目韩成人综合| 美女把尿口扒开让男人添| 国产午夜av秒播在线观看| 亚洲色欲色欲www| 成年人一级毛片| 久久精品亚洲精品国产色婷| 爱情岛论坛亚洲永久入口口| 国产免费观看网站| 99久久99久久精品|