网易首页 > 网易号 > 正文 申请入驻

开源巨献:27个深度强化学习算法的实例项目

0
分享至

译者:AI研习社(宋怡然)

双语原文链接:Deep Reinforcement Learning Nanodegree Algorithms

在这里,您可以找到几个致力于“深度强化学习”方法的项目。 项目以矩阵形式部署:[env x model],其中env是要解决的环境,而model是解决该环境的模型/算法。 在某些情况下,可以通过几种算法来解决同一环境。 所有项目均以包含培训日志的Jupyter笔记本的形式呈现。
支持以下环境:

AntBulletEnv,Bipedalwalker,CarRacing,CartPole,Crawler,HalfCheetahBulletEnv,HopperBulletEnv,LunarLander,LunarLanderContinuous,Markov Decision 6x6,Minitaur,Minitaur with Duck,Pong,Navigation,Reacher,Snake,Tennis,Waker2DBulletEnv.

在Udacity深度强化学习学位计划的框架内解决了四个环境(导航,爬虫,到达者,网球)。

-蒙特卡洛方法

在蒙特卡洛(MC)中,我们玩游戏的情节直到到达终点,我们从途中获得了奖励然后返回情节的开始。 我们重复此方法至足够的次数,然后平均每个状态的值。

-时差方法与Q学习

-连续空间中的强化学习(深度Q网络)

-函数逼近和神经网络

通用逼近定理(UAT)规定,只要满足有关激活函数形式的轻微假设,就可以使用包含具有有限数量节点的单个隐藏层的前馈神经网络来近似任何连续函数。

-基于策略的方法,爬山,模拟退火

在许多情况下,随机重启爬山是一种出奇的有效算法。 模拟退火是一种很好的概率技术,因为它不会偶然错误地将局部极值作为全局极值。

-策略渐变方法,REINFORCE,PPO

定义一个性能指标J(\ theta)以使其最大化。 通过近似梯度上升来学习策略参数\ theta。

-关键行为法,A3C,A2C,DDPG,TD3,SAC

A3C与A2C的主要区别在于异步部分。 A3C由具有权重的多个独立代理(网络)组成,它们与环境的不同副本并行进行交互。 因此,他们可以在更少的时间内探索状态-行动空间的更大部分。

项目,模型和方法

AntBulletEnv,Soft Actor-Critic (SAC)

BipedalWalker, Twin Delayed DDPG (TD3)

BipedalWalker, PPO, Vectorized Environment

BipedalWalker, Soft Actor-Critic (SAC)

BipedalWalker, A2C, Vectorized Environment

CarRacing with PPO, Learning from Raw Pixels

CartPole, Policy Based Methods, Hill Climbing

CartPole, Policy Gradient Methods, REINFORCE

Cartpole, DQN

Cartpole, Double DQN

HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Soft Actor-Critic (SAC)

LunarLander-v2, DQN

LunarLanderContinuous-v2, DDPG

Markov Decision Process, Monte-Carlo, Gridworld 6x6

MinitaurBulletEnv, Soft Actor-Critic (SAC)

MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

Pong, Policy Gradient Methods, PPO

Pong, Policy Gradient Methods, REINFORCE

Snake, DQN, Pygame

Udacity Project 1: Navigation, DQN, ReplayBuffer

Udacity Project 2: Continuous Control-Reacher, DDPG, environmentReacher (Double-Jointed-Arm)

Udacity Project 2: Continuous Control-Crawler, PPO, environmentCrawler

Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environmentTennis

Walker2DBulletEnv, Twin Delayed DDPG (TD3)

Walker2DBulletEnv, Soft Actor-Critic (SAC)

DQN和Double DQN的项目

  • Cartpole, DQN

  • Cartpole, Double DQN

  • LunarLander-v2, DQN

  • Navigation, DQN

  • Snake, DQN, Pygame

PPO的项目

  • Pong, 8个并行代理

  • CarRacing, 单一代理,从像素中学习

  • C r a w l e r, 12 个并行代理

  • BipedalWalker, 16 个并行代理

TD3的项目
  • BipedalWalker

  • HalfChhetahBulletEnv

  • HopperBulletEnv

  • Walker2DBulletEnv

Soft Actor-Critic (SAC) 的项目
  • AntBulletEnv

  • BipedalWalker

  • HopperBulletEnv

  • MinitaurBulletEnv

  • MinitaurBulletDuckEnv

  • Walker2dBulletEnv

BipedalWalker,与不同模型的混合
  • BipedalWalker, Twin Delayed DDPG (TD3)

  • BipedalWalker, PPO, Vectorized Environment

  • BipedalWalker, Soft-Actor-Critic (SAC)

  • BipedalWalker, A2C, Vectorized Environment

CartPole与不同模型的混合
  • CartPole, Policy Based Methods, Hill Climbing

  • CartPole, Policy Gradient Methods, REINFORCE

  • Cartpole with Deep Q-Learning

  • Cartpole with Doouble Deep Q-Learning

TowardsDataScience网站上的文章

贝尔曼方程式在深度强化学习中如何工作?

深度Q网络中一对相互关联的神经网络

深度强化学习的三个方面:噪声,高估和探索

我在上述项目中开发的相关视频

  • Four BipedalWalker Gaits

  • BipedalWalker by Training Stages

  • CarRacing by Training Stages

  • Lucky Hopper

  • Martian Ant

  • Lunar Armada

  • Wooden Snake

  • Walking through the chess fields

  • Artificial snake on the way

  • Learned Long Snake

  • Such a fast cheetah

  • Four stages of Minitaur training

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你错过了多少异性给你的暗示?

你错过了多少异性给你的暗示?

户外阿崭
2024-04-08 07:35:07
一个国家被踢出SWIFT系统的后果非常的严重!

一个国家被踢出SWIFT系统的后果非常的严重!

华夏司马北
2024-04-24 22:01:49
王子文儿子生父终于曝光,冯小刚见了谦卑有礼,连姜文都要喊爷?

王子文儿子生父终于曝光,冯小刚见了谦卑有礼,连姜文都要喊爷?

娱乐八卦木木子
2024-04-26 18:35:04
李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

小啾咪侃侃史
2024-04-19 09:58:17
王小洪会见布林肯

王小洪会见布林肯

新京报
2024-04-26 21:34:18
詹姆斯:我和浓眉合作6个赛季了&我们登过顶 知道夺冠需要什么

詹姆斯:我和浓眉合作6个赛季了&我们登过顶 知道夺冠需要什么

直播吧
2024-04-26 15:54:14
25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

农人老寓
2024-04-23 19:55:20
拉塞尔不忍詹姆斯了 场边玩手机抗议没球权 决定跳出合同离开湖人

拉塞尔不忍詹姆斯了 场边玩手机抗议没球权 决定跳出合同离开湖人

篮球话题团
2024-04-27 01:43:51
关于批准《国务院关于工人退休、退职的暂行办法》的决议

关于批准《国务院关于工人退休、退职的暂行办法》的决议

环球通信
2024-04-27 00:12:04
因我不能生育老公背叛了我,在他们孩子满月那天,我送了他份大礼

因我不能生育老公背叛了我,在他们孩子满月那天,我送了他份大礼

大呆说事
2024-04-23 11:50:46
他住在轿车里,维系着跨越500公里的双城爱情|深度人物

他住在轿车里,维系着跨越500公里的双城爱情|深度人物

北青深一度
2024-04-26 16:34:58
太逗了!董宇辉把河南芝麻香油都卖完了,创出“河南没香油”新梗

太逗了!董宇辉把河南芝麻香油都卖完了,创出“河南没香油”新梗

行者聊官
2024-04-26 17:07:27
我78岁风流才子和妙龄少妇同居两年后,她怀孕还发财了

我78岁风流才子和妙龄少妇同居两年后,她怀孕还发财了

叶天辰故事会
2024-04-23 22:26:35
“侯景之乱”为啥特别出名?一场叛乱,却彻底改变了历史发展进程

“侯景之乱”为啥特别出名?一场叛乱,却彻底改变了历史发展进程

否知的否
2024-04-23 19:53:07
美国“学运”爆发,学生高举标语支持巴勒斯坦,防暴警察下场镇压

美国“学运”爆发,学生高举标语支持巴勒斯坦,防暴警察下场镇压

不掉线电波
2024-04-25 17:24:17
午间要闻|央行:依法将所有金融活动全部纳入监管;个人养老金基金首度降费;一季度中国金条及金币消费量同比增长26.77%

午间要闻|央行:依法将所有金融活动全部纳入监管;个人养老金基金首度降费;一季度中国金条及金币消费量同比增长26.77%

经济观察报
2024-04-26 13:25:40
女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

39健康网
2024-04-19 22:00:03
1:0!19岁天才一鸣惊人,皇马18场不败,再赢2场=夺冠,静待拜仁

1:0!19岁天才一鸣惊人,皇马18场不败,再赢2场=夺冠,静待拜仁

阿超他的体育圈
2024-04-27 05:02:54
毛泽东为何要反复翻彭德怀过去的老账?这事还要从1928年开始说起

毛泽东为何要反复翻彭德怀过去的老账?这事还要从1928年开始说起

拙言问史
2024-04-03 22:48:37
A股:最新消息!证监会主席吴清发声,中信一哥发业绩,怎么看?

A股:最新消息!证监会主席吴清发声,中信一哥发业绩,怎么看?

资本百科
2024-04-27 00:12:57
2024-04-27 05:42:44
雷峰网
雷峰网
关注智能与未来!
63961文章数 655091关注度
往期回顾 全部

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

体育要闻

哈姆:录像会议上队员们都很生气&沮丧 大家都受够了&想做出改变

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

数码
教育
旅游
公开课
军事航空

数码要闻

小米自带线充电宝 20000mAh 上架:支持 33W 功率,售价 159 元

教育要闻

淄博中考,普通生只会硬算,学霸讲究方法效率

旅游要闻

白俄,中国人的快乐福地?

公开课

睡前进食会让你发胖吗?

军事要闻

以军称已完成对拉法地面军事行动准备工作

无障碍浏览 进入关怀版