网易首页 > 网易号 > 正文 申请入驻

来自本科生的暴击:清华开源「天授」强化学习平台,纯PyTorch实现

0
分享至

机器之心报道

项目作者:thu-ml

参与:思、肖清

训练模型的极速,与 1500 行源代码的精简,清华大学新开源强化学习平台「天授」。值得注意的是,该项目的两位主要作者目前都是清华大学的本科生。

是否你也有这样的感觉,成熟 ML 工具的源码很难懂,各种继承与处理关系需要花很多时间一点点理清。在清华大学开源的「天授」项目中,它以极简的代码实现了很多极速的强化学习算法。重点是,天授框架的源码很容易懂,不会有太复杂的逻辑关系

项目地址:
https://github.com/thu-ml/tianshou

天授(Tianshou)是纯 基于 PyTorch 代码的强化学习框架,与目前现有基于 TensorFlow 的强化学习库不同,天授的类继承并不复杂,API 也不是很繁琐。最重要的是,天授的训练速度非常快,我们试用 Pythonic 的 API 就能快速构建与训练 RL 智能体。

目前天授支持的 RL 算法有如下几种:

  • Policy Gradient (PG)
  • Deep Q-Network (DQN)
  • Double DQN (DDQN) with n-step returns
  • Advantage Actor-Critic (A2C)
  • Deep Deterministic Policy Gradient (DDPG)
  • Proximal Policy Optimization (PPO)
  • Twin Delayed DDPG (TD3)
  • Soft Actor-Critic (SAC)

另外,对于以上代码天授还支持并行收集样本,并且所有算法均统一改写为基于 replay-buffer 的形式。

速度与轻量:「天授」的灵魂

天授旨在提供一个高速、轻量化的 RL 开源平台。下图为天授与各大知名 RL 开源平台在 CartPole 与 Pendulum 环境下的速度对比。所有代码均在配置为 i7-8750H + GTX1060 的同一台笔记本电脑上进行测试。值得注意的是,天授实现的 VPG(vanilla policy gradient)算法在 CartPole-v0 任务中,训练用时仅为 3 秒。

以上测试使用了 10 个不同的 seed。CartPole 和 Pendulum 任务中的累积奖赏阈值分别设置为 195.0 与-250.0。可能会有读者感觉这两个任务比较简单,不太能突出框架的优势。该项目也表示,在这几天内,他们会更新天授在 Atari Pong / Mujoco 任务上的性能。

天授,只需 1500 行代码

非常令人惊讶的是,天授平台整体代码量不到 1500 行,其实现的 RL 算法大多数都少于百行代码。单从数量上来说,这样的代码量已经非常精简了,各种类与函数之间的关系应该也容易把握住。

项目表示,天授虽然代码量少,但可读性并不会有损失。我们可以快速浏览整个框架,并理解运行的流程与策略到底是什么样的。该项目提供了很多灵活的 API,例如可以便捷地使用如下代码令策略与环境交互 n 步:

result = collector.collect(n_step=n)

或者,如果你想通过采样的批量数据训练给定的策略,可以这样写:

result = policy.learn(collector.sample(batch_size))

正是通过大量精简的 API 构造 RL 模型,天授才能保持在 1500 行代码内。例如我们可以看看 DQN 的模型代码,它是非常流行的一种强化学习模型,在天授内部,DQN 模型真的只用了 99 行代码就完成了。当然,这 99 行代码是不包含其它公用代码块的。

如下为 DQN 的主要代码结构,我们省略了部分具体代码,各个 RL 策略都会继承基本类的结构,然后重写就够了。可以发现,在常规地定义好模型后,传入这个类就能创建策略。DQN 策略的各种操作都会写在一起,后续配置 Collector 后就能直接训练。

项目作者把所有策略算法都模块化为 4 部分:

  • __init__:初始化策略
  • process_fn:从 replay buffer 中处理数据
  • __call__:给定环境观察结果计算对应行动
  • learn:给定批量数据学习策略

实际体

天授很容易安装,直接运行「pip install tianshou」就可以。下面我们将该项目克隆到本地,实际测试一下。

!git clone https://github.com/thu-ml/tianshou
!pip3 install tianshou
import os
os.chdir('tianshou')

该项目在 test 文件夹下提供了诸多算法的测试示例,下面我们在 CartPole 任务下逐个测试一番。

!python test/discrete/test_pg.py

!python test/discrete/test_ppo.py

!python test/discrete/test_a2c.py

!python test/discrete/test_dqn.py

以上分别为 VPG、PPO、A2C 与 DQN 在 P100 GPU 上的训练结果。可以看到,我们的测试结果与项目提供的结果出入不大。

由于 CartPole 任务在强化学习中相对简单,相当于图像识别中的 MNIST。为更进一步测试该 RL 框架的性能,我们也在 MinitaurBulletEnv-v0 任务中对其进行了测试。

Minitaur 是 PyBullet 环境中一个四足机器人运动控制任务,其观测值为该机器人的位置、姿态等 28 个状态信息,控制输入为电机的转矩(每条腿 2 个电机,总共 8 个电机),策略优化的目标为最大化机器人移动速度的同时最小化能量消耗。也就是说,agent 需要根据奖赏值自主地学习到由 28 个状态信息到 8 个控制输入的映射关系。

使用 SAC 算法在 Minitaur 任务中的训练结果如下图所示:

需要注意的是,天授的 SAC 实现在 Minitaur 任务中仅训练了不到 200k 步即能获得以上控制策略,效果可以说是很不错的。

项目作者,清华本科生

在 GitHub 中,其展示了该项目的主要作者是 Jiayi Weng 与 Minghao Zhang,他们都是清华的本科生。其中 Jiayi Weng 今年 6 月份本科毕业,在此之前作为本科研究者与清华大学苏航、朱军等老师开展强化学习领域的相关研究。Minghao Zhang 目前是清华大学软件学院的本科二年级学生,同时还修了数学专业。

作为本科生,该项目的两位作者已经有了非常丰富的研究经验,Jiayi Weng 去年夏季就作为访问学生到访 MILA 实验室,并与 Yoshua Bengio 开展了关于意识先验相关的研究。在 Jiayi Weng 的主页中,我们可以看到在本科期间已经发了 IJCAI 的 Oral 论文。

Minghao Zhang 也有丰富的研究经验,之前他在软件学院 iMoon Lab 做关于 3D 视觉相关的研究,而后目前在清华交叉信息学院做研究助理,从事强化学习方面的研究。尽管离毕业还有不短的时间,Minghao Zhang 已经做出了自己的研究成果。

所以综合来看,因为在本科已经有了丰富的科研经验,并且做过多个项目,那么在这个阶段能做一个非常不错的强化学习开源项目也就理所当然了。

接下来的工作

天授目前还处于初期开发阶段,尚有一些未实现的功能或有待完善的地方。项目作者表示今后主要在以下几个方面来完善该 RL 框架:

  • Prioritized replay buffer
  • RNN support
  • Imitation Learning
  • Multi-agent
  • Distributed training

它们分别是提供更多 RL 环境的 benchmark、优先经验回放、循环神经网络支持、模仿学习、多智能体学习以及分布式训练。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜登对华电动车征收四倍关税,美媒警告:中国反击将反噬美国自身

拜登对华电动车征收四倍关税,美媒警告:中国反击将反噬美国自身

小鬼头体育
2024-05-13 19:26:25
侯爵夫人罗斯风波后首露面,和卡米拉同场观战;威廉以凯特为优先

侯爵夫人罗斯风波后首露面,和卡米拉同场观战;威廉以凯特为优先

译言
2024-05-13 10:08:43
何超琼和三个干女儿过母亲节,豪门大家庭聚会,琼姐笑容灿烂开心

何超琼和三个干女儿过母亲节,豪门大家庭聚会,琼姐笑容灿烂开心

素素娱乐
2024-05-13 09:11:30
金价暴跌引发恐慌,有人陷入困境!女子哭诉:兑现无望,损失惨重

金价暴跌引发恐慌,有人陷入困境!女子哭诉:兑现无望,损失惨重

娱乐圈的大爆炸
2024-05-14 02:18:29
马塔:C罗的到来让我再留曼联一个赛季 因为我觉得他能带球队夺冠

马塔:C罗的到来让我再留曼联一个赛季 因为我觉得他能带球队夺冠

直播吧
2024-05-13 21:54:08
周鸿祎赴约褚会长饭局:是我答应他吃饭的第0.1次

周鸿祎赴约褚会长饭局:是我答应他吃饭的第0.1次

鞭牛士
2024-05-13 08:24:13
肝功能检查,这三项正常,你就没事了

肝功能检查,这三项正常,你就没事了

肝病肿瘤专家费雁
2024-05-13 09:47:11
美司令下战书,对中国打响第一枪,德法意争相出兵,南海混战开始

美司令下战书,对中国打响第一枪,德法意争相出兵,南海混战开始

听风听你
2024-05-13 11:34:25
她是著名国家一级演员,享受“正军级”待遇,现在66岁仍是单身

她是著名国家一级演员,享受“正军级”待遇,现在66岁仍是单身

百年历史老号
2024-05-07 18:19:10
西安地铁一男子疑遭女子偷拍,女子否认后改称“没拍上”,地铁回应:可以报警

西安地铁一男子疑遭女子偷拍,女子否认后改称“没拍上”,地铁回应:可以报警

东方网
2024-05-13 21:02:31
美媒:中国出口改善,却可能不是经济想要和需要的情况

美媒:中国出口改善,却可能不是经济想要和需要的情况

爱看剧的阿峰
2024-05-13 20:23:25
谢建军,县委书记任上主动投案

谢建军,县委书记任上主动投案

新京报政事儿
2024-05-13 15:35:25
马科斯收到兵变情报,老杜父女被逮捕之日,菲律宾将迎来一夜变天

马科斯收到兵变情报,老杜父女被逮捕之日,菲律宾将迎来一夜变天

阿离家居
2024-05-13 17:50:37
一路走好!89岁表演艺术家石维坚去世,好友曝其晚年深受疾病困扰

一路走好!89岁表演艺术家石维坚去世,好友曝其晚年深受疾病困扰

扒虾侃娱
2024-05-12 23:36:21
女儿给母亲买了套旗袍,母亲穿身上笑喷人,网友:笑得我差点断气

女儿给母亲买了套旗袍,母亲穿身上笑喷人,网友:笑得我差点断气

老王侃趣闻
2024-05-13 17:24:40
有性生活的人和没有性生活的人,竟有如此多不同,看完涨知识了

有性生活的人和没有性生活的人,竟有如此多不同,看完涨知识了

肿瘤的真相与误区
2024-04-28 19:43:36
那英扛不住了?韩红“请战”歌手!网友:燃起来了,湖南卫视紧急发声

那英扛不住了?韩红“请战”歌手!网友:燃起来了,湖南卫视紧急发声

上观新闻
2024-05-12 21:59:35
A股:一个可怕的信号突然袭来,让人目瞪口呆,A股即将重大变盘

A股:一个可怕的信号突然袭来,让人目瞪口呆,A股即将重大变盘

彩云的夕阳
2024-05-14 03:20:02
榴莲价格跳水90%!但为啥吃的人变少了?水果商:3个原因,很现实

榴莲价格跳水90%!但为啥吃的人变少了?水果商:3个原因,很现实

吃货的分享
2024-05-13 22:54:33
重金签约,周琦加盟上海?上海媒体点名,名记回应,上海官宣决定

重金签约,周琦加盟上海?上海媒体点名,名记回应,上海官宣决定

东球弟
2024-05-13 17:16:07
2024-05-14 05:40:49
趣味搞笑大魔王
趣味搞笑大魔王
多元化的趣味引领你的生活!
1366文章数 3539关注度
往期回顾 全部

教育要闻

学分不够要延毕了,不想找工作了......

头条要闻

俄军称继续发动攻势 乌军哈尔科夫前线指挥官被撤换

头条要闻

俄军称继续发动攻势 乌军哈尔科夫前线指挥官被撤换

体育要闻

曼联的越位陷阱里,有只胖虎在溜达

娱乐要闻

湖南卫视回应韩红请战,文案堪称一绝

财经要闻

放开买房租房落户 超大特大城市绷不住了

科技要闻

李开复:大模型创业狂奔一年 中美差距缩小

汽车要闻

纯电增程并行 长安马自达EZ-6实车曝光

态度原创

房产
家居
时尚
数码
教育

房产要闻

最新,海口丁村城市更新又有大动作!

家居要闻

四海逸家 让生活变得舒适幸福

顶奢霸占半边天的巴黎奥运会,将成为有钱人的游戏?

数码要闻

古尔曼:苹果 Vision Pro 头显将在 WWDC24 后在中国等市场发售

教育要闻

上海月入百万怎么鸡娃?幼儿园学三年级课程,晚上十点睡觉直接打

无障碍浏览 进入关怀版