在线课程

大会介绍

深度学习与强化学习一直是人工智能技术领域的热点。深度学习是组合低层特征来形成高层表示,进而发现数据分布式特征表示,在图像分析、语音识别、视频分类、自然语言处理等领域有着广泛的应用;强化学习则是最大化智能体的环境累计奖赏值,学习实现目标的最优策略。谷歌DeepMind结合深度学习的感知能力和强化学习的决策能力,提出了深度强化学习并成功应用于AlphaGo,引起了全球对人工智能的广泛关注,随后人们不断发掘深度强化学习的新用途,如用于解决机器人路径规划、搜索、推荐、营销等众多实际决策问题。

 

2018年8月4日,百度与北京理工大学研究生院、北京理工大学大数据创新学习中心、中国科学院人工智能联盟标准组等联合举办“深度强化学习:理论与应用”学术研讨会,届时将邀请机器学习领域研究知名学者与业界研发精英作系列主题报告,围绕深度强化学习的前沿理论及其智能应用的主题展开研讨与交流,具体通知如下。

 

本次研讨会免费开放,诚邀高校师生、科研人员与从业人员莅临研讨。由于场地座位有限,敬请通过报名平台获取免费门票,凭门票签到入场。

 

活动时间:  2018年8月4日  8:30-17:00 

活动地点: 北京理工大学中心教学楼一层报告厅

 

 

 

 

1  洪佳鹏      阿里巴巴淘宝技术部图像算法工程师

 

题目:基于生成对抗网络和隐层属性交换的人脸属性迁移

 

摘要: 在生成对抗网络出现以后,人脸属性迁移取得了很大的成功。尽管很多图到图的翻译算法取得了成功,但它们都无法避开以下三个局限:

1. 不能做范例式生成

2. 不能同时迁移多种属性

3. 生成图像质量低,要么分辨率低,要么有显著伪影。

针对这三个问题,我们提出了一种新的方法,它接收两个输入,待迁移图和范例图。我们的模型能通过与范例图交换隐层编码实现特定样式的属性迁移。所有的属性都以解耦的形式编码在隐层中,这使得我们能同时迁移多种属性。此外,我们的模型只学习残差图像,学习压力小,因而能做到高分辨率。借助多尺度判别器做对抗训练,模型能生成细节更好,伪影更少的高质量图像。与其他方法在CelebA数据集上的实验表明,我们的模型能有效克服上述三种问题。

 

报告人简介: 洪佳鹏,阿里巴巴淘宝技术部担任图像算法工程师。硕士,2018年毕业于北京大学数学科学学院。主要研究方向生成对抗网络及其在图像翻译/编辑中的应用。在该领域中发表论文两篇,ICLR 2018 workshop和ECCV 2018 poster。

 

 

2  何琨    NVIDIA开发者社区经理

 

题目:NVIDIA深度学习工具介绍

 

摘要:介绍NVIDIA最新的深度学习的算法原理,实现方式以及加速方法,包括cuDNN,TensorRT,Deepstream。

 

报告人简介:何琨,NVIDIA开发者社区经理,七年的GPU开发经验。在人工智能,计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人和无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与GPU版气象模式GRAPES,是其主要研发者。

 

 

3  靳骏奇   阿里妈妈精准展示技术算法团队

 

题目:强化学习在展示广告实时竞价中的应用

 

摘要:淘宝作为世界最大的在线零售平台之一,每天为百万量级的广告主投放数十亿的在线展示广告。在CPC(Cost per Click)广告扣费模式中,广告主通过对特定的资源位和人群出价从而竞争获取流量。平台综合用户体验、广告主利益及平台收入等因素实时展现最优广告。传统广告系统中,广告主针对特定人群设定固定出价,其可被看做是一种粗粒度流量的次优出价策略。针对出价策略优化问题,我们提出了OCPC(Optimized Cost per Click)智能调价算法。从平台视角出发,该算法基于强化学习进化计算解法求解组合优化问题,优化流量分配效率,在双十一实战中的业务指标上取得了显著的提升效果。从广告主视角出发,广告主通过出价优化自身利益的同时,不仅要考虑用户诉求,同时要考虑其他参与竞争的广告主对博弈环境的影响。因此,我们将多广告主博弈竞价问题建模为多智能体强化学习问题。为了克服大规模数量智能体学习的困难,我们提出了智能体聚类的建模方法,并对我们实际的分布式系统做了适配。实验验证了该方法相比于单智能体建模的优势以及对博弈均衡优化的效果。

 

报告人简介:靳骏奇,来自阿里妈妈精准展示技术算法团队,从事机器学习在互联网广告系统应用方面的研究工作。靳骏奇在清华大学自动化系获得工学学士、工学博士学位,在清华大学经济管理学院获得经济学学士学位,在IEEE TPAMI、TITS、TNNLS及KDD上发表过文章。

 

 

4  鲁继文   清华大学自动化系,国家青年千人

 

题目:深度强化学习与视觉内容理解

 

摘要:报告将介绍研究组近两年来提出的面向视觉内容理解的多个深度强化学习方法,主要包括多智能体深度强化学习、协同深度强化学习、渐进式深度强化学习、注意力敏感深度强化学习、图表示深度强化学习等,以及它们在人脸检测与识别、物体检测与跟踪、图像识别与检索、行为预测与识别等多个视觉内容理解任务中的应用。

 

报告人简介:鲁继文,清华大学自动化系副教授,博士生导师,国家青年千人计划入选者。主要研究方向为计算机视觉、模式识别和机器学习。发表IEEE汇刊论文57篇(PAMI论文10篇),ICCV、CVPR、ECCV和NIPS论文39篇,ESI热点论文和高被引论文9篇,SCI他引1500余次,谷歌学术引用5500余次,H指数为39。作为负责人主持国家重点研发计划课题、国家自然科学基金、国内外知名企业合作研究项目十余项。曾/现任IEEE Transactions on Circuits and Systems for Video Technology、IEEE Transactions on Biometrics, Behavior, and Identity Science和Pattern Recognition等7个国际期刊编委,中国工程院院刊Engineering青年通讯专家,IScIDE’2018和ICGIP’2017国际会议程序委员会主席,IEEE信号处理学会多媒体信号处理技术委员会委员,IEEE信号处理学会信息取证与安全技术委员会委员,IEEE电路与系统学会多媒体系统与应用技术委员会委员。

 

 

5  秦涛    微软亚洲研究院资深研究员/经理

 

题目:Robust and Efficient Reinforcement Learning  

 

摘要:While reinforcement learning has attracted huge attention in research community and achieved remarkable progress in recent year, reinforcement learning algorithms are facing many challenges, including robustness, efficiency and reproducibility. In this talk, I will focus on how to design robust and efficient reinforcement learning algorithms. I will first introduce our work on combining existing policy gradient methods to achieve robustness, and then present another work on improving the efficiency of evolution strategy based algorithms.

 

报告人简介:秦涛博士,微软亚洲研究院资深研究员/经理,中国科学技术大学博士生导师。主要研究领域包括机器学习和人工智能(深度学习和强化学习的算法设计、理论分析及在实际问题中的应用),互联网搜索与计算广告,博弈论和多智能体系统,在国际会议和期刊上发表学术论文100余篇。曾任SIGIR、ACML、AAMAS领域主席,担任多个国际学术大会程序委员会成员,包括ICML、NIPS、KDD、IJCAI、AAAI、WSDM、EC、SIGIR、AAMAS、WINE,曾任多个国际学术研讨会联合主席。获得《北京青年》2017年度年度“工匠精神·青年榜样”奖。 

 

 

6  吴郦军   微软亚洲研究院和中山大学联合培养博士生

 

题目:强化学习在机器翻译中的实践与探索

 

摘要:强化学习在人工智能领域取得了瞩目的成果,特别是Deepmind在AlphaGo和游戏中的突破。在文本领域,如对话,文本生成,强化学习也展示出了比传统方法更优的训练效果。本次报告将针对神经机器翻译中强化学习的应用,主要涉及以下三个方面:1)在强化学习中利用无监督(单语)语料训练翻译模型。针对无监督语料缺少目标语言而无法得到奖励信号的问题,我们设计了奖励函数来帮助无监督语料的训练;2)另一方面,我们利用对抗生成网络来帮助机器翻译模型的训练,将判别器作为奖励函数对训练过程提供奖励信号;3)在大数据和深层网络的环境下,强化学习面临更多的挑战,而以往的经验是否适用以及有效是一个值得探索的问题。我们探索了在这样的背景下强化学习如何能够有效的训练,以及如何利用无监督语料参与训练,并得到了一些有意义的结论。

 

报告人简介:吴郦军,微软亚洲研究院和中山大学联合培养博士生。主要研究方向为机器学习,神经机器翻译,强化学习及其应用。曾在AAAI,IJCAI,NAACL等发表相关会议文章。

 

 

7  吴焦苏   中国科学院人工智能联盟标准组成员

 

题目:Spatial-Temporal Gamedynamics and Multi-Agent Deep Reinforcement Learning

 

摘要:Yann LeCun suggested that we should search for the “Aerodynamics” of artificial intelligence and establish a world model. We answer this question from John von Neumann’s Prospective. We propose the Strategic Correlativity Principle(SCP ), a kind of second-order structure in Hamiltonian and potential Gamedynamics as a starting point and apply it to solve the challenge in No-Regret and the Exploration-Exploitation problem in Multi-Agent Deep Reinforcement Learning. We also propose some open problems, i.e. , three laws of gamedynamics:Population Conservation Law;Information Conservation Law and Coordination Conservation Law.

 

报告人简介:John J.S. Wu is a member of Ethical Standards Group of Artificial Intelligence Alliance of Chinese Academy of Sciences (AIACAS). His current research interests focus on an innovative area of mathematical foundation of artificial intelligence---Gamedynamics, which brings together mechanism design, deep reinforcement learning, neuroscience, intelligent robotics, etc.

Inspired by John von Neumann and Robert Aumann, he has been developing a general theoretical framework of the Strategic Correlativity Principle(SCP) and Graceful AI Theory over recent sixteen years. In addition to more than 30 articles and working papers, he is co-author of four books. His papers were cited by the scientists from Google, Stanford University, Cornell University, Stockholm University, etc.

He was an invited speaker and/or a keynote speaker of many conferences. He is a program committee member and also organized and/or coorganized a serial of top academic conferences. He serves as a member or council member of many scientific organizations.

 

 

8 许铁    以色列理工学院

 

题目:神经导航、RNN与强化学习

 

摘要:以CNN为主体的深度学习与强化学习的结合带来了围棋等依靠马尔科夫决策框架的问题的突飞猛进,而在另外一些不存在完全信息的问题里(Partia Markov), 具有记忆的序列模型意义重大, 本报告介绍时序网络RNN及其变种(LSTM等)在空间导航这类典型的非完全信息问题里的应用, 并指出学习恰当的空间表征对这类任务的重要性。

 

报告人简介:以色列理工学院机器学习在读博士, 巴黎高师理论物理与复杂系统硕士, Cruiser创始人, 在知名神经科学期刊著有论文。

 

 

9  张刚   阿里巴巴达摩院A.I Labs无人驾驶组

 

题目:生成式对抗网络与人脸属性编辑

 

摘要:人脸属性编辑目的是在保持人脸身份信息以及属性无关区域的前提下,修改人脸图片的属性。该技术广泛地应用在社交娱乐,人脸识别等领域。现有的基于生成式对抗网络的方法可以编辑人脸属性,同时产生逼真的人脸图片。但是现有的方法很难保证在人脸属性编辑的过程中,保持人脸身份信息以及属性无关的区域。因此,我们在现有的基于生成式对抗网络的框架里面,引入空间注意力机制,用来定位属性相关的区域。我们的框架由生成器G和判别器D组成。判别器D不仅学习区分生成人脸图片和真实人脸图片的分布,同时也学习属性的分布;生成器G由属性控制网络(AMN)和空间注意力网络(SAN)组成。空间注意力网络(SAN)负责定位属性相关的区域,而属性编辑网络(AMN)在给定属性控制向量的条件下,编辑人脸。同CycleGAN,StarGAN,和ResGAN做对比,我们的方法SaGAN可以有效地编辑人脸属性,并且保持人脸属性无关的区域。此外,SaGAN可以用来增广人脸数据库,进一步提高人脸识别率。                                        

 

报告人简介:张刚,就职于阿里巴巴达摩院A.I Labs无人驾驶组。 2018年7月硕士毕业于中科院计算所VIPL实验室,硕士期间发表一篇FG论文和一篇ECCV论文。研究方向包括3D人脸重建,人脸去眼镜以及图像编辑。

 

 

10  赵地   中科院计算所副研究员

 

题目:强化学习和大规模计算实现

 

摘要:机器学习有三大分支,监督学习、无监督学习和强化学习,强化学习是系统从环境学习以使得奖励最大的机器学习。随着AlphaGo和AlphaZero的成功,强化学习越来越受到学界和工业界的重视。然而,强化学习的不同应用领域,计算实现都是一个非常需要重视的方面。本报告以游戏应用和机器人应用为例子,探讨了高性能计算(GPU计算)和移动边缘计算在强化学习的计算实现领域的应用。

 

报告人简介:赵地博士,获得美国路易斯安娜理工大学(Louisiana Tech University)计算机与应用数学专业博士学位。赵地曾在美国哥伦比亚大学(Columbia University)和美国俄亥俄州立大学(The Ohio State University)从事博士后研究工作。2015年1月,经中国科学院cnic“百人计划”引进,回国工作。赵地博士正主持北京市自然科学基金重点项目一项。赵地博士正在参与国家重点研发计划一项和北京市科委“脑科学研究”专项二项。赵博士发表了23篇学术杂志论文与学术会议论文,并担任AMGP杂志编委。赵地博士发表著作一部,译著一部。赵地博士担任多项学术职务。

 

 

11  杨明珠   深度强化学习在自动驾驶技术中的应用

 

题目:深度强化学习在自动驾驶技术中的应用

 

摘要:桥大学两位博士创立的wayve团队,于2018年7月4日发布最新的自动驾驶训练成果中,使用深度强化学习算法DDPG与自动驾驶技术相结合的方法实现了无人驾驶车辆仅仅根据道路摄像头作为输入,在30分钟内学会在250米的道路上保持在同一车道内行驶,这也标志着深度强化学习在自动驾驶领域的最新应用。本研究是基于深度强化学习的单目视觉自动驾驶决策,目标是实现一个使用深度强化学习算法DDPG与PPO相结合的模型,在仿真平台上实现无人车的自主决策的仿真系统,整个系统包含以下三个部分:

(1)无人车在仅有单路摄像头的辅助下自行学习自动驾驶方法,并且可以在同一车道内保持行驶,当无人车偏离车道时系统会给出预警。

(2)在有障碍物存在时无人车自主学习并作出决策进行避障,学会在固定障碍物和动态障碍物不同情况下的决策与避障控制。

(3)利用单路摄像头的反馈数据对道路上的交通标识进行识别,在相应的标识出现后,无人车进行决策采取相应的动作来调整车辆动作与位置。

 

报告人简介:杨明珠,大连交通大学电气信息学院研究生,从事基于深度强化学习的单目视觉自动驾驶决策研究。

 

 

 

北京理工大学(中关村校区)

中心教学楼一层报告厅

 

 

 

 

——主办单位——

 

 

——协办单位——

 

拟邀嘉宾

杨明珠

大连交通大学电气信息学院研究生

时间:08-04 08:50 - 17:00
地点:北京理工大学中心教学楼一层报告厅

报名购票

主办方