网易首页 > 网易号 > 正文 申请入驻

微软亚洲研究院副院长周明:自然语言处理发展迅速,应用将更加广泛

0
分享至

人工智能最重要的分支就是自然语言的理解与处理,即语言智能,通过对词、句子、篇章进行分析,对内容里面的人物、时间、地点等进行理解,然后在此基础上,去支持一系列核心技术,比如跨语言的翻译、问答系统、阅读理解、知识图谱等技术,基于这些技术,又可以把它应用到其它应用领域,比如说搜索引擎、客服、金融、新闻等等领域。

总之,就是通过对语言的理解,实现人跟电脑的直接交流,从而实现人跟人更加有效的交流。自然语言技术不是一个独立的技术,其受云计算、大数据、机器学习、知识图谱等等各个方面的支撑。

图 | 周明在演讲

接下来将从四个方面介绍自然语言的进展,即神经机器翻译、聊天机器人、阅读理解及机器创作

神经机器翻译就是模拟人脑的翻译过程,人在翻译的时候,首先是理解这句话,然后在脑海里形成对这句话的语义表示,最后再把这个语义表示转化到另一种语言。

神经机器翻译有两个模块,一个是编码模块,把输入的源语言变成一个中间的语义表示,用一系列的机器的内部状态来代表,另一个模块是解码模块,根据语义分析的结果,逐词生成目标语言。

神经机器翻译在这几年发展非常迅速,2017 年的研究热度更是一发不可收拾,现在神经机器翻译已经取代了统计机器翻译,成为机器翻译的主流技术。

目前有统计数据表明,在一些传统的统计机器翻译难以完成的任务上,神经机器翻译的性能远远超过了统计机器翻译,而且跟人的标准答案非常接近,甚至说是相仿的水平。围绕着神经机器翻译,研究者们已做了很多的工作,比如如何提升训练的效率,如何提升编码和解码的能力。

还有一个重要的研究问题就是数据问题,神经机器翻译依赖于双语对照的大规模的数据集来训练,端到端地训练神经网络参数,这涉及很多语音段和很多的垂直领域,但我们实际上并没有那么多的数据,我们只有小量的双语数据和大量的单语数据

所以,我们就提出了半监督的联合垂直模型,就是已知一个双语推导语料,分别对之训练,从而达到中英翻译系统与英中翻译系统的相互促进,比如拿中英翻译系统去翻中文的语料,形成很多伪的中英对照语料,然后把这个语料去加到英中翻译里面去。同样,用英中翻译系统去翻译大量的英文语料,然后把这个语料加到中英翻译里面,这样经过多次迭代之后,翻译水平大幅度提升。

微软现在已经全面采用神经机器翻译,最近还跟华为的 Mate10 手机合作,得到了神经机器翻译类似于在云上的效果。

第二个话题是聊天机器人。聊天机器人就是人和机器对聊,在聊天的时候机器要理解人的意图,产生比较符合人的想法,以及符合当前上下文的回复,再根据人与机器各自的回复将话题进行下去。微软小冰就是这样的一个聊天机器人。基于当前的输入信息,再加上对话的情感,以及用户的画像,经过一个类似于神经机器翻译的解码模型生成回复,可以达到上下文相关、领域相关、话题有关,而且是针对用户特点的个性化的回复。

这样的技术已经应用到微软的很多产品里,比如会 5 种语言、拥有 1 亿以上用户的微软小冰、可以进行自然人机交互的 Cortana、可以在敦煌回答游客问题的敦煌小冰。

下一个话题是阅读理解,阅读理解就是让电脑看一遍文章,针对这些文章问一些问题,看电脑能不能回答出来。斯坦福大学曾做过一个比较有名的实验,就是使用维基百科的文章提出 5 个问题,由人把答案做出来,然后把数据分成训练集和测试集,训练集是公开的,用来训练阅读理解系统,而测试集不公开,个人把训练结果上传给斯坦福,斯坦福在其云端运行,再把结果报在网站上,这也避免了一些人对测试集做手脚。

阅读理解技术,自 2016 年 9 月前后发布,就引起了很多研究单位的关注,大概有二三十家单位都在做这样的研究,一开始的水平都不是很高,以 100 分为例,人的水平是 82.3 左右,机器的水平只有 74 分,相差甚远,后来通过类似于开源社区模式的不断改进,它的性能就得以逐步地提高了

最近在阅读理解领域出现的一个备受关注的问题,就是如何才能做到超越人的标注水平。现在微软、阿里巴巴、科大讯飞和哈工大的系统,都超越了人工的标注水平,这标志着阅读理解技术进入了一个新的阶段。这几个系统都来自中国,也体现中国在自然语言处理的进步。

一个阅读理解的框架首先要得到每个词的语义表示,再得到每个句子的语义表示,这可以用循环神经网络 RNN 来实现,然后用特定路径来找出潜在答案,基于这个答案再筛选出最优的答案,最后确定这个答案的边界。

在做阅读理解的时候,是用到了外部的知识,可以用大规模的语料来训练外部的知识,通过外部知识训练的 RNN 模型,加入到原来端到端的训练结果中,以此来大幅度地提高阅读理解的能力。

最后介绍机器创作,机器可以做很多理性的东西,那么它可以做一些创造性的东西吗?10 年以前,我们就开始做微软对联,在此基础上,创作绝句、律诗、唐诗宋词等等,现在进行写歌谱曲。在微软对联里,用户输入上联,系统就可以对出下联,也可以给出横批;在字谜游戏里,用户给出谜面,让系统猜出字;或系统给出谜面让用户猜出字。

我们的编码解码技术已经成功用于神经网络机器翻译、小冰机器人和词曲创作中。中央电视台《机智过人》节目就曾播过我们的小冰与人类选手进行词曲创作比拼的环节,结果是小冰险胜人类。这件事说明如果有大数据,那么机器学习或者深度学习就可以模拟人类的创造智能,创造出一些作品来,也可以与专家合作,帮助专家产生更好的想法,然后两者配合,产生出美妙的音乐。

这个在以前是难以想象的,做自然语言的人从来没有想到自然语言还可以延伸到音乐上去,其实音乐也是一种语言,自然语言的所有技术就可以应用到音乐上去,这需要大家的想象力。

今天我快速介绍了自然语言处理在神经机器翻译、阅读理解、聊天机器人以及机器创作领域的进展。随着未来大数据、云计算和深度学习的发展,模型还会进一步地提升,再加上合适的场景,技术就可以落地,就可以服务于成千上万的用户。可以预料,随着自然语言处理技术的提高与普及,它将会与其他的人工智能技术一起提升人类的生活水平。

责任编辑:侯维铖_NT4124

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华人携带64万元现金出境被抓!机场扫描发现巨款!全部被扣留

华人携带64万元现金出境被抓!机场扫描发现巨款!全部被扣留

它世界
2024-04-23 15:33:48
美将恢复向乌供应陆军战术导弹系统,泽连斯基:乌不会成为第二个阿富汗

美将恢复向乌供应陆军战术导弹系统,泽连斯基:乌不会成为第二个阿富汗

凤凰卫视
2024-04-22 10:20:04
我70后,2次重病成为残疾人,放弃所有财产,和母亲去了法国生活

我70后,2次重病成为残疾人,放弃所有财产,和母亲去了法国生活

真实人物采访
2024-04-22 12:05:03
李隼点评队员:3人不达标,王曼昱立功不输冠军,林高远功亏一篑

李隼点评队员:3人不达标,王曼昱立功不输冠军,林高远功亏一篑

知轩体育
2024-04-23 17:06:26
米莱在电视讲话中宣布阿根廷自 2008 年以来首次实现季度财政盈余

米莱在电视讲话中宣布阿根廷自 2008 年以来首次实现季度财政盈余

老马拉车莫少装
2024-04-24 10:01:32
多所高校发文禁止宿舍挂床帘 部分学生:是否挂床帘影响评奖评优

多所高校发文禁止宿舍挂床帘 部分学生:是否挂床帘影响评奖评优

红星新闻
2024-04-23 23:12:18
张扣扣除夕灭王家满门,连杀3人却放过王自新妻子,原因很简单

张扣扣除夕灭王家满门,连杀3人却放过王自新妻子,原因很简单

潮河说史
2024-04-18 23:28:00
为何上海市奉贤区如此疯狂造城,激进狂奔的奉贤与奉贤区城市格局

为何上海市奉贤区如此疯狂造城,激进狂奔的奉贤与奉贤区城市格局

娱乐小可爱蛙
2024-04-24 07:30:46
走路快就代表身体好?无论男女,走路有4个表现,恭喜你很健康!

走路快就代表身体好?无论男女,走路有4个表现,恭喜你很健康!

39健康网
2024-04-16 21:30:03
G杯“厦门水蜜桃”短裙教健身....火辣身材引舔屏:简直犯规

G杯“厦门水蜜桃”短裙教健身....火辣身材引舔屏:简直犯规

跑步心情
2024-04-24 09:32:35
特朗普警告:日元贬值将给美国制造业带来巨大冲击!

特朗普警告:日元贬值将给美国制造业带来巨大冲击!

AI商业论
2024-04-24 10:11:12
10-9!世锦赛16强诞生10席:中国斯诺克绝杀后被绝杀,丁俊晖落后

10-9!世锦赛16强诞生10席:中国斯诺克绝杀后被绝杀,丁俊晖落后

开心体育站
2024-04-24 06:40:02
事出反常必有妖!上海深圳开始出现四大怪现象,已经开始蔓延

事出反常必有妖!上海深圳开始出现四大怪现象,已经开始蔓延

影视解说阿相
2024-04-24 05:51:44
央行、财政部释放重磅信号:央行买国债!

央行、财政部释放重磅信号:央行买国债!

资本时差
2024-04-24 08:45:03
杨幂新剧开播遭差评!演技用力过猛五官乱飞,被全网嘲不如王鸥

杨幂新剧开播遭差评!演技用力过猛五官乱飞,被全网嘲不如王鸥

郑丁嘉话
2024-04-22 11:36:46
高速竟然可以走应急车道了?不会被处罚吗?交警:可以走,没问题

高速竟然可以走应急车道了?不会被处罚吗?交警:可以走,没问题

大宗看萌宠
2024-04-24 07:55:20
胡锡进模仿者大胡走红网络,十天涨粉近二十万,比本人还像

胡锡进模仿者大胡走红网络,十天涨粉近二十万,比本人还像

映射生活的身影
2024-04-22 15:12:59
河北人肉煎饼案谷宝成被执行死刑,行刑前哭着抽完2根烟

河北人肉煎饼案谷宝成被执行死刑,行刑前哭着抽完2根烟

青丝人生
2024-04-07 19:08:37
小S骄傲证实18岁长女许曦文遗传学霸基因,已被美国顶尖名校录取

小S骄傲证实18岁长女许曦文遗传学霸基因,已被美国顶尖名校录取

琪琪侃娱
2024-04-24 08:14:59
葛斯齐爆料孩子学校家长集体怒撕大s虚伪面目

葛斯齐爆料孩子学校家长集体怒撕大s虚伪面目

小村民
2024-04-23 09:02:06
2024-04-24 12:20:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13756文章数 511292关注度
往期回顾 全部

科技要闻

特斯拉财报差劲 但马斯克做出一个重磅表态

头条要闻

"80后"神十八乘组亮相 最小的一位1989年出生

头条要闻

"80后"神十八乘组亮相 最小的一位1989年出生

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

财经要闻

AI风口吹不起科大讯飞

汽车要闻

升级L2+级驾辅系统 2024款猛龙售16.58万起

态度原创

健康
家居
手机
公开课
军事航空

这2种水果可降低高血压死亡风险

家居要闻

光影之间 空间暖意打造生活律动

手机要闻

不再“万年 8GB”,12GB内存版三星 Galaxy Z Flip6 手机跑分曝光

公开课

睡前进食会让你发胖吗?

军事要闻

时隔5年土耳其或首部署俄制防空系统

无障碍浏览 进入关怀版