网易首页 > 网易号 > 正文 申请入驻

语音技术25年:人类还是无法和自己的电脑进行对话……

0
分享至

全文共3618字,预计学习时长10分钟

图源:unsplash

1994年,笔者还在剑桥大学读研究生,我的老师是Steve Young和Tony Robinson,他们发明了世界上最好的语音识别系统。

然而,最初的几天里我就学到了,那是从Dragon Dictate早期版本中无法获得的。但老师们已经将其破解了。一台功能一般的计算机可以将连续的自然语音转换为文本,准确率约为95%,这项技术已经超越了所有人,除了那些训练最好的专业人员。

为什么语音识别直到最近几年才被广泛应用于日常生活中呢?这项技术更多是应用于工业。但作为日常使用的实时用户界面,例如与你的电脑对话,其速度慢得令人难以置信。

在20世纪90年代,笔者学习时读到关于逆向图灵测试的信息,其中阐述了原因之一。志愿者们认为他们是在和一台电脑对话,但实际上是由一个人在幕后输入答案。观察和随后的采访表明,在那个时候,人们只是不喜欢它。

笔者敢肯定,这是一种陌生感,在某种程度上有代际影响。我的孩子和电脑说话比和他说的多。然而,语音作为主要用户界面确实存在严重的问题:

· 隐私:你希望其他人听到你的搜索词和信息吗?

· 技术不成熟:它还没有完全成熟到走进一家拥挤的咖啡店说“嘿,Siri……”

· 基于时间:你不能扫描完整的二进制数字

当笔者离开大学开始工作时,我从语音识别工作中学到了一些东西,这对我来说很幸运,但对于那些仍然专注于听写的演示和讨论语音识别的人来说并不明显。

语音识别不是听写

笔者从事开发可扩展的数字媒体产品。除此之外还领导了BBC在线新闻的发展。2000年,我决定运用语音技术来解决媒体行业的问题,但我有所预感,人们仍然不喜欢和电脑说话。

所以在一家大型软件公司的资助下,我开发了一些关于将语音识别应用于录音语音的产品。这十分简单,因为同一组的另一家公司是我剑桥老师Tony Robinson创立的Soft Sound。

我对Tony的讲座很感兴趣,欣然接受了与他合作开发产品的机会。笔者成功地与世界上最好的系统竞争,但通过运用神经网络,使用了更少的内存和处理能力。从这个意义上说,我们超前了几十年,我们中的大多数人在21世纪10年代中期转向了神经网络。

笔者的团队采用了Soft Sound的语音识别算法,并将其与视频、文本和图像识别相结合,为电视、电影和广播档案创建搜索引擎。我们创造了各种各样酷炫的东西,比如编辑软件、通过剪切和粘贴脚本即可编辑视频。这是一个有点超前的时代,它的畅销带来了奖项以及很多优质的媒体报道。

人总是有拖延症

图源:ft

看到人们使用语音搜索引擎其实是一种启示——人们喜欢发现错误,并以此为理由去拒绝哪怕是明显有用的创新。这与YouTube上英国人与早期版本Siri对话的视频片段类似。

电视档案制作有各种背景噪音和音乐,导致识别准确率从实验室的95%下降到大约65-70%。有趣的是,这仍然允许搜索引擎找到合适的剪辑。

问题是,如果向用户显示结果列表中包含他们搜索词的文本,他们还是会关注错误(几乎每行都有一两个错误)。不过,这项技术还是有用的,而且没过多久就有了一个解决方案:不显示全文,而是从每个片段中显示一张静态图像和匹配的单词列表。

这不是嘲笑,它突然就变得像魔法一样。

对我来说,和在贸易展会上看到的口述记录相比,这是一种很好的技术应用。这真的有用,而且并不完全改变人的行为。它扩展了一种无处不在的技能——通过输入关键字搜索东西——并将其应用到视频和网页。

Dragon Dictate相信:到20世纪90年代末,他们创造了Dragon Naturally Speaking,不再需要用户用单词之间的间隙说话。他们就像Matthew一样将他们的技术作为工具包来销售,以集成到任何应用程序中。

而且,尽管笔者对语音识别不感兴趣,还是有各种各样的人使用语音识别听写——对专业人士来说,听写已经是一种规范,但还有许多很难使用键盘的人。

明年的这个时候,我们将成为百万富翁。

从20世纪90年代中期开始,无论是Soft Sound还是Entropic或是Nuance,都时常开玩笑说,“明年将是语音识别的大年”。不知怎么的,这种想法终于悄然实现了。

我在构建现实中的应用程序时,所学经验与他过去几年看到的行为息息相关。很多人仍然不喜欢在他们可以打字的情况下使用Siri。然而,就像成功将搜索扩展到新媒体类型一样,Siri和其他伙伴们也成功地将搜索扩展到新的领域,例如开车、做饭、给孩子洗澡等等。

· “好的谷歌,加油站。”

· “Siri, 2.4公斤的鸡要烤多长时间?”

· “Alexa,用Audible播放Gruffalo。”

话虽如此,Siri问世已经整整10年了,而且当Audible开始为你的孩子播放《五十度灰》时,要想快速更改或纠正Alexa仍然不那么容易。

图源:proxy3

音频反馈不能像图形用户界面那样给予用户安全感。人们只要看一眼就能确认是否正确输入卡号,但当听到“4659 12341234 1234”这句没有人情味的冰冷话语时,你会不耐烦,心就会沉下去。

到了2016年,那些出现错误、带有苏格兰口音的YouTube视频和搞笑的新闻报道已经少了很多,那些报道声称这是一种固有的种族主义。如果微软的Office软件只适用于90%的人,那肯定会引起轩然大波。这是否意味着语音识别只是一个新鲜事物,而不是真正的产品、授权业务等等?

神经网络确实起到了拯救作用,尤其是对于这类问题。事实证明,拥有足够多的正确训练数据比了解口音之间的语音差异更为重要——该网络将计算出这些差异是什么。

就在五年前,我们还需要训练系统来识别不同的地方口音。但如今Siri可以通过训练网络让苏格兰人阅读已知文本来应对苏格兰口音,也就是教会网络一个单词的各种发音方式。

那么,语音会取代键盘和屏幕吗?

计算机使我们所有人都能同时完成多项任务,有时我认为,语音作为一种接口,即使是用于人际交流,有时也会阻碍我们。一个人可以同时进行几次文字聊天,但不能同时接听两个语音电话。文字和屏幕的交互有一些真正的优势,语音甚至不应该试图与之竞争。

然而,语音技术要发挥其独特的潜力,还有很长的路要走。这对这个行业来说是个好消息,因为越来越多的初创公司获得资金是为了解决现实世界的问题,而不是由大公司来解决。科技必须像人类一样善于倾听和说话,然后在某些情况下变得比我们更好。

离开耳机,语言就不是想象的那样线性。当靠近说话的人时,我们可能会悄悄地对另一个听众发表评论,但其他人还是听不到。在晚宴上,我们可能会同时参与多个对话。因为在现实世界中,很容易听到谁说了什么并针对特定的听众控制说话的音量和方向。

将语音从不同的演讲者中分离出来的技术正在突飞猛进地发展。这可以通过更深入地分析语音以及将音频数据与其他来源相结合来实现,比如使用多个麦克风来测量相对音量和方向,或者使用来自摄像机的输入来添加唇动和面部表情。

2016年谷歌提出了一种新的语音合成方法,使用WaveNet(一种神经网络),它可以通过用真实的人类语言训练产生任何声音。一旦经过训练,它就可以成为机器人合成的语音,然后让它听起来像人在说话。

如今,人们共享最新的发展,整个行业从谷歌、英伟达、微软和全球大学研究人员社区获得最新的想法,在他们的支持下,扩展它们并应用到新环境中,补充来自他们专业领域的专业知识。

笔者花了很多时间研究分析口音、发音错误和语音障碍的系统。有些人很难理解,因为他们有不熟悉的口音或者他们只是语言的初学者。笔者团队可以通过实时反馈让掌握发音变得更容易。但也不必为此烦恼,变形口音和实时纠错都正在成为现实。

语音识别拯救了人类!

图源:Google

语音不仅因口音而异,还因情绪和身体状态而异。当出现一个让人难以理解的情况,它不仅可以改善,也可以识别什么是错误的。也许分辨紧急呼叫,说话者在哪里受中风、镇静、酗酒、脑震荡或仅是孩子在使用,亦或是说着一种特定的语言。

最后,通过监测语言的细微变化,可以识别早期某些严重的长期神经系统疾病,甚至那些有生命危险的人可以不去医院。对于所有人而言,我们都一直对着手机和电脑说话,所以只需要选择参与,并允许你的声音被分析,而不会因为被录音或听而影响机密性。

有了正确的训练数据,也许同样的技术可以被训练来识别你的咳嗽,实际上是一种新的持续性干咳。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年“打脸最狠”的水果,可能是荔枝,完全不按常理出牌

今年“打脸最狠”的水果,可能是荔枝,完全不按常理出牌

爱下厨的阿椅
2024-05-17 17:18:07
CBA历史第3人!琼斯总分超朱芳雨 仅需仰望易建联哈德森

CBA历史第3人!琼斯总分超朱芳雨 仅需仰望易建联哈德森

醉卧浮生
2024-05-17 19:45:08
34岁张天爱戛纳红毯太大胆!镂空裙秀“水蛇腰”,丰乳肥臀美成AI

34岁张天爱戛纳红毯太大胆!镂空裙秀“水蛇腰”,丰乳肥臀美成AI

木子爱娱乐大号
2024-05-17 11:32:05
日本研发6G成功,引发国内专家恐慌,却无意中撕下5.5G的遮羞布

日本研发6G成功,引发国内专家恐慌,却无意中撕下5.5G的遮羞布

柏铭锐谈
2024-05-15 14:27:20
后日19号强降雨来袭,特大暴雨分布预测,今年冷夏原因揭秘。

后日19号强降雨来袭,特大暴雨分布预测,今年冷夏原因揭秘。

小毅讲历史
2024-05-17 11:20:11
准备迎接技术脱钩?微软或让AI团队离华,巴菲特、迈克尔·伯里双双避险

准备迎接技术脱钩?微软或让AI团队离华,巴菲特、迈克尔·伯里双双避险

可达鸭面面观
2024-05-17 07:04:27
中俄会晤不到24小时,美要求中方停止对俄合作,否则对华采取行动

中俄会晤不到24小时,美要求中方停止对俄合作,否则对华采取行动

前沿天地
2024-05-17 13:12:25
日本教授发论文称,激增的卵巢癌、白血病、前列腺癌等都与新冠疫苗有关!

日本教授发论文称,激增的卵巢癌、白血病、前列腺癌等都与新冠疫苗有关!

东京在线
2024-05-16 19:05:59
辽媒点评赵继伟:如果他是中国第一后卫,那就是近20年来最差后卫

辽媒点评赵继伟:如果他是中国第一后卫,那就是近20年来最差后卫

林子说事
2024-05-17 17:33:11
美国前助理国务卿:美中存在分歧并不意味着关系要恶化 | 风云对话

美国前助理国务卿:美中存在分歧并不意味着关系要恶化 | 风云对话

凤凰卫视
2024-05-16 20:55:02
中国房地产走到今天,到底谁该负主要责任?

中国房地产走到今天,到底谁该负主要责任?

创作者朱海平
2024-05-17 09:14:46
普京这趟中国行算是来对了:泽连斯基发布紧急声明,美国态度大变

普京这趟中国行算是来对了:泽连斯基发布紧急声明,美国态度大变

千里持剑
2024-05-16 10:58:27
不走了!广东2米13大中锋拿到续约合同,半决赛战辽篮曾轰15分5板

不走了!广东2米13大中锋拿到续约合同,半决赛战辽篮曾轰15分5板

老叶评球
2024-05-17 12:23:55
国际足联官方:巴西获得2027年女足世界杯主办权

国际足联官方:巴西获得2027年女足世界杯主办权

直播吧
2024-05-17 14:08:28
彻底塌房?被16名女性指控性侵!很多上海人都看过他的表演→

彻底塌房?被16名女性指控性侵!很多上海人都看过他的表演→

新民周刊
2024-05-16 21:15:49
几千年都没有变过!

几千年都没有变过!

吴女士
2024-04-26 11:16:12
俄罗斯大佬做中国藤椅!绍伊古跟新外长关系好,跟普京没有闹掰

俄罗斯大佬做中国藤椅!绍伊古跟新外长关系好,跟普京没有闹掰

小布丁看各种书籍
2024-05-17 12:18:05
高通:可继续从华为获得收益!

高通:可继续从华为获得收益!

EETOP半导体社区
2024-05-17 11:45:41
中国给加纳修了1000口井,结果修得太好了,50万人都说好

中国给加纳修了1000口井,结果修得太好了,50万人都说好

番茄说史聊
2024-05-16 17:22:41
刚刚,朱立伦表态轰动两岸!赖清德措手不及,统一时间要到了?

刚刚,朱立伦表态轰动两岸!赖清德措手不及,统一时间要到了?

星辰故事屋
2024-05-17 18:33:32
2024-05-17 22:30:44
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

博主捡龙虾并称"随便捡" 养殖基地几万斤种虾被"捡"走

头条要闻

博主捡龙虾并称"随便捡" 养殖基地几万斤种虾被"捡"走

体育要闻

生命最后一年,他决定完成自己的“遗愿清单”

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 官方详解保交房新政

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

房产
亲子
手机
本地
公开课

房产要闻

19.1亿,三亚挂出超级教育+宅地!要建国际学校,这个板块价值又要涨!

亲子要闻

部分二线城市普惠性民办幼儿园收费超过北京上海 学前教育普惠保障待强化

手机要闻

OPPO Reno 12 系列手机细节公布:金刚石架构、无网通话

本地新闻

2024年"519中国旅游日"活动线上启动仪式

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版