网易首页 > 网易号 > 正文 申请入驻

让机器问你“好问题”,其实没有那么难丨解读ACL2018最佳论文

0
分享至

询问是沟通的基础。我们日常生交流中少不了询问,机器要高效地协助人类完成各种工作也需要通过询问来了解具体需求。

图 | 通过询问填补信息鸿沟:StackExchange上的求助帖。发帖者在设置环境变量时遇到了问题,帮助的人询问其系统版本号后,发帖者修改帖子添加了缺失的信息。(图源:askubuntu.com)

询问的一个基本目标就是填补信息鸿沟,特别是那些询问遗漏信息的澄清性问题。清晰精准地提问可以提高沟通效率,加快问题解决的速度。那么怎样的问题才是一个好问题呢?从一个角度来看,我们可以说,那些潜在答案更有用的问题是好问题。以上图为例,StackExchange上有人发帖求助环境变量设置问题,但却没有提供系统版本相关信息。在这种情况下,我们可以用不同的方式提问:

a.你的Ubuntu系统版本号是什么?

b.你的无线网卡是什么牌子的?

c.你是否在x86 64架构上运行Ubuntu 14.10内核4.4.0-59-generic?

在此处,b显然不是一个好问题,因为它的潜在答案不会给我们提供任何有用的信息。c也不是一个好问题,因为它太具体狭隘了,回答大概会是“是的”或者“我不知道”。a最为恰当,如上图所示,发帖者的确通过修改帖子作出了回应。

你可能觉得判断哪个是好的问题十分简单,可教会机器做这件事却不是那么简单,但却非常富有意义。试想,如果发帖者在求助时,计算机自动列出一份清单,提醒他可能需要包含的信息,那么就可以免去他人询问和发帖者二次修改的过程,加快问题的解决进程。再比如,机器协助人类工作时,如果可以更精准地提出问题,工作的效率也将随之提升。为了赋予计算机这种提问的能力,来自马里兰大学伯克利分校和微软研究院的研究人员建立了数据集和神经网络模型对这一问题进行探索。介绍这项工作的论文近日被自然语言处理顶会ACL(Annual Meeting of the Association for Computational Linguistics)评选为最佳论文。

研究者首先针对这一问题建立了数据集。他们选择StackExchange作为数据来源,这是一系列关于Ubuntu操作系统、latex 等话题的在线问答网站,每个网站专注于不同的领域。研究者选择askubuntu, Unix和superuser 三个领域的问答建立起约包含7万7千个帖子的数据集。每条数据由一个三元组组成:(post,question,answer),其中包含原贴,澄清性问题以及该问题的答案(即发帖者针对该问题修改帖子所增加的信息或专门针对该问题的回应)。

图| 数据集详情(图源:arxiv)

在该数据集上,研究者将选择最好的澄清性问题化为对一系列相关问题的排序问题,即对一系列问题进行排序,以此选出最佳澄清性问题。该模型的灵感来自于EVPI(Expected Value of Perfect Information ,完整信息期望值)理论。这个指标描述的是,针对一个随机事件,拥有其完全信息时的最大期望值。也就是说,对于每一个问题q有一系列可能的回答,每个回答提供的信息的有用程度不同的。这一系列回答带来的收益的期望值就是该问题的EVPI。研究者正是利用神经网络模型分别建模针对每一个问题的得到各个回答的可能性以及这些回答的效用,通过对模型的联合训练找到回答带来的收益最高的问题,也就是最佳澄清性问题。

图 | 测试过程 3.1:对于给定的帖子p,首先通过Lucene检索与之最相似的10个帖子。利用针对这10个帖子的问题和答案组成候选集。3.2:通过神经网络对问题每个答案出现的概率建模。 3.3:计算各个答案的效用(图源:arxiv)

针对给定的帖子,模型首先建立问题和答案的候选集。想想我们人类是如何提问题的呢?我们常常会参考其他人提出的相似问题。研究者也模仿这一行为,利用Lucene搜索与给定的帖子最相近的10个帖子,利用其下的提问和提取的答案建立候选集。Lucene是Apache一款可扩展的信息检索工具,它利用TF-IDF(term frequency-inverse document frequency ,词频-逆文本频率指数)来寻找相似话题的文本。

接下来模型针对每一个问题进行具体分析,得出该问题被各种可能答案回答的概率。首先根据问题和贴子生成各个答案的表征向量,然后去计算候选集中各个答案之间的距离,再以此计算出该答案出现的概率。最后,通过EVPI计算各种答案可以带来的收益,就可以得到每个问题收益值的期望,以此排序选出最佳的澄清性问题了。

图| 答案表征向量的生成:一个问题有多种问法,因此在生成答案的表征向量时,不仅要与原答案相似,也要和与这个问题类似的其他问题的答案相似(图源:arxiv)

研究者最初希望利用数据集中已有数据对模型效果进行评估。首先针对每一个帖子p,通过模型对问题候选集中的提问进行排序。由于该帖的原有提问也在候选集中,因此把原提问排到更高位置的概率就可以作为模型效果的衡量标准。然而这种方法有两个问题:(1)数据集中有噪声,原贴的问题中可能有一些无用的问题。比如“你是认真在提问吗?”,这样的问题显然不应该排在前面。数据分析中发现,数据集中有约9%的无用问题。(2)候选集中其他答案都是与原贴相关的的帖子下的提问,这其中很可能存在比原贴下问题更好的问题。

为了建立更合理的评估方式,研究者招募了10位在基于Unix的操作系统方面颇有经验的专家对问题进行标注,选出最佳问题(B:best)和可行的问题(V:valid),所有最佳问题也同时标注为可行问题。

针对这些标注的分析结果也十分有趣。研究者利用Cohen’s Kappa对结果进行一致性检验,“best”标注结果的一致性非常低,仅0.15。可见人类的语言变化万千,人们对最佳提问方式本身也有着不小的分歧。不过,当研究者将限制放宽,衡量“best”和“valid”两个标签时的,一致性达到了0.87。

根据这些标注结果,72%的情况下至少有一个标注者将原答案标注为“best”,仅20%的情况下有两位以上标注者同时标注为“best”。不过在88%的情况下至少有一人将其标注为“valid”,这也支持了研究人员关于数据集中噪声的统计结果。

最终,研究者从数据集上选择出500个样本对模型效果进行评估。

图 | 实验结果。Random:对候选问题集中的十个问题随机排序;Bag-of-ngrams :利用词袋模型对帖子、问题和答案建模,根据预测出正向标签的可能性大小进行排序;Community QA:SemEval2017 Community Question-Answering (CQA) 子任务冠军模型;Neural:利用LSTM对帖子、问题和答案进行建模,再通过一个10层的神经网络进行预测。该模型与EVPI主要的区别在于损失函数。;EVPI:本论文提出的模型(图源:arxiv)

从实验结果中可以看出,EVPI模型在各个维度上均取得了最好的效果,在问题生成领域极具前景的模型。而这项工作中对于标注结果分析再次展示了自然语言领域的难点:人类的语言具有多样性和模糊性。提问的方式是多种多样的,即使是人类自己对某一特定领域的最佳的提问方式也存在巨大分歧,想让机器找到答案更非易事。但是即使不能找到最佳,可以找到那些可行的,优秀的提问方式也是极具价值的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关东军战俘回忆:苏联女护士拉我们腿上的皮,根据肉的厚薄分等级

关东军战俘回忆:苏联女护士拉我们腿上的皮,根据肉的厚薄分等级

祥瑞
2024-04-23 12:45:03
离开韶山后,毛东东为什么不穿军装了?

离开韶山后,毛东东为什么不穿军装了?

一枚小吏
2024-04-23 21:55:39
马德兴:国奥下届U23亚预赛有望成为第一档,若进正赛至少第三档

马德兴:国奥下届U23亚预赛有望成为第一档,若进正赛至少第三档

直播吧
2024-04-23 14:16:25
张总打钱?张康阳晒赛后与现场球员连线,迪马尔科激情咆哮

张总打钱?张康阳晒赛后与现场球员连线,迪马尔科激情咆哮

直播吧
2024-04-23 19:11:52
郭碧婷为啥总穿宽松衣服?看到她穿修身衣和靳梦佳同框后就明白了

郭碧婷为啥总穿宽松衣服?看到她穿修身衣和靳梦佳同框后就明白了

阿芒娱乐说
2024-04-23 19:37:57
江西相亲要找月薪2.5万男友的女孩疑似工资造假被网友质疑

江西相亲要找月薪2.5万男友的女孩疑似工资造假被网友质疑

乡野小珥
2024-04-23 15:23:13
2000亿地产巨头拉响退市警报?深交所发布问询函

2000亿地产巨头拉响退市警报?深交所发布问询函

南方都市报
2024-04-23 13:38:23
“辽宁舰 VS 山东舰”,它发挥关键作用!

“辽宁舰 VS 山东舰”,它发挥关键作用!

枢密院十号
2024-04-23 00:00:21
李雨禅实名举报田馥甄:不良倾向艺人出席天津音乐节严重影响形象

李雨禅实名举报田馥甄:不良倾向艺人出席天津音乐节严重影响形象

娱乐的小灶
2024-04-24 01:59:55
只因妻子太漂亮,丈夫不让妻子踏出家门半步!网友:是太漂亮了

只因妻子太漂亮,丈夫不让妻子踏出家门半步!网友:是太漂亮了

闻秋的声
2024-04-22 18:10:17
张学良晚年坦言:此生最不后悔的,是西安事变,最后悔的是另一件

张学良晚年坦言:此生最不后悔的,是西安事变,最后悔的是另一件

天空有颗糖
2023-12-09 11:40:54
曝曼联将挂牌出售拉什福德,拉爵不满其高薪!对手都为其低迷吃惊

曝曼联将挂牌出售拉什福德,拉爵不满其高薪!对手都为其低迷吃惊

罗米的曼联博客
2024-04-24 08:10:58
体育界掀起波澜!美国欲将中国逐出巴黎奥运,中国如何应对?

体育界掀起波澜!美国欲将中国逐出巴黎奥运,中国如何应对?

室内设计师阿喇
2024-04-23 10:11:39
汕头原市委书记黄志光最新宣判!

汕头原市委书记黄志光最新宣判!

潮州玩家
2024-04-23 15:50:45
俞敏洪去西藏后大变身,我就说没有人可以美着从西藏走出来!

俞敏洪去西藏后大变身,我就说没有人可以美着从西藏走出来!

阳光情感shuo
2024-04-24 02:35:03
美国商务部长:尽管华为的芯片取得突破性进展,但仍落后美国多年

美国商务部长:尽管华为的芯片取得突破性进展,但仍落后美国多年

AI商业论
2024-04-22 17:04:15
山东“虾刺客”大反转,不是谁闹谁有理,顾客被指“又当又立”

山东“虾刺客”大反转,不是谁闹谁有理,顾客被指“又当又立”

水泥土的搞笑
2024-04-23 15:17:20
一只小䴙䴘在合肥翡翠湖被鱼钩鱼线缠绕 热心市民将其救下

一只小䴙䴘在合肥翡翠湖被鱼钩鱼线缠绕 热心市民将其救下

北青网-北京青年报
2024-04-23 20:17:08
狂输20分!东部冠军轰然倒下,塔图姆三双,系列赛已失去悬念

狂输20分!东部冠军轰然倒下,塔图姆三双,系列赛已失去悬念

九七的体育世界
2024-04-23 11:45:09
朔尔茨谈普京:你没有资格评价德国哲学家伊曼纽尔·康德

朔尔茨谈普京:你没有资格评价德国哲学家伊曼纽尔·康德

探索星空
2024-04-23 12:12:48
2024-04-24 09:28:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13756文章数 511291关注度
往期回顾 全部

科技要闻

特斯拉财报差劲 但马斯克做出一个重磅表态

头条要闻

长沙警方通报14岁女生被同学殴打:将嫌疑人传唤到案

头条要闻

长沙警方通报14岁女生被同学殴打:将嫌疑人传唤到案

体育要闻

老球痞们给年轻人上了课

娱乐要闻

赵丽颖晒照似初恋,拍照疑与儿子分享

财经要闻

AI风口吹不起科大讯飞

汽车要闻

广汽丰田2024赛那SIENNA正式上市

态度原创

健康
艺术
教育
游戏
公开课

这2种水果可降低高血压死亡风险

艺术要闻

蔚为大观,书香盛宴再启航!第三届嘉德国际艺术图书展正在呈现

教育要闻

父母觉得孩子不懂感恩,为什么孩子却认为父母眼里只有学习?

网友统计LPL播放量,春季赛热度下降太明显,WBG没有TS人气暴跌?

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版