网易首页 > 网易号 > 正文 申请入驻

BERT来袭:燃爆AI——iDeepWise

0
分享至

近日,谷歌AI团队发布的BERT模型已经刷屏各大技术平台与博客,燃爆AI的同时,也激起了“iDeepWise”的好奇心。BERT模型的全称是Bidirectional Encoder Representations from Transformers,它是一种新型的语言模型。之所以说是一种新型的语言模型,是因为它与其他语言模型相比,有独到之处,这个独到之处在于BERT通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。所以,它只需要一个额外的输出层来对预训练BERT进行微调就可以满足各种任务,没有必要针对特定任务对模型进行修改,这也是为什么BERT模型能做11项NLP任务上取得突破进展的原因。

想深入了解BERT模型,首先应该理解语言模型。预训练的语言模型对于众多自然语言处理问题起到了重要作用,比如SQuAD问答任务、命名实体识别以及情感识别。目前将预训练的语言模型应用到NLP任务主要有两种策略,一种是基于特征的语言模型,如ELMo模型;另一种是基于微调的语言模型,如OpenAI GPT。这两类语言模型各有其优缺点,而BERT的出现,似乎融合了它们所有的优点,因此才可以在诸多后续特定任务上取得最优的效果。

图1 预训练模型结构对比图

下面将从BERT模型的结构、输入以及训练三块进行介绍。

BERT模型总体结构

BERT是一种基于微调的多层双向Transformer编码器,其中的Transformer与原始的Transformer是相同的,并且实现了两个版本的BERT模型,在两个版本中前馈大小都设置为4层:

  • BERTBASE:L=12,H=768,A=12,Total Parameters=110M

  • BERTLARGE:L=24,H=1024,A=16,Total Parameters=340M

其中层数(即Transformer blocks块)表示为L,隐藏大小表示为H,自注意力的数量为A。

BERT模型输入表示

输入表示可以在一个词序列中表示单个文本句或一对文本(例如,[问题,答案])。对于给定的词,其输入表示是可以通过三部分Embedding求和组成。Embedding的可视化表示如图1-2所示。

图2 BERT模型的输入表示

其中:

  • Token Embeddings表示的是词向量,第一个单词是CLS标志,可以用于之后的分类任务,对于非分类任务,可以忽略词向量;

  • Segment Embeddings用来区别两种句子,因为预训练不只做语言模型还要做以两个句子为输入的分类任务;

  • Position Embeddings是通过模型学习得到的。

BERT模型预训练任务

BERT模型使用两个新的无监督预测任务对BERT进行预训练,分别是Masked LM和Next Sentence Prediction:

Masked LM

为了训练深度双向Transformer表示,采用了一种简单的方法:随机掩盖部分输入词,然后对那些被掩盖的词进行预测,此方法被称为“Masked LM”(MLM)。预训练的目标是构建语言模型,BERT模型采用的是bidirectional Transformer。那么为什么采用“bidirectional”的方式呢?因为在预训练语言模型来处理下游任务时,我们需要的不仅仅是某个词左侧的语言信息,还需要右侧的语言信息。

在训练的过程中,随机地掩盖每个序列中15%的token,并不是像word2vec中的cbow那样去对每一个词都进行预测。MLM从输入中随机地掩盖一些词,其目标是基于其上下文来预测被掩盖单词的原始词汇。与从左到右的语言模型预训练不同,MLM目标允许表示融合左右两侧的上下文,这使得可以预训练深度双向Transformer。Transformer编码器不知道它将被要求预测哪些单词,或者哪些已经被随机单词替换,因此它必须对每个输入词保持分布式的上下文表示。此外,由于随机替换在所有词中只发生1.5%,所以并不会影响模型对于语言的理解。

Next Sentence Prediction

很多句子级别的任务如自动问答(QA)和自然语言推理(NLI)都需要理解两个句子之间的关系,譬如上述Masked LM任务中,经过第一步的处理,15%的词汇被遮盖。那么在这一任务中我们需要随机将数据划分为等大小的两部分,一部分数据中的两个语句对是上下文连续的,另一部分数据中的两个语句对是上下文不连续的。然后让Transformer模型来识别这些语句对中,哪些语句对是连续的,哪些对子不连续。

主流语言模型对比

Word2vec作为里程碑式的进步,对NLP的发展产生了巨大的影响,但Word2vec本身是一种浅层结构,而且其训练的词向量所“学习”到的语义信息受制于窗口大小,因此后续有学者提出利用可以获取长距离依赖的LSTM语言模型预训练词向量,而此种语言模型也有自身的缺陷,因为此种模型是根据句子的上文信息来预测下文的,或者根据下文来预测上文,直观上来说,我们理解语言都要考虑到左右两侧的上下文信息,但传统的LSTM模型只学习到了单向的信息。在今年年初,ELMO的出现在一定程度上解决了这个问题,ELMO是一种双层双向的LSTM结构,其训练的语言模型可以学习到句子左右两边的上下文信息。但此处所谓的上下文信息并不是真正意义上的上下文。除此之外,OpenAI 的GPT是利用了transform的编码器作为语言模型进行预训练的,之后特定的自然语言处理任务在其基础上进行微调即可。和LSTM相比,此种语言模型的优点是可以获得句子上下文更远距离的语言信息,但也是单向的。BERT的出现,似乎融合了它们所有的优点,并摒弃了它们的缺点,因此才可以在诸多后续特定任务上取得最优的效果。

BERT模型场景应用

深思考人工智能(iDeepWise Artificial Intelligence)最为突出的技术是“多模态深度语义理解技术”,可同时理解文本、视觉图像背后的语义,结合公司在具体业务场景,在此我们简要分析BERT在机器阅读理解、命名实体识别以及情感计算等应用场景下的前景。

命名实体识别

命名实体是文本中信息的主要载体,是构建信息抽取系统的重要组成部分。BERT模型在CoNLL-2003 NER数据集的试验结果F1值相对于基线模型(CVT+Multi)只提高0.2个百分点,似乎指标上没有什么惊艳的表现——模型在实验上获得的指标提升远低于增加的计算成本。但是这种方式可以有效利用已有数据进行预训练,充分利用先验知识,在领域迁移性,模型通用型方面有巨大优势。在命名实体识别,尤其是在开放域实体方面,BERT模型给了我们很大的想象空间,相信以后在开放域实体识别方面会不断刷新基线模型的指标。

机器阅读理解

在机器阅读理解领域,经过谷歌、微软、百度、科大讯飞、腾讯、斯坦福大学等在内的众多研究机构的不懈努力,目前已形成了“向量化-语义编码-语义交互-答案预测”这样一套四层机器阅读理解模型体系。从英文领域的代表SQuAD技术评测到中文领域的代表2018机器阅读理解技术竞赛,Top团队无一例外的在“向量化”层做足了文章,“向量化”层主要负责将问题及篇章公离散字符转变为隐含语义的表征向量,从One-Hot到Word2vec/Glove再到Elmo,这一系列技术的变革都是在最大化的利用无监督的预训练方式将更多的隐含语义信息嵌入模型,从而在不用应用场景中提高模型的评测指标。BERT模型则是利用Deep Bidirectional Transformers预训练一个通用语言模型,从而更好的正确理解语句和文章的语义信息。通过在SQuAD1.1竞赛评测中惊人表现也证实了该模型至少在目前已经开始引领NLP发展的潮流,但能不能最终摘取AI领域最后的皇冠,只能时间去验证。

情感计算

在情感计算领域,希望可以借助其强大的语言建模能力来获得更多的领域知识,进而减少后续特定自然语言任务的人工标注成本。比如:可以先在维基百科或者某些商业售后评论上预训练语言模型,对相关领域进行“知识学习”,然后结合现有的有监督学习进行情绪识别和情感计算。

.....

总结

语言模型的每一次进步都推动着NLP的发展,从Word2vec到ELMo,从OpenAI GPT到BERT,我们有幸见证着一个又一个记录被打破,见证着一个又一个AI项目成功落地。在多个应用场景,我们基于“多模态深度语义理解技术”研发的多个AI产品的问世正是众多NLP核心技术的结晶,它们集成了先进的机器阅读理解、场景理解、多轮交互、意图识别、情感计算等能力,为用户带来专业、温馨、体贴的多轮交互体验。

通过这些发展我们也可以洞悉到,未来表征学习(Deep learning is representation learning)将会越来越多的应用到NLP相关任务中,它们可以充分的利用目前海量的数据,然后结合各种任务场景,去训练出更为先进的模型,从而促进AI项目的落地。

未来已来,引领AI,这是我们的使命,也是广大AI科技工作者的使命。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西安没想到,上海没想到,深圳没想到,合肥将是中国未来经济中心

西安没想到,上海没想到,深圳没想到,合肥将是中国未来经济中心

别人都叫我阿腈
2024-04-26 16:33:50
证监会科技监管司司长姚前接受审查调查

证监会科技监管司司长姚前接受审查调查

财联社
2024-04-26 15:34:08
人社部传来好消息,养老金的涨幅相对于去年,会提高吗?

人社部传来好消息,养老金的涨幅相对于去年,会提高吗?

社保小达人
2024-04-26 07:34:49
紧急通知!今明两天抵达天津!请全体天津市民做好防范!

紧急通知!今明两天抵达天津!请全体天津市民做好防范!

天津人
2024-04-26 17:52:27
女人突然说“我想要上厕所”,大多是在给你暗示,男人别不懂

女人突然说“我想要上厕所”,大多是在给你暗示,男人别不懂

社会潜伏者
2024-04-25 00:00:24
他30多年前判断:只要东西方经济水平被追平,美西方就将管制意识形态

他30多年前判断:只要东西方经济水平被追平,美西方就将管制意识形态

可达鸭面面观
2024-04-25 21:10:35
某大厂P10级别高管被裁,赔偿1448842元

某大厂P10级别高管被裁,赔偿1448842元

蚂蚁大喇叭
2024-04-26 12:33:17
江西4婚女子吵架,边砸东西边怒吼老公:我3个前夫你一个都比不上

江西4婚女子吵架,边砸东西边怒吼老公:我3个前夫你一个都比不上

雅清故事汇
2024-04-26 15:39:23
回顾:广场上“快餐”交易,50块一次,八旬老大爷也参与其中

回顾:广场上“快餐”交易,50块一次,八旬老大爷也参与其中

北城谈人物
2024-04-24 13:13:13
广厦被逼重建!孙铭徽或遭多队哄抢,广东队想要“捡漏”胡金秋?

广厦被逼重建!孙铭徽或遭多队哄抢,广东队想要“捡漏”胡金秋?

绯雨儿
2024-04-26 16:04:07
不论男女,一天中放屁次数靠近“这个数”,恭喜肠癌离你很远!

不论男女,一天中放屁次数靠近“这个数”,恭喜肠癌离你很远!

荷兰豆爱健康
2024-04-25 07:25:09
福建女子生下黑人宝宝,丈夫怀疑妻子出轨?妻子回应:酱油吃多了

福建女子生下黑人宝宝,丈夫怀疑妻子出轨?妻子回应:酱油吃多了

百晓史
2024-04-24 13:53:11
女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

皮皮讲文
2024-01-02 10:36:17
注意!上海最高温骤降5℃,今起5天都有雨?五一假期前后天气大转折

注意!上海最高温骤降5℃,今起5天都有雨?五一假期前后天气大转折

上观新闻
2024-04-26 11:22:57
季后赛开打后直接原形毕露了!没有他对于76人来说非常重要?

季后赛开打后直接原形毕露了!没有他对于76人来说非常重要?

稻谷与小麦
2024-04-26 22:42:25
重大信号!网传贝壳开始关闭二手房成交价了!

重大信号!网传贝壳开始关闭二手房成交价了!

住在大南京
2024-04-24 19:14:25
臭到离谱!上海阿婆在小区囤了24吨垃圾!邻居倒大霉:劝不动,陷入循环...

臭到离谱!上海阿婆在小区囤了24吨垃圾!邻居倒大霉:劝不动,陷入循环...

鲁中晨报
2024-04-26 08:01:13
2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

2014年,北京女博士李香蓉,接受不了新郎身份,车内将其几刀刺死

今天说故事
2024-04-22 16:00:06
上海这些板块的房子,不要买了

上海这些板块的房子,不要买了

环线房产咨询
2024-04-24 17:55:18
库克是真急了!iPhone16加量不加价?还有大变化!大家怎么看?

库克是真急了!iPhone16加量不加价?还有大变化!大家怎么看?

热点科技
2024-04-24 12:31:55
2024-04-27 00:06:44
深思考人工智能
深思考人工智能
专注人工智能算法及专用芯片
81文章数 143关注度
往期回顾 全部

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

媒体:中国领导人希望布林肯"不虚此行" 传达明确信号

头条要闻

媒体:中国领导人希望布林肯"不虚此行" 传达明确信号

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

游戏
时尚
健康
旅游
军事航空

《剑星》白金需要二周目 三个结局全部达成

近五年最好笑打脸事件,繁殖狂富豪被捞女骗了?

这2种水果可降低高血压死亡风险

旅游要闻

白俄,中国人的快乐福地?

军事要闻

以军称已完成对拉法地面军事行动准备工作

无障碍浏览 进入关怀版