你所在的位置: 首页 > 正文

基于飞桨PaddlePaddle的NLP预训练模型百度ERNIE 2.0发布

2019-08-11 点击:1623 钢材新闻
?

Chinanews.com 7月31日2019年3月,百度正式发布了NLP模型ERNIE,它在中国的使命中超越了BERT,引起了业界的广泛关注和讨论。

今天,仅仅几个月后,百度ERNIE就升级了。发布用于持续学习的语义理解框架ERNIE 2.0,以及基于该框架的ERNIE 2.0预训练模型。在1.0之后,ERNIE在英语任务方面取得了新的突破,在16项中英文任务中超越了BERT和XLNet,实现了SOTA效果。目前,百度ERNIE 2.0的微调代码和英语预训练模型都是开源的。 (Github项目地址:

在过去两年中,由BERT和XLNet代表的无监督预训练技术在许多自然语言处理任务中取得了技术突破,如语言推理,语义相似性,命名实体识别和情感分析。基于大规模数据的无监督预训练技术已成为自然语言处理领域的关键。

百度发现,以前的工作主要是使用单词或句子的共现信号来构建模型预训练的语言模型任务。例如,BERT由掩码语言模型和下一句子预测任务预先训练。 XLNet构建了一个完全排列的语言模型,并通过自回归方法对其进行预先训练。

然而,除了语言共现信息之外,语料库还包含更有价值的信息,例如词汇,语法和语义。例如,诸如人名,地点和机构之类的单词的概念知识,诸如句子之间的顺序和距离关系的结构知识,文本语义相似性的语义相似性和语言逻辑。想象一下,如果可以不断研究各种任务,是否可以进一步改善模型的效果?

c9a7c002d9394a84be6b5cd2b51f16a3.jpg

ERNIE 2.0:可持续学习语义理解框架

在此基础上,百度提出了ERNIE 2.0可持续学习语义框架。该框架支持三个级别的自定义预训练任务,如词法,句法和语义,以完全捕获训练语料库中的词汇,语法和语义信息。这些任务通过多任务处理来训练和更新模型。每当引入新任务时,框架都可以学习任务而不会忘记之前学过的信息。这也意味着框架可以通过不断构建包括词汇,句法和语义的训练预训练任务来不断改进模型的效果。

6ea82f28cc99465485c3f4e5a5c78102.jpg

新发布的ERNIE 2.0模型结构

依托该框架,百度充分利用了飞桨PaddlePaddle多机分布式培训的优势,使用了79亿令牌训练数据(约占XLNet数据的1/4)和64 V100(约占XLNet硬件计算能力的1/8)培训ERNIE 2.0预培训模型不仅实现了SOTA效果,还为开发人员提供了定制自己的NLP模型的解决方案。目前,百度已经开放了ERNIE 2.0的微调代码和英语预训练模型。

百度研究团队比较了这些模型在中英文环境中的影响。在英语中,ERNIE 2.0在自然语言理解数据集GLUE的七个任务中击败了BERT和XLNet。在中文方面,它超越了BERT并在九个不同的数据集上更新了SOTA,包括阅读理解,情感分析和问答。

ERNIE的工作表明,在预训练过程中,通过在各个层面构建无人监督的预训练任务,可以显着提高模型效果。在未来,研究人员可以沿着这一思路构建更多的任务增强。

自从2018年预训练语言模型BERT引入以来,预训练语言模型已将大部分自然语言处理水平提升到更高水平,并且该领域的研究也引发了繁荣。现在百度ERNIE 2.0再次为行业提供了研究思路的方法论创新,可持续学习的特点也将成为NLP领域发展的一个注脚。

海钢网 版权所有© www.120sh.net 技术支持:海钢网 | 网站地图