论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

阅读量：4290 次

发布时间：2019-05-27

本文共 2382 字，大约阅读时间需要 7 分钟。

在这里插入图片描述

作者：景

单位：燕山大学

前言

先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任务，针对不同的下游任务采取不同的微调措施，例如接分类器、接解码器等。这么做的好处在于“对症下药”，但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候，并没有针对“只编不解”这个问题的良好对策，bert在编码器堆叠了12层，这12层模型的参数经过了大规模语料的千锤百炼，对文本特征的捕获能力是极强的，但是其下游任务（这里特指需要解码的生成式任务）却只是经过了特定的小规模语料的训练，编码器和解码器对文本特征的捕获能力不一致，存在一种虎头蛇尾的现象。同时，bert的预训练任务——完形填空，也不一定适配下游的所有任务。

那么，有没有一种预训练方法，能够涵盖编码器、解码器，让编解码器拥有同等捕获文本特征的能力呢？假设有的话，不难想象，它在解决序列到序列这一类问题的时候，应当超越单纯的自编码模型和自回归模型。

今天笔者要讲述的论文，就是基于这一点出发的。

BART：Bidirectional and Auto-Regressive Transformers ，字面意思为双向自回归Transformer，依旧是基于Transformer改造出的模型。在GPT分走了Transformer的解码器部分，BERT分走了Transformer的编码器部分之后，BART终于将“老父亲”的所有“家产”一起打包带走。

贡献

提出使用多种噪声破坏原文本，再将残缺文本通过序列到序列的任务重新复原的预训练任务

BART模型的提出解决了预训练模型编码器、解码器表征能力不一致的问题

在2019年生成式NLP任务的榜单上刷新了多个SOTA，验证了模型的有效性与先进性

模型

BART uses the standard sequence-to-sequence Transformer architecture , except, following GPT, that we modify ReLU activa-tion functions to GeLUs (Hendrycks & Gimpel, 2016)and initialise parameters from N(0,0.02). For ourbase model, we use 6 layers in the encoder and de-coder, and for our large model we use 12 layers ineach. The architecture is closely related to that used inBERT, with the following differences: (1) each layer ofthe decoder additionally performs cross-attention overthe final hidden layer of the encoder (as in the trans-former sequence-to-sequence model); and (2) BERTuses an additional feed-forward network before word-prediction, which BART does not. In total, BART con-tains roughly 10% more parameters than the equiva-lently sized BERT model.

BART模型使用了标准的Transformer结构为基础，并吸纳借鉴了BERT和GPT的优点，做出了自己的改进：