今日,阿里达摩院发布了超大规模语言模型PLUG(Pre-training for Language Understanding and Generation)。该模型参数规模达270亿,是中文纯文本预训练语言模型,采用1TB以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等类型及领域。
PLUG,Pre-training for Language Understanding and Generation,顾名思义,就是集语言理解(NLU)和生成(NLG)能力于一身。
跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式。
此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标对语言结构信息的建模,加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。
此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。
相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,具有很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。
整个训练流程分为两个阶段:
首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当;
在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。
较 GPT-3 改进的是,PLUG 设计了一个简洁的模型框架,集成了达摩院自研的语言理解及语言生成双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。
在语言理解任务上,PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录;在语言生成任务上,PLUG 多项应用数据较业内最优水平提升了 8% 以上。
GPT-3并没有利用微调和梯度更新,而是通过指定任务、展示少量演示,来与模型文本进行交互,完成各种任务。
因此在面对新任务时候,不需要重新收集大量的带标签数据。但不可避免的,生成的效果不足。
比如,犯低级错误就是GPT-3被人诟病比较多的一点。
而PLUG的能力更加全面,既可以实现与GPT-3类似的零样本生成功能,也可以利用下游训练数据微调(finetune)模型,提升特定任务的生成质量。
PLUG负责人表示,原本计划用128张A100训练120天炼成,不过由于阿里云、算法优化等达摩院多方力量的参与,以及加速手段的有效利用,成功将日程缩短到三分之一。
最后,只烧了35天就达到了这样的效果。
PLUG 刷新 CLUE 分类榜单纪录,排名仅次于“人类”
接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。
在超大规模预训练模型领域,除了以中文为核心的 PLUG 外,达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”,以及联合清华大学发布了超大规模多模态预训练模型“M6”。此外,达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。
阿里达摩院语言技术实验室负责人司罗表示:“达摩院 NLP 团队将进一步攻克 NLP 领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”
最后总结:相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备以下独特优势:
目前,PLUG 已经开放了体验功能供学术领域试用。
测试地址:https://nlp.aliyun.com/portal#/BigText_chinese
责编:Demi