达摩院发布最大中文预训练语言模型PLUG，35天烧128张GPU达到效果-EDN 电子技术设计

 阿里达摩院今日发布了集语言理解（NLU）和生成（NLG）能力于一身的超大规模语言模型PLUG，跟GPT-3的单向建模方式不同的是，它采用了编码器-解码器（encoder-decoder）的双向建模方式，它刷新 CLUE 分类榜单纪录，排名仅次于“人类”

今日，阿里达摩院发布了超大规模语言模型PLUG（Pre-training for Language Understanding and Generation）。该模型参数规模达270亿，是中文纯文本预训练语言模型，采用1TB以上高质量中文文本训练数据，涵盖新闻、小说、诗歌、问答等类型及领域。CEJednc

技术细节

PLUG，Pre-training for Language Understanding and Generation，顾名思义，就是集语言理解（NLU）和生成（NLG）能力于一身。CEJednc

跟GPT-3的单向建模方式不同的是，它采用了编码器-解码器（encoder-decoder）的双向建模方式。CEJednc

CEJednc

此前，达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说，StructBERT 模型通过加强句子级别（Sentence Structural Objective）和词级别（Word Structural Objective）两个层次的训练目标对语言结构信息的建模，加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式，引入 Masked LM 目标来提升 encoder 的表征能力，同时通过预测文本后半部分来提升 decoder 的生成能力。CEJednc

此次大规模语言模型的训练，达摩院团队汲取二者所长，提出了一个简单的框架，用来进行 NLU&NLG 联合训练。CEJednc

相比于 GPT 系列模型，该大规模生成模型以 StructBERT 作为 encoder，具有很强的输入文本双向理解能力，从而可以生成和输入更相关的内容。CEJednc

整个训练流程分为两个阶段：CEJednc

首先在第一阶段，达摩院团队训练了一个 24 layers／8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据，规模与 GPT-3 的训练规模相当；CEJednc

在第二阶段，达摩院团队将这个 encoder 用于生成模型的初始化，并外挂了一个 6 layers / 8192 hidden size 的 decoder，在训练生成模型的过程中，在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样，确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据，前 90% 的训练中，团队保留了 Masked LM 任务以保持模型的 NLU 能力，后 10% 的训练中，去掉 MLM 任务进行微调，以使得生成的 PPL 降到更低，能取得更好的生成效果。CEJednc

三个月打造中文最强GPT-3

较 GPT-3 改进的是，PLUG 设计了一个简洁的模型框架，集成了达摩院自研的语言理解及语言生成双模型，通过构建输入文本双向理解能力，显著提升了输出文本的相关性。CEJednc

在语言理解任务上，PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录；在语言生成任务上，PLUG 多项应用数据较业内最优水平提升了 8% 以上。CEJednc

GPT-3并没有利用微调和梯度更新，而是通过指定任务、展示少量演示，来与模型文本进行交互，完成各种任务。CEJednc

因此在面对新任务时候，不需要重新收集大量的带标签数据。但不可避免的，生成的效果不足。CEJednc

比如，犯低级错误就是GPT-3被人诟病比较多的一点。CEJednc

而PLUG的能力更加全面，既可以实现与GPT-3类似的零样本生成功能，也可以利用下游训练数据微调（finetune）模型，提升特定任务的生成质量。CEJednc

PLUG负责人表示，原本计划用128张A100训练120天炼成，不过由于阿里云、算法优化等达摩院多方力量的参与，以及加速手段的有效利用，成功将日程缩短到三分之一。CEJednc

最后，只烧了35天就达到了这样的效果。CEJednc

CEJednc

PLUG 刷新 CLUE 分类榜单纪录，排名仅次于“人类”CEJednc

接下来，PLUG 将扩大参数规模至 2000 亿级，并进一步提升文本生成质量。CEJednc

语言模型体系大将云集

在超大规模预训练模型领域，除了以中文为核心的 PLUG 外，达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”，以及联合清华大学发布了超大规模多模态预训练模型“M6”。此外，达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。CEJednc

阿里达摩院语言技术实验室负责人司罗表示：“达摩院 NLP 团队将进一步攻克 NLP 领域科研难题，完善中文及跨语言人工智能基础设施，让 AI 没有难懂的语言，并探索通用人工智能之路。”CEJednc

最后总结：相较于 Open AI 的 GPT-3 等其他大规模生成模型，PLUG 具备以下独特优势：CEJednc

PLUG 是目前中文社区最大规模的纯文本预训练语言模型；
PLUG 集语言理解与生成能力于一身，在语言理解（NLU）任务上，以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一；在语言生成（NLG）任务上，在多项业务数据上较 SOTA 平均提升 8% 以上；
PLUG 可为目标任务做针对性优化，通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优，弥补之前其它大规模生成模型 few-shot inference 的生成效果不足，可应用于实际生成任务上；
PLUG 采用了大规模的高质量中文训练数据（1TB 以上），同时，PLUG 采用 encoder-decoder 的双向建模方式，因此，在传统的 zero-shot 生成的表现上，无论是生成的多样性、领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。

目前，PLUG 已经开放了体验功能供学术领域试用。CEJednc

测试地址：https://nlp.aliyun.com/portal#/BigText_chineseCEJednc

责编：DemiCEJednc

阅读全文，请先

人工智能产业前沿

上一篇： 创新存储架构，突破IPFS算力瓶颈 下一篇： 拆解小米11 Pro/Ultra标配的67W快充充电器

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
Arm 技术预测：2025 年及未来的技术趋势 Arm 对 2025 年及未来的技术发展做出了预测，范围涵盖技术的各个方面，从 AI 的未来发展到芯片设计，再到不同技术市场的主要趋势···
该如何设计PCB以保证恶劣环境下的信号完整性在现代电子设计中，保持PCB信号完整性是一项越来越具有挑战性的任务···
CES 2025：洞察汽车创新未来从CES 2025的汽车方案展示可以看到，汽车OEM正从黑盒解决方案转变为区域架构为主的处理主干，传感器功能也逐渐优化，结合多模态输入数据与情境感知的 ML...
CES 2025：Edge AI硬件加速再掀热潮边缘计算/边缘人工智能(Edge AI)一直是热门话题，在CES 2025也不例外。然而，实现边缘计算/智能的底层硬件是什么？又是如何实现与应用的呢？
英伟达50系列显卡发布，RTX 5090D近乎“零提升”？ 1月6日的CES展会上，英伟达正式发布了备受期待的RTX 50系列显卡···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
探索工业应用中边缘连接的未来我们的世界正变得更加智能且紧密相连，楼宇和工厂正以前所未有的方式实现自动化。为了确保这些新系统有效运行，可靠的信息通信至关重要···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

达摩院发布最大中文预训练语言模型PLUG，35天烧128张GPU达到效果

技术细节

三个月打造中文最强GPT-3

语言模型体系大将云集