达摩院3个月打造“低碳版”万亿参数模型M6，怎么做到的？-EDN 电子技术设计

 据悉，相比此前英伟达使用 3072 A100 GPU 实现万亿参数、谷歌使用 2048 TPU 实现 1.6 万亿参数大模型，此次达摩院仅使用 480 卡 V100 32G GPU 就实现了万亿模型 M6，节省算力资源超 80%，且训练效率提升近 11 倍。不仅如此，达到这种惊人效果，从千亿到万亿参数规模，阿里只花了3个月时间……

阿里巴巴达摩院今天（6月25日）发布“低碳版”巨模型M6，在全球范围内首次大幅降低万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。Rbvednc

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6。Rbvednc

据悉，相比此前英伟达使用 3072 A100 GPU 实现万亿参数、谷歌使用 2048 TPU 实现 1.6 万亿参数大模型，此次达摩院仅使用 480 卡 V100 32G GPU 就实现了万亿模型 M6，节省算力资源超 80%，且训练效率提升近 11 倍。Rbvednc

不仅如此，达到这种惊人效果，从千亿到万亿参数规模，阿里只花了3个月时间。Rbvednc

万亿参数的 M6-MoE 模型

自从大模型变得流行起来之后，它所具备的创意能力，一直是被世人所津津乐道。Rbvednc

那么与国内外已经诞生了几个万亿“体量”的大模型相比，阿里此次提出的大模型，又有什么独到的特点？Rbvednc

据悉，M6不仅公开了实现的详尽细节、模型的收敛情况（详见文末论文链接），而且还是国内首个实现商业落地的万亿参数多模态大模型。Rbvednc

M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。Rbvednc

据了解，经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。Rbvednc

目前，M6主要参与一些基础款的设计。但可预期的是，随着实践经验的丰富，M6的水平将不断进化。Rbvednc

据了解，M6计划在一年内生成上万款高清服装设计图。Rbvednc

3个月打造万亿参数模型，怎么做到的？

早在今年1月份，阿里便推出了百亿参数模型，而当时谷歌就已借助MoE （Mixture of Experts）的架构，提出来了1.6万亿参数的Switch Transformer。Rbvednc

MoE架构能够做到的在扩展模型容量并提升模型效果的基础上，不显著增加运算FLOPs，这样就可以实现高效训练大规模模型的目的。Rbvednc

于是，阿里从百亿开始的“规模升级”过程中，便借鉴了这个架构。仅耗时2个月，便发布千亿参数大模型，而且只用了32个 V100 GPU。Rbvednc

普通 Transformer 与 MoE 的对比如下图所示。在经典的数据并行 Transformer 分布式训练中，各 GPU 上同一 FFN 层使用同一份参数。当使用图中最右侧所示的 MoE 策略时，则不再将这部分参数在 GPU 之间共享，一份 FFN 参数被称为 1 个 expert，每个 GPU 上将存放若干份参数不同的 experts。Rbvednc

在前向过程中，对于输入样本的每个 token，达摩院团队使用 gate 机制为其选择分数最高的 k 个 experts，并将其 hidden states 通过 all-to-all 通信发送到这些 experts 对应的 GPU 上进行 FFN 层计算，待计算完毕后发送回原 GPU，k 个 experts 的输出结果根据 gate 分数加权求和，再进行后续运算。为了避免部分 experts 在训练中接收过多 tokens 从而影响效率，MoE 往往设定一个 capacity 超参指定每个 expert 处理 token 的最大数量，超出 capacity 的 token 将在 FFN 层被丢弃。Rbvednc

不同的 GPU 输入不同的训练数据分片。通过这种 expert 并行的策略，模型的总参数和容量大大扩增。由于单个样本经过 gate 稀疏激活后只使用有限个 experts，每个样本所需要的计算量并没有显著增加，这带来了突破千亿乃至万亿规模的可能性。Rbvednc

但阿里在却在研究过程中发现了一个问题：MoE负载不均衡。Rbvednc

简单来说，原理是这样的。Rbvednc

大模型常用到的Transformer分布式训练中，通常是各个GPU同一FFN层中，使用同一份参数。Rbvednc

而MoE就不同了，上述的这部分参数会在GPU之间共享，一份FFN参数被称为1个“专家”（expert），每个GPU上将存放若干份参数不同的“专家”。Rbvednc

Rbvednc

（如上图中标红框部分所示）Rbvednc

但阿里却发现，在原来MoE的训练过程中，非常容易只选择top的几位“专家”，这就使得头部效应非常严重。Rbvednc

于是乎，阿里便对MoE的这个问题进行了改良。Rbvednc

考虑到负载均衡的问题，需要采用启发式的方法解决该问题，如上述的 expert capacity 和对应的 residual connection 的方法。Google 的 Gshard 和 Switch Transformer 沿用了 MoE 原文经典的做法加入了 auxiliary load balancing loss。目前还没有相关工作观察负载均衡的情况究竟有多严重，以及它是不是真的会影响模型的效果。达摩院团队在小规模的 M6 模型上进行了对 auxiliary loss 的消融实验，观察到该 loss 对最终模型效果影响甚微，甚至没有带来正向效果，然而它确实对 load balance 这个问题非常有效。如下图所示：Rbvednc

Rbvednc

上图彩色曲线线表示各个层的 expert 接收有效 token 的变异系数随着训练进行的变化，灰色曲线表明训练阶段的 log PPL。图中变异系数 CV 表明每一层 expert 负载均衡情况，各曲线表明其随着训练步数的变化。不难发现，训练初期所有模型均有较严重的负载不均衡问题，刚开始少数的 expert 接收了绝大部分的 token，导致很多 token 直接被丢弃，但它们均能实现快速下降，尤其具备 auxiliary loss 的模型 CV 能降低到 0.3 左右，也可观察到在该水平下均衡程度很高，每个 expert 都能接收大量有效 token。然而与之相反，不加 auxiliary loss 的模型表现非常不同，有的层甚至在训练后期出现 CV 的飙升。但不管对比训练阶段的 log PPL，还是对比下游语言模型任务的 PPL，不带 auxiliary loss 的模型都表现更优。这一定程度上反映其实负载均衡对最终效果的影响并不大。Rbvednc

达摩院 M6 团队进一步探索了关键的 top-k gating 策略 k 值和 capacity（C）的选择。首先，他们简单地将 k 值扩大，发现 k 值越大其实效果越好。但考虑到选用不同的 k 值，C 则对应根据下图公式进行调整。通过对 C 调整到 k=1 的水平，观察不同 k 值的 MoE 模型的表现，达摩院团队观察到 k 值更大模型依然表现越好，尽管 k 值增加带来的优势逐渐不太明显。Rbvednc

Rbvednc

但 k 值的增加根据 Gshard top-2 gating 的实现，除了存在实现层面上一定的冗余和困难外，循环 argmax 的操作也会导致速度变慢。此外，第二个 expert 的行为会受到第一个 expert 的影响，让训练和测试存在差异。达摩院团队用 expert prototyping 的简单方式替代，相较 baseline 实现了效果提升，且未显著增加计算成本。expert prototyping，即将 expert 分成 k 组，在每组中再进行 top-k 的操作（通常采用 top-1，便于理解），然后将 k 组的结果进行组合，也称之为 k top-1。这种方式实现上更直接简便，并且允许组和组之间并行做 top-k 操作，更加高效。Rbvednc

达摩院团队观察到，在不同规模的模型上，expert prototyping 都能取得比 baseline 更好的效果，同时速度和计算上也相比 top-k 更有优势。且其在更大规模的模型上优势变得更大，在百亿模型下游 image captioning 任务上甚至能观察到优于 top-k 的表现:Rbvednc

Rbvednc

因此达摩院团队将该方法推广到万亿参数 M6 超大模型，并对应和上述的万亿 baseline 做了对比。目前，万亿参数模型训练了大约 3 万步，已经显著优于同等规模的基线模型，呈现约 5 倍的收敛加速。Rbvednc

沿着这个方向，值得做的工作还有很多：考虑到分组的特性，应当让组和组之间产生足够的差异，让每个组选出来的 experts 尽可能实现组合的效果。达摩院团队对此也在探索对应的有效方案。Rbvednc

除此之外，算子精度也是阿里此次改良的工作之一。Rbvednc

谷歌在做Switch Transformer时，为了将模型体积压下来，选择了BF16。Rbvednc

但精度的降低会带来非常大的技术挑战，就是如何保证模型收敛的问题。Rbvednc

而且阿里还要做到“低碳版”，不能烧太多的GPU，因此相比谷歌在算子精度方面的工作，阿里可谓走了一条更加“极端”的路线。Rbvednc

具体而言，XLA优化、混合精度训练、半精度通信等训练效率优化技术，并采用了Adafactor优化器，成功在480张NVIDIA V100-32GB上完成万亿模型的训练。Rbvednc

并且在训练中，他们采用绝对值更小的初始化，适当减小学习率，保证了训练的稳定性，实现正常的模型收敛，而训练速度也达到了约480samples/s。Rbvednc

以上便是阿里“低碳版”万亿参数大模型的核心奥秘了。Rbvednc

论文地址：

https://arxiv.org/abs/2105.15082Rbvednc

责编：DemiRbvednc

阅读全文，请先

模拟/混合信号/RF

上一篇： 韩国布局5G毫米波网络两年，仅建91个基站，为啥这么慢？ 下一篇： 继M1108之后，Mythic又推出了模拟计算引擎（ACE）M1076 AMP

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

使用MSO 5/6内置AWG进行功率半导体器件的双脉冲测试在本文中，宽禁带功率器件供应商Qorvo与Tektronix合作，基于实际的SiC被测器件 (DUT)，描述了实用的解决方案···
嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
NFC防伪技术：削弱假货对奢侈品行业的影响打击假冒伪劣最终需要奢侈品行业改进其产品认证方法。但是，随着越来越多的假冒产品不断涌入市场，奢侈品品牌该如何保护自己的知识产权和实体产品呢？
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
PCI Express Gen5：自动化多通道测试本文将重点介绍用于x16测试的RF开关配置。这些开关型号最多支持18条通道（PCIe最大通常为x16），也可支持更低的通道数···
为什么紫外线固化对于高质量电子产品至关重要？粘合剂粘接是电子产品制造中一个小而关键的部分。紫外线固化可提高该工艺的效率、耐用性和可靠性。
深入拆解一个Godox相机闪光灯发射器，富士专用在2024年三月份，著名的二手影像设备零售商KEH就举行了一次定期的“库存清理”活动，这次活动对其部分仓库库存提供15%的折扣。其中吸引我注意的是一个“Godox X1T-F TTL无线闪光灯触发发射器···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

达摩院3个月打造“低碳版”万亿参数模型M6，怎么做到的？

万亿参数的 M6-MoE 模型

3个月打造万亿参数模型，怎么做到的？

论文地址：