广告

让大模型训练更高效,奇异摩尔用互联创新方案定义下一代AI计算

2025-02-19 奇异摩尔 阅读:
“Scaling Law”依然在延续。从Transformer的独领风骚到MoE专家模型的创新突围,AI领域正迈向万亿、甚至十万亿参数规模的AI大模型训练时代。DeepSeek-R1推理模型的问世离不开基础模型Deepseek-V3的庞大训练积累。在这一背景下,强大的算力集群依然是支撑AI的基石。而如何提高集群的线性加速比,一直是产业的核心话题。与此同时,AI算力网络的重要性日益凸显,它让数据在集群中各个层面、各个维度上都能够快速传输,实现各节点资源的高效调动。

近一段时间以来,DeepSeek现象级爆火引发产业对大规模数据中心建设的思考和争议。在训练端,DeepSeek以开源模型通过算法优化(如稀疏计算、动态架构)降低了训练成本,使得企业能够以低成本实现高性能AI大模型的训练;在推理端,DeepSeek加速了AI应用从训练向推理阶段的迁移。因此,有观点称,DeepSeek之后算力需求将放缓。不过,更多的国内外机构和研报认为,DeepSeek降低了AI应用的门槛,将加速AI大模型应用落地,吸引更多的企业进入这个赛道,算力需求仍将继续增长,不过需求重心从“单卡峰值性能”转向“集群能效优化”。比如,SemiAnalysis预测,全球数据中心容量将从2023年的49GW增长至2026年的96GW,其中新建智算中心容量将占增量的85%。近日,全球四大巨头(Meta、亚马逊、微软及)公布的2025 AI基础设施支出总计超3000亿美元,相比2024年增长30%。YLQednc

YLQednc

(数据来源:科技巨头公开披露报告)YLQednc

YLQednc

(图:奇异摩尔创始人兼CEO田陌晨)YLQednc

奇异摩尔创始人兼CEO田陌晨表示:“‘Scaling Law’依然在延续。从Transformer的独领风骚到MoE专家模型的创新突围,AI领域正迈向万亿、甚至十万亿参数规模的AI大模型训练时代DeepSeek-R1推理模型的问世离不开基础模型Deepseek-V3庞大训练积累在这一背景下,强大的算力集群依然支撑AI的基石。而如何提高集群的线性加速比,一直是产业的核心话题。与此同时,AI算力网络的重要性日益凸显,它让数据在集群中各个层面、各个维度上都能够快速传输,实现各节点资源的高效调动。”YLQednc

为此,作为行业领先的AI网络全栈式互联产品及解决方案提供商,奇异摩尔给出了一套极具竞争力的解决方案——基于高性能RDMAChiplet技术,利用“Scale Out”“Scale Up”“Scale Inside”三大理念,提升算力基础设施在网间、片间和片内的传输效率,为智能算力发展赋能。YLQednc

Scale Out——打破系统传输瓶颈

DeepSeek的成功证明了开源模型相较于闭源模型具有一定的优越性,随着模型的智能化趋势演进,模型体量的增加仍然会是行业发展的主要趋势之一。为了完成千亿、万亿参数规模AI大模型的训练任务,通用的做法一般会采用Tensor并行(TP)、Pipeline并行(PP)、和Data并行(DP)策略来拆分训练任务。随着MoE(Mixture of Experts,混合专家)模型的出现,除了涉及上述并行策略外,还引入了专家并行(EP)。其中,EP和TP通信数据开销较大,主要通过Scale Up互联方式应对。DP和PP并行计算的通信开销相对较小,主要通过Scale Out互联方式应对。YLQednc

因而,如下图所示,当下主流的万卡集群里存在两种互联域——GPU南向Scale Up互联域(Scale Up Domain,SUD)和GPU北向Scale Out互联域(Scale Out Domain,SOD)。田陌晨强调:“以Scale Up和Scale Out双擎驱动方式构建大规模、高效的智算集群,是应对算力需求爆发的有效手段。”YLQednc

YLQednc

智算集群里的Scale Up和Scale OutYLQednc

在这个集群网络中,Scale Out专注于横向/水平的扩展,强调通过增加更多计算节点实现集群规模的扩展。当前,远程直接内存访问(RDMA)已经成为构建Scale Out网络的主流选择。作为一种host-offload/host-bypass技术,RDMA提供了从一台计算机内存到另一台计算机内存的直接访问,具有低延迟、高带宽的特性,在大规模集群中扮演着重要的角色。如下图所示,RDMA主要包含‌InfiniBand(IB)、基于以太网的RoCE和基于TCP/IP的iWARP‌。其中,IB和以太网RDMA是算力集群里应用最广泛的技术。YLQednc

YLQednc

RDMA应用和实现方式(来源:知乎 @Savir)YLQednc

IB是专门为RDMA开发的一种网络通信技术,具有高带宽、低延迟等优势,且IB默认是无损网络,无需特殊设置。得益于这些优势,过往IB在Scale Out网络构建中占据主导地位。然而,IB需要专门支持该技术的网卡和交换机,价格是传统网络的5-10倍,成本相对较高,且IB交换机交期较长。同时,IB兼容性差,难以和大多数以太网设备兼容,例如网卡、线缆、交换机和路由器等,无法成为行业统一的发展路线。YLQednc

随着集群规模增大,以太网RDMA获得了主流厂商的广泛支持。以太网RDMA同样具有高速率、高带宽、CPU负载低等优势,在低时延和无损网络特性方面也已经和IB性能持平。同时,以太网RDMA具有更好的开放性、兼容性和统一性,更利于做大规模的组网集群。从一些行业代表性案例来看,如字节跳动的万卡集群,Meta公司的数万卡集群,以及特斯拉希望打造的十万卡集群,都一致选择了以太网方案。此外,因为硬件通用和运维简单,以太网RDMA方案更具性价比。YLQednc

虽然以太网RDMA已经被公认是未来Scale Out的大趋势,不过田陌晨指出:“如果是基于RoCEv2构建方案仍存在一些问题,比如乱序需要重传,负载分担不完美,存在Go-back-N问题,以及DCQCN 部署调优复杂等。在万卡和十万卡集群中,业界需要增强型以太网RDMA以应对上述这些挑战,超以太网传输(Ultra Ethernet Transport,UET)便是下一代AI计算和HPC里的关键技术。”YLQednc

为了能够进一步发挥以太网和RDMA技术的潜能,博通、思科、Arista、微软、Meta等公司牵头成立了超以太网联盟(UEC)。如下图所示,在UEC规范1.0的预览版本中,UEC从软件API、运输层、链路层、网络安全和拥塞控制等方面对Transport Layer传输层做了全面的优化,关键功能包括FEC(前向纠错)统计、链路层重传(LLR)、多路径报文喷发、新一代拥塞控制、灵活排序、端到端遥测、交换机卸载等。根据AMD方面的数据,UEC就绪(UEC-ready)系统能够提供比传统RoCEv2系统高出5-6倍的性能。YLQednc

YLQednc

UEC规范1.0示意图(来源:UEC)YLQednc

田陌晨表示:“UEC是专门为AI网络Scale Out互联成立的国际联盟,致力于通过Modernized RDMA优化AI和HPC工作负载。借助UEC的关键性能,Scale Out网络能够充分利用系统内所有可用的传输路径,并最小化网络拥塞。当前基于RDMA RoCE的解决方案未来也可以通过践行UEC联盟的标准升级各自的以太网产品方案,打造更大规模的无损集群通信。”YLQednc

奇异摩尔打造的Kiwi NDSA-SNIC AI原生智能网卡便是一款UEC就绪方案,性能比肩全球标杆ASIC产品。Kiwi NDSA SmartNIC提供领先行业的高性能,支持高达800Gbps的传输带宽,提供低至μs的数据传输延时,满足当前数据中心行业400Gbps-800Gbps升级需求,可实现Tb级别万卡集群间无损数据传输。YLQednc

YLQednc

奇异摩尔Kiwi NDSA-SNIC AI原生智能网卡方案(来源:奇异摩尔)YLQednc

借助UEC就绪RDMA中的路径感知拥塞控制、有序消息传递、选择性确认重传、自适应路由及数据包喷洒等关键功能,Kiwi NDSA-SNIC能够充分保障AI网络间数据的稳定传输。比如,Kiwi NDSA-SNIC提供的自适应路由及数据包喷洒功能可以充分发挥高速网络的性能,支持高级分组喷洒,提供多路径数据包传送和细粒度负载平衡,有效应对传输拥塞。相同用例还有:通过有序消息传递(In-Order Message Delivery)来降低系统延迟,通过路径感知拥塞控制(Path Aware Congestion Control)来优化多个路径的数据包流,等等。YLQednc

此外,Kiwi NDSA-SNIC还拥有很多其他的关键特性。比如,Kiwi NDSA-SNIC具有出色的高并发特性,支持多达数百万个队列对,可扩展内存空间达到GB;Kiwi NDSA-SNIC具有可编程性,可应对各种网络任务加速,为Scale Out网络带来持续创新的功能,并保证与未来的行业标准无缝兼容。YLQednc

综合而言,奇异摩尔的Kiwi NDSA-SNIC AI原生智能网卡是一个拥有高性能、可编程的Scale Out网络引擎,将开启AI网络 Scale Out发展的新篇章。田陌晨称:“当前,奇异摩尔已经成为UEC联盟成员。随着以太网逐渐过渡到超以太网,奇异摩尔愿携手联盟伙伴共同探讨并践行Scale Out相关标准的制定和完善,并第一时间为行业带来性能领先的UEC方案,推动AI网络 Scale Out技术向前发展。”YLQednc

YLQednc

奇异摩尔UEC会员(来源:UEC官网)YLQednc

Scale Up——让计算芯片配合更高效

和横向/水平扩展的Scale Out不同,Scale Up是垂直/向上扩展,目标是打造机内高带宽互联的超节点。上述提到,TP张量并行以及EP专家并行需要更高的带宽和更低的时延来进行全局同步。通过Scale Up的方式,将更多的算力芯片GPU集中到一个节点上,是非常有效的应对方式。如今的Scale Up实际上就是一个以超高带宽为核心的机内GPU-GPU组网方式,还有一个名称是超带宽域(HBD,High Bandwidth Domain)。YLQednc

英伟达GB200 NVL72的推出引领着国内外AI网络生态对HBD技术的广泛探讨。英伟达GB200NVL72服务器是一个典型的超大HBD,实现了36组GB200(36个Grace CPU,72个B200 GPU)之间的超高带宽互联。在这个HBD系统里,第五代 NVLink是最关键的,它能够提供GPU-GPU之间双向1.8TB的传输速率,使得这个HBD系统可以作为一个大型GPU去使用,训练效率相较于H100系统提升了4倍,能效提升了25倍。YLQednc

YLQednc

NVL72互联架构(来源:英伟达)YLQednc

和IB一样,NVLink也是由英伟达主导,虽然性能强劲但是生态封闭,只服务于英伟达的高端GPU。由于没有NVLink和NVSwitch这样的技术,此前其他厂商主要采用full mesh或者cube-mesh结构,以8卡互联为主,而16-32卡互联是下一代方案。YLQednc

DeepSeek事件引发了业界对于上述NVLink和HBD需求的不同预期。但中长期发展来看,相比软件迭代速度以小时来计算,硬件的迭代则是以年为计算的循序渐进过程,不会一蹴而就。据SemiAnalysis预计大型模型的标准只会随着未来的模型发布而继续升高,但从经济效用上来说,其所对应的硬件必须坚持使用并有效 4-6 年,而不仅仅是直到下一个模型发布。YLQednc

对此,田陌晨认为:“未来MoE模型的进阶路线在一定程度上存在不确定性,创新随时可能发生。但国产AI网络的生态闭环势在必行。英伟达NVLink和Cuda的护城河仍然存在,首先要解决Scale Up互联国产替代方案有没有的问题,再来看做到哪种程度。未来随着国产大模型、芯片架构等软硬件生态的协同发展,有望逐步实现国产算力闭环YLQednc

如今,科技巨头正联合生态上下游在GPU-GPU高效互联方面主要分为两个流派:内存语义和消息语义。内存语义Load/Store/Atomic是GPU内部总线传输的原生语义,英伟达NVLink便是基于内存语义,对标NVLink的UAlink等也是基于这种语义;消息语义则是采用类似Scale Out的DMA语义Send/Read/Write,将数据进行打包传输,亚马逊和Tenstorrent等公司便是基于消息语义打造Scale Up互联方案。YLQednc

内存语义和消息语义各有千秋。内存语义是GPU内部传输的原生语义,处理器负担更小,在数据包体量小时效率更高;消息语义采用数据打包的方式,随着数据包体量变大,性能逐渐追上了内存语义,随着AI大模型体量增大,这一点也非常重要。YLQednc

不过,田陌晨指出:“无论是内存语义还是消息语义,对于厂商而言,都面临一些共性的挑战,比如传统GPU直出将IO集成在GPU内部,性能提升受到了光罩尺寸的严格限制,留给IO的空间非常有限,IO密度提升困难;Scale Up网络和数据传输协议复杂,计算芯片厂商大都缺乏相关经验,尤其是开发交换机芯片的经验;除NVLink之外,其他Scale Up协议并不成熟且不统一,协议迭代对计算芯片迭代造成了巨大的困扰。”YLQednc

YLQednc

GPU IO集成在GPU内部(来源:奇异摩尔)YLQednc

为了能够更好地应对上述挑战,产业界提出了一种创新的GPU直出方式——计算和IO分离。奇异摩尔NDSA-G2G互联方案便是这条技术路径里非常有竞争力的一款方案。YLQednc

借助NDSA-G2G可以实现计算芯粒和IO芯粒解耦,通过通用芯粒互联技术UCIe进行互联。这样做的好处是,只需要牺牲一点点的芯片面积(小百分之几),就可以将宝贵的中介层资源近乎100%用于计算,并按照客户的需求灵活地增加IO芯粒的数量,且计算芯粒和IO芯粒可以基于不同的工艺技术。再加上IO芯粒的复用特性,能够显著提升高性能计算芯片的性能和性价比。YLQednc

NDSA-G2G的第二大优势是提升IO密度和性能,具有高带宽、低延时和高并发的特性。在高带宽方面,基于NDSA-G2G芯粒,可以实现1TB级别的网络层吞吐量,TB级的GPU侧吞吐量;在低延时方面,NDSA-G2G芯粒提供百ns级的数据传输延时和ns级D2D数据传输延时;在高并发方面,该产品支持多达数百万个队列对,可扩展系统中的内存资源。也就是说,借助奇异摩尔NDSA-G2G芯粒能够赋能国产AI芯片实现自主突围,构建性能媲美英伟达NVSwitch+NVLinkScale Up方案。YLQednc

YLQednc

Kiwi NDSA-G2G 产品示意图(来源:奇异摩尔)YLQednc

NDSA-G2G的第三大优势是具有出色的灵活性。如上所述,目前Scale Up技术路线并不统一,且智算中心厂商在协议方面大都采用自有协议,或者自己主导的联盟协议。这就导致高性能计算芯片需要在设计时考虑未来2~3年,甚至是3~5年的协议发展,具有非常大的挑战。NDSA-G2G以计算芯粒和IO芯粒分离的方式让IO芯粒可以灵活升级,同时NASG-G2G基于具有可编程性,可以支持目前市面上各种IO协议。这种灵活性让高性能计算芯片厂商可以从容应对当前Scale Up技术路线不统一且协议混乱的挑战。YLQednc

同时,田陌晨也呼吁:“希望科技行业在Scale Up方向上能够拥抱一种开放而统一的物理接口,实现更好的协同发展,这也是打造国产自主可控算力底座的关键一步。”YLQednc

Scale Inside——全面提升计算芯片传输效率

在Scale Out和Scale Up 高速发展的过程中,作为算力基础单元,Scale Inside的进度也没有落下,并致力于通过先进封装技术弥补摩尔定律速度放缓的影响。在整个智算系统里,更高算力的计算芯片能够进一步提升Scale Up和Scale Out的性能水平,使得AI大模型的训练更加高效。YLQednc

当前,单颗高性能计算芯片的成本已经非常恐怖,随着制程工艺进一步精进,这一数字还将继续飙升,因而Chiplet技术得到了广泛的重视。Chiplet技术允许通过混合封装的方式打造高性能计算芯片,也就是说计算单元和IO、存储等其他功能单元可以选择不同的工艺实现,具有极高的灵活性,允许厂商根据自己的需求进行定制芯粒,不仅能够显著降低芯片设计和制造的成本,良率也能够得到很大的改善。YLQednc

Scale Inside方向上,奇异摩尔能够提供丰富的Chiplet技术方案,包括Kiwi Link UCIe Die2Die接口IPCentral IO Die,3D Base Die系列等。其中,Kiwi Link全系列支持UCIe标准,具有业界领先的高带宽、低功耗、低延时特性,并支持多种封装类型。Kiwi Link支持高达16~32 GT/s的传输速率和低至ns级的传输延迟,支持Multi-Protocol多协议,包括PCIe、CXL和Streaming。YLQednc

YLQednc

Kiwi Fabric互联架构(来源:奇异摩尔)YLQednc

综合而言,奇异摩尔的解决方案能够从“Scale Out”“Scale Up”“Scale Inside”三大角度,推动AI大模型训练效率的提升。在Scale Out方面,奇异摩尔已经是超以太网联盟UEC的成员,能够在第一时间响应UEC规范1.0以及后续规范;在Scale Up方面,奇异摩尔NDSA-G2G芯粒不仅能够帮助科技公司打造媲美英伟达NVSwitch+NVLink性能的Scale Up方案,适配各种技术路线和协议,也正在引领计算芯片的设计革新;在Scale Inside方案,奇异摩尔的Kiwi Link UCIe Die2Die接口IP、Central IO Die、3D Base Die系列等方案能够帮助厂商打造具有高效传输能力的高性能计算芯片。YLQednc

这些方案很好地践行了奇异摩尔公司的使命——以互联为中心,依托Chiplet和RDMA技术,构筑AI高性能计算的基石。“对于国产AI大模型和国产AI芯片产业而言,奇异摩尔的方案是新质生产力的代表,有着更大的潜能值得去挖掘。为实现国产AI芯片产业的‘中国梦’,奇异摩尔不仅提供支持最前沿协议的IO芯粒,以实现高速率、高带宽、低时延的传输表现,还在Chiplet路线上独辟蹊径,用创新的芯片架构助力打造更高性能的AI芯片。奇异摩尔愿与国内公司携手,为国产AI芯片产业发展添砖加瓦,共同勾画国产AI发展的广阔蓝图。”田陌晨最后说。YLQednc

更多信息:YLQednc

市场与媒体联络:marcom@kiwimoore.comYLQednc

责编:Franklin
文章来源及版权属于奇异摩尔,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了