广告

燧原科技于Hot Chips大会详解邃思芯片架构

2021-08-25 阅读:
燧原科技在Hot Chips大会上由首席架构师刘彦和资深芯片设计总监冯闯一起介绍了第一代云端训练芯片“邃思1.0”的架构细节。

2021825日,中国上海——今天燧原科技在一年一度的Hot Chips大会上由首席架构师刘彦和资深芯片设计总监冯闯一起介绍了第一代云端训练芯片“邃思1.0”的架构细节。Hot Chips是全球高性能微处理器和集成电路相关的重要会议之一,芯片行业巨头每年都借此机会展示自己公司的最新成果,包括处理器体系结构,基础架构计算平台,内存处理等各类技术。JcFednc

JcFednc

燧原科技第一代通用人工智能训练芯片“邃思1.0”封装示意图JcFednc

邃思1.0是燧原科技2019年12月发布的第一代云端AI训练芯片,采用众核结构,其计算核心采用了燧原科技自研的GCU-CARE计算引擎。整个SOC拥有32个GCU-CARE计算引擎,组成4个计算群组,全面支持常见AI张量数据格式(FP32/FP16/BF16, INT8/INT16/INT32),更全面地支撑客户业务。CARE还创新地通过复用张量核心,用最有效的晶体管效率提供了标量、向量、张量以及多种数据精度的计算能力。JcFednc

GCU-DARE数据架构,面向数据流优化,在数据流动中进行处理。512GB/s的HBM和200GB/s的GCU-LARE互联,数倍于传统GPU、CPU;强劲的分布式片上共享缓存,提供10TB/s的超大带宽;可编程共享缓存,可控线程内、线程间数据常驻共享,消除不必要的IO访问,既降低了数据访问延时,又节约了宝贵的IO带宽;同时,DARE架构还提供数据异步加载接口,支持数据与运算的流水执行,提高运算并行度。JcFednc

四路 GCU-LARE智能互联,200GB/s的高速低延时片间互联接口,灵活支持不同规模的计算需求,可支持千卡级规模集群,为大中小型数据中心提供基于不同需求的人工智能训练产品组合。JcFednc

JcFednc

“邃思1.0”SOCJcFednc

邃思1.0人工智能加速芯片专为云端训练场景设计,支持CNN、RNN、LSTM、BERT等常用人工训练模型,可用于图像、流数据、语音等训练场景。采用标准PCIe 4.0接口,广泛兼容主流AI服务器,可满足数据中心大规模部署的需求,且能效比领先。JcFednc

演讲的最后部分,刘彦还介绍了上个月刚刚在世界人工智能大会上发布的“邃思2.0”训练芯片。经过全新升级迭代后,邃思2.0的计算能力、存储和带宽、互联能力较第一代训练产品有巨大提升,对超大规模的模型支持能力获得显著增强。由此,燧原科技成为国内首家发布第二代人工智能训练产品组合的公司。JcFednc

邃思2.0进行了大规模的架构升级,针对人工智能计算的特性进行深度优化,夯实了支持通用异构计算的基础;支持全面的计算精度,涵盖从FP32、TF32、FP16、BF16到INT8,单精度FP32峰值算力达到40 TFLOPS,单精度张量TF32峰值算力达到160 TFLOPS。同时搭载了4颗HBM2E片上存储芯片,高配支持64 GB内存,带宽达1.8 TB/s。GCU-LARE也全面升级,提供双向300 GB/s互联带宽,支持数千张云燧CloudBlazer加速卡互联,实现优异的线性加速比。JcFednc

JcFednc

燧原科技第二代通用人工智能训练芯片“邃思2.0”JcFednc

而同步升级的驭算TopsRider软件平台,成为燧原科技构建原始创新软件生态的基石。通过软硬件协同架构设计,充分发挥邃思2.0的性能;基于算子泛化技术及图优化策略,支持主流深度学习框架下的各类模型训练;利用Horovod分布式训练框架与GCU-LARE互联技术相互配合,为超大规模集群的高效运行提供解决方案。开放升级的编程模型和可扩展的算子接口,为客户模型的优化提供了自定义的开发能力。JcFednc

关于燧原科技JcFednc

燧原科技专注人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品。其创新性架构、互联方案和分布式计算及编程平台,可广泛应用于云数据中心、超算中心、互联网、金融及政务等多个人工智能场景。JcFednc

燧原科技携手业内国际标准组织,秉承开源开放的宗旨,与产业伙伴一起促进人工智能产业发展。JcFednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 人工智能前沿|2025 年影响工程的顶级趋势 想要在人工智能竞赛中保持领先的工程领导者应该关注四个关键领域的进步:生成式人工智能、验证和确认、降阶模型(ROM)和控制系统设计···
  • 人工智能对数据中心基础设施带来了哪些挑战 在加密货币和人工智能/机器学习(AI/ML)等新兴应用的驱动下,数据中心的能耗巨大,并将快速增长以满足用户需求···
  • 谷歌Willow芯片5分钟完成10亿亿亿年计算,突破量子纠错3 近日,谷歌宣布了其新一代量子处理器Willow的诞生,这款量子计算芯片采用105个量子比特的设计,完成了全球量子计算历史上一个难以企及的里程碑,让长达近30年的“量子纠错”难题成为过去···
  • 下载|汽车动力与底盘MCU市场现状研究报告 本报告选择汽车动力(Powertrain)与底盘(Chassis)系统中的MCU做探讨,一方面是因为,就车规MCU的角度来看,这两个组成部分更为关键、复杂,对安全性要求更高,更具实现难度;另一方面,即便是传统汽车角度,动力与底盘系统的电子控制也更加由来已久和具代表性。
  • 以极致能效破解人工智能背后的“能源危机” 电力正在成为威胁人工智能 (AI) 进步的最新瓶颈,而人工智能迅猛增长的算力背后,攀升的能源占用也正在大量挤占正常的社会用能需求···
  • 莱迪思聚焦低功耗中小型FPGA创新,并计划发展大规模FPGA 在最新的开发者大会上,莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍,随着莱迪思FPGA技术的广泛应用和产品差异化的推进,全球已有超过1万客户选择使用莱迪思的FPGA产品,部署的许可证数量也已超过3.5万。
  • 协同创新,助汽车行业迈向电气化、自动化和互联化的未来 汽车行业正处在电动化和智能化的转型过程中,而半导体企业站在这一变革的最前沿。这一转型带来了重大发展机遇,也带来了诸多挑战,需要颠覆性的技术以及更短的开发周期。加强半导体制造商、一级供应商和汽车制造商之间的合作,对于应对这些复杂情况及推动行业迈向电气化、自动化和互联化的未来至关重要···
  • 打造下一代家用机器人:精心构建智能化、集成化和电源优 ​​​​​​​今天的家用机器人不仅仅是工具,它们已经成为人们的生活伙伴,为日常生活增添了便利性和互动性。设计这些结构紧凑、功能强大的机器需要克服连接性、电源和外形尺寸等方面的严峻挑战,每一次突破都使我们更接近全面集成的智能家居体验···
  • 意法半导体:让可持续世界从概念变为现实 最近,意法半导体人力资源和企业社会责任总裁Rajita D’Souza分享了意法半导体的可持续发展战略和近期工作重点···
  • 新一代MCU向着边缘AI和实时控制发展 在工业和汽车领域,电机驱动和数字电源转换是典型的实时控制系统,要求处理器具有高实时性和强大的数学计算与处理能力。这些应用需要优质的ADC和PWM功能,并通过联动机制,形成高效、有机的实时控制系统。
  • 帕特·基辛格退休:工程师CEO的回归也救不回英特尔? 在执掌英特尔三年多之后,魅力十足、雄心勃勃的英特尔首席执行官Pat Gelsinger下台了,这家摇摇欲坠的美国半导体巨头开始寻找继任者···
  • 从碳化硅到机器人:ST描绘未来工业发展蓝图 意法半导体(ST)第六届工业峰会于2024年10月29日召开,延续以“激发智能,持续创新”为主题,聚焦工业市场前沿技术和解决方案。峰会演讲嘉宾深入探讨了电源与能源、电机控制、自动化等领域的技术发展趋势和ST的创新成果,为构建更可持续的未来描绘了宏伟蓝图···
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了