超越英伟达的，不会是另一款GPU——鲲云数据流架构AI芯片利用率提升10倍以上-EDN 电子技术设计

 跨界竞争不仅仅存在与商业模式中，技术体系的创新也能带来跨界竞争。AI行业的GPU竞争就是一例。鲲云数据流架构AI芯片利用率提升10倍以上，在AI芯片高端领域开启了性能大比拼

跨界竞争不仅仅存在与商业模式中，技术体系的创新也能带来跨界竞争。AI行业的GPU竞争就是一例。hwkednc

AI芯片领域的GPU一直采用传统的冯诺依曼架构，即串行指令集架构。hwkednc

hwkednc

这是指令集架构图，它的优点是可控制性强，缺点是芯片需要根据指令进行运算并等待结果才能执行下一个指令，因此有高延时，芯片利用率低的缺点。hwkednc

理论的数据流架构如下：hwkednc

hwkednc

数据流架构的特点是：计算单元无需等待，无冗余指令，线性性能大幅提升。hwkednc

因此采用数据流架构的芯片能够同时解决冯诺依曼指令集架构中的芯片利用率低和延时高的问题，可以说：鱼与熊掌兼得，这是技术创新带来的好处。hwkednc

6月23日，鲲云科技在深圳发布了自主研发的AI芯片CAISA，这款芯片就是基于数据流架构，也是全球首款数据流架构AI芯片。它的定位是高性能AI推理，并已经完成量产。hwkednc

hwkednc

CAISA的数据流技术在芯片实测算力上实现了技术突破，较同类产品在芯片利用率上最高可提升11.6倍。第三方测试数据显示仅用1/3的峰值算力，CAISA芯片可以实现英伟达T4最高3.91倍的实测性能。鲲云科技的定制数据流技术不依靠更大的芯片面积和制程工艺，通过数据流动控制计算顺序来提升实测性能，为用户提供了更高的算力性价比。hwkednc

超高芯片利用率，定制数据流芯片架构完成3.0升级hwkednc

CAISA 定制数据流芯片架构，相较于上一代芯片架构，CAISA3.0在架构效率和实测性能方面有了大幅的提升，并在算子支持上更加通用，支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度选择，架构的可拓展性大大提高，在AI芯片内，每一个CAISA都可以同时处理AI工作负载，进一步提升了CAISA架构的性能，在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率，实测性能线性提升。同时新一代CAISA架构对编译器RainBuilder的支持更加友好，软硬件协作进一步优化，在系统级别上为用户提供更好的端到端性能。hwkednc

hwkednc

CAISA3.0架构图hwkednc

CAISA3.0架构继续保持在数据流技术路线的全球领先地位，指令集架构采用冯诺依曼计算方式，通过指令执行次序控制计算顺序，并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序，采用计算流和数据流重叠运行方式消除空闲计算单元，并采用动态配置方式保证对于人工智能算法的通用支持，突破指令集技术对于芯片算力的限制。此次升级，CAISA架构解决了数据流架构作为人工智能计算平台的三大核心挑战：hwkednc

高算力性价比：在保持计算正确前提下，通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限，让芯片内的每个时钟、每个计算单元都在执行有效计算；
高架构通用性：在保证每个算法在CAISA上运行能够实现高芯片利用率的同时，CAISA3.0架构通用支持所有主流CNN算法；
高软件易用性：通过专为CAISA定制的编译工具链实现算法端到端自动部署，用户无需底层数据流架构背景知识，简单两步即可实现算法迁移和部署，降低使用门槛。

具体来讲，鲲云CAISA3.0架构的三大技术突破主要通过以下的技术方式实现：hwkednc

高算力性价比：时钟级准确的计算

CAISA3.0架构由数据流来驱动计算过程，无指令操作，可以实现时钟级准确的计算，最大限度的减少硬件计算资源的空闲时间。CAISA3.0架构通过数据计算与数据流动的重叠，压缩计算资源的每一个空闲时钟；通过算力资源的动态平衡，消除流水线的性能瓶颈；通过数据流的时空映射，最大化复用芯片内的数据流带宽，减少对外部存储带宽的需求。上述设计使CNN算法的计算数据在CAISA3.0内可以实现不间断的持续运算，最高可实现95.4%的芯片利用率，在同等峰值算力条件下，可获得相对于GPU 3倍以上的实测算力，从而为用户提供更高的算力性价比。hwkednc

高架构通用性：流水线动态重组

CAISA3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存，以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计，在数据流配置器控制下，CAISA架构中的数据流连接关系和运行状态都可以被自动化动态配置，从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下，支持用户使用基于CAISA3.0架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。hwkednc

高软件易用性：算法端到端自动化部署

hwkednc

RainBuilder架构图hwkednc

专为CAISA3.0架构配备的RainBuilder编译工具链支持从算法到芯片的端到端自动化部署，用户和开发者无需了解架构的底层硬件配置，简单两步即可实现算法快速迁移和部署。RainBuilder编译器可自动提取主流AI开发框架（TensorFlow，Caffe，Pytorch，ONNX等）中开发的深度学习算法的网络结构和参数信息，并面向CAISA结构进行优化；工具链中的运行时（Runtime）和驱动（Driver）模块负责硬件管理并为用户提供标准的API接口，运行时可以基于精确的CAISA性能模型，实现算法向CAISA架构的自动化映射，同时提供可以被高级语言直接调用的API接口；最底层的驱动可以实现对用户透明的硬件控制。RainBuilder工具链使用简单，部署方便，通用性强，可以让用户快速和低成本的部署和迁移已有算法到CAISA硬件平台上。hwkednc

首款量产数据流AI芯片，CAISA带来AI芯片研发新方向hwkednc

hwkednc

CAISA芯片hwkednc

作为全球首款采用数据流技术的AI芯片，CAISA搭载了四个CAISA 3.0引擎，具有超过1.6万个MAC（乘累加）单元，峰值性能可达10.9TOPs。该芯片采用28nm工艺，通过PCIe 3.0×4接口与主处理器通信，同时具有双DDR通道，可为每个CAISA引擎提供超过340Gbps的带宽。hwkednc

hwkednc

CAISA芯片架构图hwkednc

作为一款面向边缘和云端推理的人工智能芯片，CAISA可实现最高95.4%的芯片利用率，为客户提供更高的算力性价比。CAISA芯片具有良好的通用性，可支持所有常用AI算子，通过数据流网络中算子的不同配置和组合，CAISA芯片可支持绝大多数的CNN算法。针对CAISA芯片，鲲云提供RainBuilder 3.0工具链，可实现推理模型在芯片上的端到端部署，使软件工程师可以方便的完成CAISA芯片在AI应用系统中的集成。hwkednc

hwkednc

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片hwkednc

高算力性价比的AI计算平台星空加速卡系列产品发布hwkednc

hwkednc

星空加速卡系列产品图hwkednc

发布会上，鲲云科技创始人和CEO牛昕宇博士还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台，X3加速卡和X9加速卡，并公布了由人工智能产业技术联盟（AIIA）测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。hwkednc

星空X3加速卡发布hwkednc

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台，为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特点，X3加速卡可以与不同类型的计算机设备进行适配，包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等，满足边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier，X3可实现1.48-4.12倍的实测性能提升。hwkednc

CAISA X3hwkednc

Xavierhwkednc

X3 vs Xavierhwkednc

模型名称hwkednc

网络来源hwkednc

数据集hwkednc

吞吐（batch=4，FPS）hwkednc

延时（batch=4, ms）hwkednc

芯片利用率hwkednc

模型名称hwkednc

网络来源hwkednc

数据集hwkednc

吞吐（batch=128，FPS）hwkednc

延时（batch=128, ms）hwkednc

芯片利用率hwkednc

延时降低hwkednc

吞吐率hwkednc

ResNet-50hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

1306.93hwkednc

3.06hwkednc

92.3%hwkednc

ResNet-50hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

879.00hwkednc

145.70hwkednc

21.1%hwkednc

4.37hwkednc

47.61hwkednc

1.49hwkednc

ResNet-152hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

460.27hwkednc

8.68hwkednc

95.4%hwkednc

ResNet-152hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

310.90hwkednc

411.66hwkednc

21.9%hwkednc

4.35hwkednc

47.43hwkednc

1.48hwkednc

YOLOv3hwkednc

DarkNethwkednc

COCOhwkednc

125.75hwkednc

31.06hwkednc

82.4%hwkednc

YOLOv3hwkednc

GitHub*hwkednc

COCOhwkednc

30.50hwkednc

4190.86hwkednc

6.8%hwkednc

12.10hwkednc

134.93hwkednc

4.12hwkednc

SSD-ResNet50hwkednc

NVIDIAhwkednc

COCOhwkednc

182.16hwkednc

21.96hwkednc

77.1%hwkednc

SSD-ResNet50hwkednc

NVIDIAhwkednc

COCOhwkednc

DNRhwkednc

-hwkednc

U-Net Industrialhwkednc

NVIDIAhwkednc

COCO2017hwkednc

54.01hwkednc

74.07hwkednc

65.0%hwkednc

U-Net Industrialhwkednc

NVIDIAhwkednc

COCO2017hwkednc

DNRhwkednc

-hwkednc

*模型参考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxthwkednc

hwkednc

X3 vs Xavier芯片利用率对比图hwkednc

hwkednc

X3 vs Xavier 性能对比图hwkednc

hwkednc

X3 vs Xavier 延时对比图hwkednc

星空X9加速卡发布hwkednc

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡，峰值性能43.6TOPS，主要满足高性能场景下的AI计算需求。同英伟达旗舰产品T4相对，X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在实测性能方面，X9在ResNet50可达5240FPS，与T4性能接近，在YOLO v3、UNet Industrial等检测分割网络，实测性能相较T4有1.83-3.91倍性能提升。在达到最优实测性能下，X9处理延时相比于T4降低1.83-32倍。实测性能以及处理延时的大幅领先，让数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。hwkednc

CAISA X9hwkednc

T4hwkednc

X9 vs T4hwkednc

模型名称hwkednc

网络来源hwkednc

数据集hwkednc

吞吐（batch=16，FPS）hwkednc

延时（batch=16, ms）hwkednc

芯片利用率hwkednc

模型名称hwkednc

网络来源hwkednc

数据集hwkednc

吞吐（batch=128，FPS）hwkednc

延时（batch=128, ms）hwkednc

芯片利用率hwkednc

延时降低hwkednc

吞吐率hwkednc

ResNet-50hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

5227.72hwkednc

3.06hwkednc

92.3%hwkednc

ResNet-50hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

5415.00hwkednc

23.64hwkednc

32.1%hwkednc

2.88hwkednc

7.73hwkednc

0.97hwkednc

ResNet-152hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

1841.08hwkednc

8.68hwkednc

95.4%hwkednc

ResNet-152hwkednc

TensorFlowhwkednc

ImageNet 50000hwkednc

1935.25hwkednc

66.14hwkednc

33.6%hwkednc

2.84hwkednc

7.62hwkednc

0.95hwkednc

YOLOv3hwkednc

DarkNethwkednc

COCOhwkednc

503.00hwkednc

31.06hwkednc

82.4%hwkednc

YOLOv3hwkednc

GitHub*hwkednc

COCOhwkednc

128.80hwkednc

993.78hwkednc

7.1%hwkednc

11.64hwkednc

32.00hwkednc

3.91hwkednc

SSD-ResNet50hwkednc

NVIDIAhwkednc

COCOhwkednc

728.64hwkednc

21.96hwkednc

77.1%hwkednc

SSD-ResNet50hwkednc

NVIDIAhwkednc

COCOhwkednc

212.00hwkednc

150.94hwkednc

7.5%hwkednc

10.25hwkednc

6.87hwkednc

3.44hwkednc

U-Net Industrialhwkednc

NVIDIAhwkednc

COCO2017hwkednc

216.04hwkednc

74.07hwkednc

65.0%hwkednc

U-Net Industrialhwkednc

NVIDIAhwkednc

COCO2017hwkednc

118.00hwkednc

135.59hwkednc

11.9%hwkednc

5.46hwkednc

1.83hwkednc

*模型参考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxthwkednc

hwkednc

X9 vs T4 芯片利用率对比图hwkednc

X9 vs T4 性能对比图hwkednc

X9 vs T4 延时对比图hwkednc

鲲云科技通过CAISA数据流架构提高芯片利用率，同样的实测性能，对芯片峰值算力的要求可大幅降低3-10倍，从而降低芯片的制造成本，为客户提供更高的算力性价比。目前星空X3加速卡已经实现量产，星空X9加速卡将于今年8月推出市场。鲲云科技成为国内首家在发布会现场披露Benchmark的AI芯片公司。hwkednc

商业落地hwkednc

AI芯片最难的是商业落地，目前这款数据流AI芯片已与多家行业巨头达成战略合作，成为英特尔全球旗舰FPGA合作伙伴，与浪潮、戴尔达成战略签约，在AI计算加速方面开展深入合作；与山东产业技术研究院共建山东产研鲲云人工智能研究院，推进人工智能芯片及应用技术的规模化落地。hwkednc

明星产品“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市、安监生产、轨道交通、智能遥感等领域落地。hwkednc

hwkednc

用于数据中心小型服务器hwkednc

hwkednc

浪潮AI服务器使用了鲲云科技的CAISA AI芯片hwkednc

hwkednc

X3加速卡已经量产，X9计划8月份推出hwkednc

打败你的往往不是同行，而是跨界。这是商业模式上的跨界竞争，在技术领域其实也是一样，我们一直在诟病几十年的冯诺依曼计算架构的性能，却一直没有突破，在AI领域，GPU芯片的领先者一直是英伟达，尽管英伟达的GPU是基于传统的指令集架构，但是其性能一直是行业最优的，尽管在理论界早就有了能够突破芯片利用率和高延时缺点的可定制的数据流架构，但一直未有实质性突破。如今，鲲云科技发布了全球首款数据流AI芯片CAISA，我们期待它成为技术领域的跨界竞争者。hwkednc

hwkednc

责编：Challeyhwkednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

讲述很有意思

阅读全文，请先

Challey

资深产业分析师

进入专栏

上一篇： 怎么知道闪电有多远？ 下一篇： 谈谈传统射频、微波工程师的转型与发展

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···
加强低功耗FPGA的领先地位在快速发展的技术领域，从以云端为中心到以网络边缘为中心的创新转变正在重塑数据的处理和利用方式···
英特尔Ultra处理器，用普通内存也能超频到10000 MT/s+？目前内存超频的世界记录是12666MT/s，而想要达成这样的频率不光需要降低CPU频率，还需要辅助液氮等特殊的冷却方案，对内存进行降温。但已有主板可以在没有特殊冷却方案的情况下，超频到10000 MT/s以上···
再拆沃尔玛的FHD流媒体棒：“UHD”和“FHD”的区别在哪？在我于2024年7月拆解沃尔玛第一代onn. Android TV 4K UHD流媒体设备的介绍中，我还提到了一个FHD“棒”，它“在我右手边的书架上排队等着拆解”，现在是时候了···
兆易创新推出EtherCAT®从站控制芯片，工业自动化的卓越业界领先的半导体器件供应商兆易创新GigaDevice（股票代码 603986）宣布，正式推出EtherCAT®从站控制芯片···
瑞萨率先推出采用车规3nm制程的多域融合SoC 第五代R-Car SoC为集中式E/E架构，带来面向未来的多域融合解决方案，并支持Chiplet扩展···
艾迈斯欧司朗Belago红外LED，助力Supernode打造高精度避 Supernode与艾迈斯欧司朗携手，通过Belago红外LED实现精准扫地机器人避障；得益于Belago出色的红外补光功能，使扫地机器人能够大大提升其识别物体的能力，实现精准避障；Belago点阵照明器采用迷你封装，兼容标准无铅回流工艺，适用于各种3D传感平台，包括移动设备、物联网设备和机器人。

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

超越英伟达的，不会是另一款GPU——鲲云数据流架构AI芯片利用率提升10倍以上