Aspencore《电子工程专辑》分析师团队对中国本土的AI芯片设计公司进行了第一手调查和网络汇编整理,从众多AI芯片设计厂商中挑选30家,从核心技术、代表产品、典型应用场景等多个维度进行了分析。这是China Fabless系列调研分析报告的一部分,感兴趣的朋友可以查阅其它类别的调研报告,或直接与我们联系。
已经发布的调研报告包括:
无论云端训练和推理、边缘计算还是终端AI,AI都需要高能效的算力支持,而AI芯片无疑是输送算力的硬件保障。传统的通用型CPU、GPU甚至FPGA难以满足特定应用场景的AI需求,因此基于特定域架构(DSA)的AI芯片和深度学习加速器(DLA)便应运而生,这为专门开发AI芯片的初创公司带来了发展机会,并在全球范围催生了多家AI芯片独角兽公司。
中国本土AI应用和AI芯片初创公司也随着AI的热潮和风投的关注而遍地开花。然而,经过几年的喧闹后,AI应用场景的落地成为最大难题。AI芯片的设计也不是简单的高性能微处理器硬件设计,而是涉及应用场景特定需求和算法的软硬件一体化设计。那么,中国本土AI芯片厂商的发展现状?未来发展前景又如何呢?哪些AI芯片公司会脱颖而出?
《电子工程专辑》分析师团队带着这些问题,对30家国产AI芯片厂商进行了深入调查和分析。这是这些厂商的基本信息一览表:
在这30家中国本土AI芯片厂商中,有6家上市公司,4家是子公司。有2家是做比特币矿机出身而扩展到AI芯片的。有一家是从光子芯片切入AI领域的,有2家采用的是数据流架构,而非传统的冯诺依曼架构。
从公司总部所在地来看,北京有11家AI芯片公司,其中包括互联网巨头百度、老牌微处理器芯片设计公司北京君正,以及科创板上市的寒武纪。上海有9家,包括无线通信处理器厂商紫光展锐,以及融资超过20亿的初创公司壁仞科技。深圳有4家,包括华为海思,以及“AI四小龙”之一的云天励飞。此外,珠海和杭州各有2家,福州有1家。
从AI应用场景来看,智能安防、物联网和智能语音是最为热门的应用。云端AI训练和推理对算力性能和设计团队的要求比较高,相应的AI处理器设计公司也不多。除了百度和阿里等互联网巨头外,遂原科技和天数智芯是针对这一高性能计算领域的初创公司。
下面我们将从核心技术、代表产品、典型应用场景和竞争优势等方面对这30家公司逐一分析。
华为海思
核心技术:自研华为达芬奇架构NPU、3D Cube技术;
代表产品:昇腾(Ascend)310是一款高能效、灵活可编程的人工智能处理器,在典型配置下可以输出16TOPS@INT8、TOPS@FP16,功耗仅为8W。全AI业务流程加速,大幅提高AI全系统的性能,有效降低部署成本。自研华为达芬奇架构NPU,在8W数据精度下算力可达16TOPS,高性能3D Cube计算引擎。
昇腾(Ascend)910是海思系列中算力最强的AI处理器,基于自研华为达芬奇架构3D Cube技术,实现最佳AI性能与能效平衡,架构灵活伸缩,支持云边端全栈全场景应用。在算力方面,昇腾910半精度(FP16)算力达到320 TFLOPS,整数精度(INT8)算力达到640 TOPS,功耗310W。
应用场景:海思以全场景AI芯片昇腾系列助力AI从中心侧向边缘侧延伸,面向数字中心、边缘、消费终端和IoT场景,可为平安城市、自动驾驶、云业务和IT智能、智能制造、机器人等应用场景提供完整的AI解决方案。
紫光展锐
核心技术:异构双核NPU架构、自研API
代表产品:虎贲T710采用异构双核NPU架构,支持业界主流AI训练框架,自研API可提高算法效率。性能:4 x A75 @ 2.0GHz + 4 x A55 @ 1.8GHz;影像:4800万(4in1)摄像头、4K@30fps编解码、超级夜景、防抖等功能。
应用场景:适用工业、商业、医疗、家居、教育等场景。
竞争优势:拥有在人工智能AI、安全性、连接、性能、功耗五大领域的突出优势。在2019年8月苏黎世联邦理工学院AI Benchmark公布的全球AI芯片性能榜单中,虎贲T710排名榜首。
地平线
核心技术:人工智能专用计算架构 BPU(Brain Processing Unit)
代表产品:车规级AI芯片征程2/3;AIoT边缘AI芯片平台旭日2/3。
应用场景:汽车ADAS/自动驾驶、AIoT边缘计算。地平线自主研发兼具极致效能与高效灵活的边缘人工智能芯片及解决方案,可面向智能驾驶以及更广泛的智能物联网领域,提供包括边缘 AI 芯片、丰富算法 IP、开放工具链等在内的全方位赋能服务。
竞争优势:在智能驾驶领域,地平线选择从车载AI芯片(智能汽车的数字发动机)这一最具挑战性的边缘芯片切入,具有领先的人工智能算法和芯片设计能力,是目前唯一能在基于视觉感知的车规级AI芯片竞争赛道上与Mobileye抗衡的公司。地平线征程 2 已经实现大规模前装量产,与英特尔 Mobileye EyeQ4、英伟达 Xavier 并列成为业界仅有的三款量产级车规智能驾驶芯片。
寒武纪
核心技术:智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等;编程框架适配与优化、智能芯片编程语言、智能芯片编译器、智能芯片高性能数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境等。公司已获授权的专利为110项,其中境内专利95项,境外专利15项。
代表产品:思元290/270/100/220系列AI芯片;终端智能处理器IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及基础系统软件平台。
应用场景:通用型云端训练和边缘/终端推理AI方案。
竞争优势:AI核心技术和人才团队优势;同时为云端、边缘端、终端提供全品类系列化智能芯片和处理器产品的能力。
比特大陆
核心技术:自主研发云端AI芯片,拥有完整的自主知识产权和专利
代表产品:云端芯片算丰BM1680、算丰BM1682、算丰BM1684,终端芯片BM1880。最新一代算丰BM1684芯片聚焦于云端及边缘应用的人工智能推理,采用台积电12nm工艺,在典型功耗仅16瓦的前提下INT8算力可达17.6Tops,在Winograd卷积加速下,INT8算力更提升至35.2Tops,是一颗低功耗、高性能的SoC芯片。
应用场景:视频分析、云+边的“新基建”算力基础设施建设
竞争优势:拥有完整的自主知识产权和专利,同一套SDK和简单易用的工具链支持多形态应用。
遂原科技
核心技术:可编程芯片设计理念、“驭算”计算及编程平台支持主流深度学习框架,并针对邃思芯片进行了特定优化。
代表产品:邃思是针对云端人工智能训练场景的高性能通用可编程芯片,支持CNN、RNN、LSTM、BERT等网络模型和丰富的数据类型(FP32/FP16/BF16/Int8/Int16/Int32等)。其计算核心包含32个通用可扩展神经元处理器(SIP),每8个SIP组合成1个可扩展智能计算群(SIC)。SIC之间通过HBM实现高速互联,通过片上调度算法,数据在搬迁中完成计算,实现SIP利用率最大化。
公司已完成首款人工智能高性能通用芯片“邃思”的研发和量产,并面向数据中心推出数款人工智能算力加速产品,分别是:针对云端训练场景的“云燧T10”和“云燧T11”,针对云端推理场景的“云燧i10”,以及与产品配套的“驭算”软件平台。
应用场景:面向数据中心的高性能云端训练和云端推理,可广泛应用于互联网、金融、教育、医疗、工业及政务等人工智能训练场景。
竞争优势:同时拥有高性能云端训练和云端推理产品。
云天励飞
核心技术:算法芯片化的底层技术能力以及基于“端云协同”技术路线所成功落地的大型解决方案经验和系统落地工程能力。算法芯片化不等于“算法+芯片”,而是指一种算法与芯片融合发展的设计理念和流程。云天励飞自2014年成立以来就践行这套“场景定义算法、算法定义芯片”的思路方法。
代表产品:2017年,云天励飞第一代具有自主知识产权的神经网络处理器采用FPGA实现。2018 年,第二代具有自主知识产权的神经网络处理器芯片DeepEye1000采用 22nm 工艺投片。
应用场景:DeepEye1000可在智能安防、新商业、智慧交通、智能制造、智慧仓储、智能家居、机器人、智能超算等多个行业及领域应用。
全志科技
核心技术:高清音视频编解码技术、高清数字电视信号解调技术
代表产品:主要产品是基于ARM架构的大型SoC,包括R329,R818等28nm的智能语音芯片,以及A系列的平板处理器。R329是全志科技首款搭载Arm中国“周易”AIPU的多核异构处理器,具有高算力、低功耗、低成本等性能。R329拥有0.256 TOPS算力,800MHz频率,能够使用深度学习进行端到端的算法,进一步提升AI语音的识别率和交互体验。R329还集成了主频为1.5GHz的双核Arm Cortex-A53,使R329的整数算力比上一代R328芯片高出1.58倍,浮点算力高1.94倍;其DSP为400MHz的双核HIFI4,拥有HIFi级算法,能够进行音频前、后处理,提升音质效果。
应用场景:全志科技的SoC主要布局物联网,智能家居等领域。作为智能家居的入口,京东的智能音箱搭载的是全志的SoC芯片,还有小米的智能扫地机器人等智能硬件产品。
瑞芯微
核心技术:应用处理器技术
代表产品:RK3399Pro AI芯片采用big.LITTLE大小核CPU架构,双核Cortex-A72+四核Cortex-A53。其它产品还包括智能应用处理器芯片、智能物联应用处理器芯片、电源管理芯片等。
应用场景:智能物联硬件
鲲云科技
核心技术:自主研发推出定制数据流CAISA架构和编译工具链RainBuilder
代表产品:数据流AI芯片CAISA搭载了四个CAISA 3.0引擎,峰值性能可达 10.9TOPs,具有超过1.6万个MAC(乘累加)单元以及所有辅助逻辑。为支持较高的硬件资源利用率,同时设计了分布式数据流缓存,为每个CAISA引擎提供超过340Gbps的带宽,可实现最高95.4%的芯片利用率;CAISA引擎本身基于对常用神经网络模型的计算量统计进行优化,其不仅为常见的神经网络计算(如Pooling,ReLU等)实现了专用的硬件计算模块,且与卷积计算的比例经过平衡,可在常用AI算法中实现最佳性能,满足不断增长的边缘侧和IDC算力需求,为客户提供更高的算力性价比。
应用场景:基于CAISA芯片,鲲云科技推出面向边缘端、数据中心进行深度学习推断的AI专用计算加速的星空加速卡X3,定位于高性能AI推断加速,星空加速卡兼容TensorFlow、PyTorch、Caffe、ONNX(MXNet) 等主流框架,可简单快速实现AI算法模型到硬件上的无缝迁移,充分体现其高算力性价比、高通用性和高软件易用性。目前星空加速卡X3已应用于航空航天、智慧城市、安防、安全生产、电力、工业等领域。
竞争优势: 鲲云基于自身数据流AI芯片技术,提供从底层硬件到顶层算法在内的软硬件一体化人工智能解决方案,推动人工智能在电力、安防、安监生产、工业视觉等不同行业及领域的垂直落地。 在电力领域,鲲云网面向输配变场景提供人工智能巡检解决方案;在石油石化领域,鲲云提供算力算法一体化的智慧安监解决方案;在智能制造领域,鲲云提供AI加速卡为AOI检测赋能算力,其星空加速卡基于数据流技术,对batchsize不敏感且处理延时低,在技术特性上适配产线实时检测应用需求且为工业用户提供具有更高算力性价比。 目前鲲云的AI加速芯片及产品已在智慧城市、智能制造、智能遥感、安监生产等领域落地,与浪潮、飞腾、DELL和中国联通等达成合作,加速数据流AI计算产业化落地。
作为首批参与AIIA DNN Benchmark 项目的AI芯片企业,鲲云参与制定AI芯片行业基准测试标准,芯片产品经第三方认证已成为首批披露benchmark的AI加速产品,且AI加速产品目前已经同飞腾、麒麟、浪潮等完成了适配和国产化产品认证。
以上是30家AI芯片厂商的10家公司信息汇总,余下的20家公司信息将于下周发布。
责编:Luffy Liu