阿里巴巴旗下平头哥的AI芯片“含光800”是中国公司首次提交到MLPerf的原创AI芯片,参加了适用于图像分类任务的Resnet50 v1.5基准测试,在离线模式、服务器模式、多路模式和单路模式四个场景测试项目上,都稳拿“全球第一”的成绩。
在芯片测试中,离线模式测试的目的是评估芯片推理的最大吞吐量。
这项测试可以考验芯片的计算、存储、通信等设计所能达到的最佳性能。
在该项测试中,“含光800”芯片的成绩是69306.60 image/sec,位居全球第一,排名第二的Google TPU V3.8的成绩是32716.00,排名第三的则是英伟达 RTX,成绩是16562.6。“含光800”的成绩是谷歌TPU v3 的8.5倍、英伟达 T4的12倍。
服务器模式主要用来测评芯片系统单张图片的吞吐量,“含光800”的成绩是45169.48 image/sec,是第二名Google TPU v3.8的2.82倍。
多路模式:是第二名Habana Goya的3.84倍
多路模式是评估芯片系统所能支撑的视频流的最大路数。
这里的视频流定义为20帧/sec,主要应用于视频、监控、智慧城市等。
在多路模式测试中,“含光800”最大可同时处理2692路视频流,是第二名Habana Goya的3.84倍。
单路模式测试是用于评估芯片系统的单张图像请求吞吐量。
它强调单图像的推理场景下,芯片的最小反应延迟,反应越快越“聪明”,数值越小越优秀。
在这项测试中,“含光800”的成绩是0.17毫秒,比第二名Habana的Goya快1.41倍。
2019年9月问世的“含光800”是阿里巴巴第一款正式流片的芯片,基于台积电12nm工艺生产,采用平头哥自研架构,现已大规模应用于阿里巴巴集团内多个场景,如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。
MLPerf实际上收到了除神经形态和模拟系统以外每种类型的处理器,其中包括英伟达的GPU、谷歌的TPU、英特尔的CPU和加速器以及Habana Labs的Goya加速器、Raspberry Pi 4和阿里巴巴的“含光800”加速器。几乎每个芯片公司都可以在某个分类中取得胜利。在离线测试中, Google展示了从1 TPUv3到32的几乎完美的拓展性,英伟达的Tesla加速器在一些测试中名列前茅,英特尔在CPU中位居榜首,高通的骁龙855在官方结果中也远远超过其它SoC。
英伟达公布的图表诠释了测试结果。从数据中心推理的测试结果来看,英伟达在包括服务器与脱机项目中的所有5个测试中都排名第一。
在数据中心分类中与英伟达成绩最接近的对手是以色列新创公司Habana Labs的Goya推理芯片。Habana Labs在接受EE Times采访时指出,该测试成绩完全以性能为基础,功耗并不是一个测量标准,实用性与成本也不是。
下图为配备Goya推理芯片的Habana Labs PCIe卡。
在边缘推理测试中,英伟达则在商用方案封闭分区的所有4个项目中胜出。Qualcomm的Snapdragon 855 SoC以及Intel的Xeon CPU在单路场景中紧随英伟达,不过Qualcomm与Intel都没有提交较困难的多路场景测试结果。
自去年初成立以来, MLPerf联盟一直在稳步建立机器学习基准。今年6月,MLPerf联盟发布了第2个基准测试集MLPerf Inference v0.5,目前该版本还不太完善,也没有功耗测试指标,但仍然吸引了主要芯片公司的关注。MLPerf联盟表示未来几年将开发移动应用程序以加快对智能手机和其他智能设备的测试,同时桌面基准测试也将日趋成熟,推理芯片数十亿美元的市场将继续快速增长。