广告

阿里发布最强AI芯片:性能“吊打”同行,一块顶十块GPU

2019-09-25 13:57:48 网络整理 阅读:
发布含光800芯片时,张建锋拿出一张芯片展示,称“这个芯片真的非常大”。张建锋表示,“含光800”是阿里平头哥成立后首款正式流片的芯片,并称含光800性能“吊打”同行。

刚刚,在阿里2019云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋发布了阿里的首款AI芯片“含光800”。WWmednc

这是一款云端AI推理芯片,峰值性能为7.8万IPS(每秒能处理7.8万张照片),峰值能效达到500IPS/W,张建锋表示,这是全球最高性能的AI推理芯片,一块“含光800”相当于10块GPU。WWmednc

003ednc20190925WWmednc

据了解,含光800主要应用于视觉场景,已经在阿里巴巴集团内多个场景大规模应用,其它企业可以通过阿里云获得含光NPU的算力。WWmednc

性能“吊打”同行,一块顶10块GPU

发布含光800芯片时,张建锋拿出一张芯片展示,称“这个芯片真的非常大”。WWmednc

004ednc20190925WWmednc

张建锋表示,“含光800”是阿里平头哥成立后首款正式流片的芯片,并表示含光800性能“吊打”同行。WWmednc

据达摩院介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能(第二名:15012)高5倍;能效比500 IPS/W,是第二名的3.3倍,张建锋称:“含光800是阿里巴巴在芯片领域的万里长征第一步。”WWmednc

005ednc20190925WWmednc

据张建锋称,这是全球最高性能的AI推理芯片,一块含光800相当于10块GPU。WWmednc

据了解,不同于基于冯·诺依曼架构的传统通用处理器,含光800根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。WWmednc

006ednc20190925WWmednc

在杭州城市大脑里,视频实时处理使用GPU需要40块,延时300ms,单路视频功耗2.8W;而使用含光800仅需4块,延时150ms,单路视频功耗1W,有效节约了硬件和时间成本。WWmednc

不过,阿里在现场并没有给出Tops、功耗等数据,也没有给出对标的GPU具体品牌与产品线,让这对比的参数多少有些不明确。WWmednc

从设计到流片只用了一年半时间

张建锋表示,这块芯片从设计到流片只用了一年半时间。WWmednc

据了解,平头哥用7个月完成了前端设计,之后用3个月就成功流片。仅成立一年的平头哥半导体为何这么快就能设计出云端AI芯片?WWmednc

007ednc20190925WWmednc

要知道,芯片作为典型的长周期产品,想加速芯片的商用,在硬件和软件方面都需要有很强的实力,特别是在AI时代,软硬一体化的重要性更加突显。平头哥就得益于阿里在软硬件方面的积累:WWmednc

算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。WWmednc

含光800性能的突破得益于软硬件的协同创新,芯片架构方面,含光800采用创新的架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。NPU同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效都推向极致。WWmednc

其中,性能的提升必须解决内存墙问题。所谓的内存墙,是指采用采用冯诺依曼结构的处理器,存储和运算处理分离,当进行深度神经网络处理时,算力得到了提升,但大量读写运行操作会受到带宽限制,芯片的整体性能提升也同时受到限制。WWmednc

平头哥的做法是通过自研架构大幅减少对内存的访问,在保证性能的情况下,把芯片功耗降到最低水平。具体而言,含光800会根据神经网络推理运算特征,设计特定的硬件、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。WWmednc

已应用于阿里巴巴集团内多个场景

据了解,目前,含光800已应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。WWmednc

比如,拍立淘商品库每天新增10亿商品图片,为了让用户快速从海量图片中精准搜索到商品,需要强大的计算力支撑,使用含光800搜索效率可提升12倍,时间从传统通用GPU的1小时缩减至5分钟。WWmednc

过去半年,平头哥先后发布玄铁910、无剑SoC平台。随着含光800的发布,平头哥端云一体全栈产品系列初步成型,涵盖处理器IP、一站式芯片设计平台和AI芯片,实现了芯片设计链路的全覆盖。WWmednc

张建锋说,这块芯片只是阿里万里长征第一步,今天阿里有足够的信心、能力,把传统硬件公司能做到的、不能做到的都做到。未来,阿里成为软硬件一体化协同发展的公司。WWmednc

责编:Demi XiaWWmednc

(综合整理自澎湃新闻、智东西、雷锋网等)WWmednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 将锂金属电池寿命提高750%,竟然只需要“水”? 随着新能源汽车、移动设备等领域的快速发展,高性能电池的需求日益旺盛,锂金属作为新一代阳极材料,因具有高能量密度、轻量化等优点,备受关注。然而,锂金属电池所存在的寿命短、易起火或爆炸等问题,限制了其广泛的商业应用···
  • 按下ON还是按住OFF,将这种开关电路升级到交流电 2024年10月14日,Nick Cornford发布了一个名为“按下去再按上来,这种开关有哪些门道?”的设计实例(DI)。对于直流电压来说,这是一个非常有趣的DI,但对于交流电压呢?
  • 协同创新,助汽车行业迈向电气化、自动化和互联化的未来 汽车行业正处在电动化和智能化的转型过程中,而半导体企业站在这一变革的最前沿。这一转型带来了重大发展机遇,也带来了诸多挑战,需要颠覆性的技术以及更短的开发周期。加强半导体制造商、一级供应商和汽车制造商之间的合作,对于应对这些复杂情况及推动行业迈向电气化、自动化和互联化的未来至关重要···
  • 将单电源单端输入改成伪A/B类差分输出放大器 该放大器采用Barrie Gilbert的微混频器拓扑结构可将单端输入转换为单电源A/B类电流输出···
  • 加强低功耗FPGA的领先地位 在快速发展的技术领域,从以云端为中心到以网络边缘为中心的创新转变正在重塑数据的处理和利用方式···
  • 打造下一代家用机器人:精心构建智能化、集成化和电源优 ​​​​​​​今天的家用机器人不仅仅是工具,它们已经成为人们的生活伙伴,为日常生活增添了便利性和互动性。设计这些结构紧凑、功能强大的机器需要克服连接性、电源和外形尺寸等方面的严峻挑战,每一次突破都使我们更接近全面集成的智能家居体验···
  • 用LM337改造,让PWM DAC获得1.5 A输出能力 DAC是一种低功耗设备,其功率和电流输出能力仅限于毫瓦和毫安范围。当然,从根本上讲,它们没有理由不与合适的功率输出级配合使用,这确实也是常见的实际做法。不过,为了好玩,这个设计实例采用了不同的供电方式···
  • 意法半导体:让可持续世界从概念变为现实 最近,意法半导体人力资源和企业社会责任总裁Rajita D’Souza分享了意法半导体的可持续发展战略和近期工作重点···
  • 如何制作双变频的航空波段接收机? 随着互联网的发展,中波和短波频段的接收机已成为过去式,更不用说长波了。不过也许在无线电领域中最有趣的活动之一就是收听服务发射机,对于我这个与航空相关的人来说,主要指的是飞机的发射机和空中交通管制塔···
  • 用4200A和矩阵开关搭建自动智能的可靠性评估平台 在现代ULSI电路中沟道热载流子(CHC)诱导的退化是一个重要的与可靠性相关的问题···
  • 新一代MCU向着边缘AI和实时控制发展 在工业和汽车领域,电机驱动和数字电源转换是典型的实时控制系统,要求处理器具有高实时性和强大的数学计算与处理能力。这些应用需要优质的ADC和PWM功能,并通过联动机制,形成高效、有机的实时控制系统。
  • 英特尔Ultra处理器,用普通内存也能超频到10000 MT/s+? 目前内存超频的世界记录是12666MT/s,而想要达成这样的频率不光需要降低CPU频率,还需要辅助液氮等特殊的冷却方案,对内存进行降温。但已有主板可以在没有特殊冷却方案的情况下,超频到10000 MT/s以上···
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了