在AspenCore旗下《EDN电子技术设计》、《EET电子工程专辑》和《ESM国际电子商情》三大媒体共同举办的“2022国际集成电路展览会暨研讨会(IIC)”南京站的“2022中国IC领袖峰会”上,酷芯微电子联合创始人兼CTO沈泊发表了“智能时代 齐‘芯’共赢”主题演讲。主要分享了该公司对AI芯片落地商业模式的思考。
沈泊认为,AI芯片本身并不能成为独立的产业,它一定要与不同行业紧密结合在一起,和合作伙伴一起打造生态。“前两年大家做了很多尝试,但最终要拼每一家落地的能力,以及找到很好的商业合作伙伴,大家一起往前走。”沈泊强调说。
酷芯主要关注在视觉AI相关场景,比如智能安防、车载、机器人。“这也是万亿级市场。每一个市场落地速度有快有慢,安防行业相对来说落地快一些,市场规模也更大。在机器人和车载行业增速较快。目前来说,绝对数量比安防行业要少一些。”沈泊介绍说。
据介绍,酷芯具有三大核心技术:
“实际上AI芯片与其它芯片的底层逻辑并没有本质上的不同,目的都是为了真正帮助客户去解决他们实际碰到的问题。”沈泊指出,“目前几个主要市场包括智能安防、机器人和汽车。机器人赛道最近比较火。其实酷芯微电子做机器人方向很早,在2012年就已经跟大疆创新合作,当时大疆规模还比较少,年产值还不到1个亿规模。我们帮助大疆解决了无线图像传输问题。这几年我们做了更全面的机器人行业芯片布局,从通信到AI主控。除了无人机,最近家庭清洁机器人发展也非常地快,一年也有几千万的市场容量,尤其这两年家庭扫地机器人从传统碰撞型或者单纯激光感知的模式升级到激光+视觉的全新AI方案。这样的话,对我们处理器平台和算力就有非常大的要求。”
“AI芯片落地过程已经走到了需要思考成熟商业模式的一步。中国这几年芯片公司非常地多,每一个细分赛道都有一大堆玩家,最终是不是每个赛道都需要这些玩家是值得大家思考的。”沈泊说,“像AI领域,一开始大家模式是去做通用芯片,尽可能覆盖更多的市场,最终不同的公司的技术能力甚至团队成分都十分雷同,做出来的产品性能也较接近。目前在这种情况下怎么做出差异化、定制化,避免红海和过度竞争,这是需要大家思考的。芯片要走差异化就必须落地,也就非常需要和客户应用场景紧密结合,我们需要站在客户和下游整机龙头的角度思考,深入挖掘他们真正需要的东西,因为行业龙头也不希望拿市面上随便买得到的芯片用。所以我们最近也在思考怎么样和细分行业龙头深度合作,理解他们的需求,通过我们的芯片帮助他们实现差异化。”
端侧智能行业面临的第一个痛点就是算力低。据沈泊介绍,酷芯微电子93系列芯片目前已经量产。在明年上半年会推出超低功耗系列的产品,功耗会比这一代产品降低非常多。同时,明年下半年也会推出大算力产品。“即使在端侧,一颗小小的芯片,可能功耗是3-5W,但是能够把算力提升到50-100TOPS的水平。”
为什么在端侧同样需要非常大的算力呢?沈泊指出,很多行业客户,包括安防行业、机器人行业和车载行业虽然已经采用了很多芯片,但还有很多痛点没有得到满意的解决。算法工程师觉得现在算力不太够用,因为算法发展得太快,软件定义硬件,动则就是一个大模型,一旦部署到端侧芯片无法负荷。比如,以前在英伟达GPU A100上做推理,速度不是问题,但是在端侧有一个非常大的挑战,功耗最多3-5W,再大的话,散热就是非常大的问题。其次,端侧算力芯片也就是3-4TOPS,算力无法满足大应用场景的需求也是明显的痛点。
第二个痛点是价格高。“尤其是对于大算力,比如在端侧目前要实现几十个TOPS,价格非常地贵,一般人也受不了,尤其是大算力价格还是太贵了。”沈泊指出。
第三个痛点是功耗高。目前来看,大部分场景下,客户对很多AI芯片散热差的不满相当明显。这是整个行业需要解决的问题。
为什么端侧算法对算力有这么大的渴望?沈泊解释说:“目前有很多应用方面的需求需要一颗芯片拥有最少几十TOPS的算力。比如多任务并行,一般来说在应用当中会跑很多神经网络,一个神经网络对算力未必特别大,但是有的时候跑几个、几十个,这样加起来对算力要求就非常大了。”
“现在越来越有一个趋势是比较喜欢跑大的模型。早期都是小模型,这种模型算力要求不是很高,但是效果和大模型相比相差非常大。业界龙头的算法公司,比如商汤,他们就觉得,最好也能有一颗端侧芯片,把他们在服务器上部署的神经网络在端侧跑下来。这样的话,他们的效果就能达到真正的满意。”
“以人脸识别为例,虽然在国内已经非常普遍了,但是算法模型到了美国就不行了,因为美国有很多深色皮肤的人种,需要特别强大的模型才能跑得比较满意。现在很多端侧芯片跑起来就不太够用了,所以大模型也是非常大的挑战。”
“2015、2016年深度学习刚刚热的时候,大家跑一个小分辨率的图像,比如200×200分辨率,算力要求是不高的,但是现在搞自动驾驶,很多都是1080p起步,这对算力需求就非常大。”
“我们还看到AI技术不仅仅用于做目标检测和识别,还要做计算成像的处理。比如用神经网络处理器把原来4K图像超分成8K,或者30帧图像插成120帧,这样就可以拍到慢动作的视频。这些处理对算力要求非常地高,现在很多都没有办法做到实时,只能慢慢在服务器上跑。一旦你需要计算成像,目前端侧的芯片都是不太够用。这也是为什么我们认为很快端侧算力就要从零点几个TOPS一直上到100TOPS。”
沈泊认为,从需求来看,大算力芯片的价格要迅速下降。“目前,在芯片上,每个TOPS算力是3-5美金。在一两年内,随着市场竞争,包括客户端需求,很快希望下降到0.5-1美金/TOPS。另外,制约算力的因素是能效比,目前大部分芯片能效比依然相对较低。当然有很多公司在研发存算一体产品,但真正落地还是有些挑战。我们酷芯在提升能效比方面也是做了很多工作,相信我们的产品很快就会达到20-30TOPS/W的性能,这样可以更好的满足客户的需求。”沈泊表示。
随后,他分享了一个案例——酷芯正在设计的针对新一代机器人主控的芯片平台。据介绍,这个芯片有非常强的感知能力,支持双8K ISP和8K Codec,NPU算力在128TOPS 左右。除了深度学习处理,还需要传统计算机视觉的加速器,因为单纯靠CPU计算,算力明显不够用。“假如基于我们这样的芯片平台,用芯片去做高端的无人机,只要一颗就可以搞定,加上AR8030无线通信芯片,这样两颗芯片就可以完成智能无人机的主控任务。”沈泊补充说。
酷芯为什么要做图像传输芯片呢?沈泊解释说:“不仅仅是用在无人机行业——无人机飞得比较远,可能需要传5公里、10公里——即使在家用机器人领域,很多行业龙头都有一个痛点,比如扫地机器人在房间里到处跑,很多时候Wi-Fi却连不上。我们的芯片可以帮助它解决无线连接的问题。我们的理念是,我们的芯片是不是AI不是最重要的,能不能帮助客户解决问题,这才是我们要做的事情。”
除了芯片以外,酷芯也提供成熟的工具链,从而帮助客户更快让产品进入到量产。
“我们是做主控芯片的,我们也有很多传感器合作伙伴、算法合作伙伴。作为一家芯片公司,我们有时候能做的事情也比较有限,单纯靠我们自己是不能把AI行业或AI应用推起来的。因此,我们一定要找很多合作伙伴,包括算法合作伙伴、传感器合作伙伴共同针对行业,比如安防行业,和龙头企业一起探讨未来AI芯片到底需要什么,目前市面上这些是不是他们真正所需要的。这几年我们也一直在思考这个问题,也希望将来可以和各位同行合作伙伴一起做得更好。”沈泊总结说。