广告

清华90后团队搞出了个DPU,跟谷歌飙技术

2017-04-28 Lina 阅读:
这是一家非常年轻的公司,履历却惊人地亮眼,公司内部聚集了无数清华、斯坦福的技术大牛,在各种学术研讨会上拿奖拿到手软。而且成立刚满一年,不仅拿到了500万美元的天使轮,还在今年年初敲定了数千万美元的A轮融资,估值超过10亿人民币。

人工智能热潮的兴起已然是不争的事实,就在你读文章的此时此刻,为期三天的ICLR国际学习表征会议刚刚落下帷幕。这场由全球两位深度学习巨头举办的学术研讨会在近年来声名鹊起,一跃已经成为人工智能领域的重要会议之一,谷歌、百度、Facebook、英伟达等各大公司争相加码赞助。mSWednc

而在这份赞助厂商名单上,一家中国创企尤为引人注目——深鉴科技。这是一家非常年轻的公司,履历却惊人地亮眼,公司内部聚集了无数清华、斯坦福的技术大牛,在各种学术研讨会上拿奖拿到手软。而且成立刚满一年,不仅拿到了500万美元的天使轮,还在今年年初敲定了数千万美元的A轮融资,估值超过10亿人民币。mSWednc

那么它是做什么的呢?既然赞助ICLR大会,那么自然与深度学习有关。mSWednc

深度学习分为训练(Training)和应用(Inference)两部分,深鉴科技主要解决应用问题。简单来说就是企业将自己的深度学习算法模型训练好之后,由深鉴科技将其压缩20-50倍并编译,最终产品以板卡形式呈现。mSWednc

深鉴科技基于的是FPGA平台:与擅长训练的GPU相比,FPGA功耗更小、整体性价比更高,更适合用于应用。但是由于FPGA的开发难度高、周期长,因此很多公司不愿使用。深鉴科技相当于给用户提供了一个黑盒子,企业只需要提供输入模型和数据,由深鉴科技提供应用层的FPGA解决方案。mSWednc

笔者从很早之前就开始关注深鉴科技了。今年2月,深鉴科技首席科学家韩松的“深度压缩”论文获得了FPGA芯片领域顶级会议FPGA 2017的最佳论文奖;而更早之前,在去年的ICLR国际学习表征会议上,最佳论文奖也被深鉴科技斩获。同年的另一篇最佳论文奖获得者大家一定非常熟悉,那就是AlphaGo开发者——谷歌DeepMind。mSWednc

今天,笔者来到了公司内部,与创始人兼CEO姚颂仔细地聊了聊。mSWednc

一、“姚老板”与他的师兄弟们(还有师父)

011ednc20170428mSWednc

姚颂给人的第一感觉——很年轻,也很瘦。带着眼镜,穿着长袖的蓝白细格子衫,人非常nice、很健谈、也很好说话。mSWednc

但。是。mSWednc

请不要误以为眼前只是某位面相清秀的普通理工科男生,这可是一个实打实的学术大牛。从小一路直升,高三直接保送进清华,进入电子系后大一就进了实验室(理工科的同学大概可以理解这有多么厉害),本科阶段不仅在斯坦佛访问、微软亚洲研究院实习、开发项目、发表论文、差不多就是把别人本硕博的事情一起做完了……此外,姚颂还担任过电子系科协主席,主办过电设等一系列科创赛事——也正是因为主席的位置十分类似公司的CEO,因此姚颂在大三时就有了个外号:“姚老板”。mSWednc

而深鉴科技的另外几位联合创始人与合伙人则更是卧虎藏龙。mSWednc

012ednc20170428
(左到右:单羿,汪玉,姚颂,韩松)mSWednc

汪玉——也就是姚颂口中提到的“汪老师”,姚颂在大一时进的就是汪老师实验室——清华电子系98级毕业生,现任清华大学电子工程系副教授、党委副书记。从2006年开始研究FPGA,现在是ACM FPGA技术委员会亚太地区的唯一成员。mSWednc

CTO单羿,清华电子系博士,04级本科,曾在地平线机器人担任FPGA技术负责人、在百度深度学习研究院担任高级工程师。mSWednc

首席科学家韩松,清华电子系08级本科,斯坦佛博士在读。韩松也就是我们上文提到的最佳论文奖获得者,其研发的“深度压缩(Deep Compression)”的技术,它不仅可以将神经网络压缩数十倍而不影响准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。mSWednc

“我是里面年纪最小的一个,11级的。”“姚老板”说完这话,低头笑了笑。mSWednc

现在深鉴科技整个团队有70人,其中将近一半都是清华出身,而且放眼望去……..几乎全部都是男生。这家在2016年3月3日正式成立的公司,在刚成立一个月就拿到了金沙江创投与高榕资本的500万美元天使轮融资,今年年初更是敲定了数千万美元的A轮融资,投资方包括了FPGA的开山鼻祖——赛灵思(Xilinx)。mSWednc

二、从GPU到FPGA,风起云涌的深度学习

人工智能的火热已然有目共睹,从如雨后春笋般增长融资的各类AI创企、国内外无数巨头高调进军加码、再到“人工智能”被写入我国政府工作报告等诸多新闻中皆可见一斑。其实人工智能的概念早已有之,为什么近年如此火热呢?mSWednc

姚颂认为,深度学习和以往的人工智能不一样,不仅已经能够在某些领域超过了人类,而且原来人脸识别、微表情、医疗、SLAM等都有专家,每个领域的专家不能复用,但现在深度学习的AI框架可以把所有领域都囊括进去,对于硬件加速很友好,应用范围很广。mSWednc

然而说起深度学习,大家最联想到的还是GPU——五六年前,跑机器学习算法主要用的还是CPU,CPU通用性好,硬件框架已经很成熟,非常友好。然而,随着机器学习及深度学习的运算量越来越大,CPU已经不能满足人们的需求,人们进而把眼光转向了GPU。mSWednc

GPU不仅有更强大的并行处理能力,还有更加强大的控制数据流和储存数据的能力,因此可以令神经网络训练的速度提升10-20倍,从而能够将原本要数周甚至几月的训练时间缩短至数天。深度学习分为训练(Training)和应用(Inference)两部分,尤其是在训练阶段,其所需的数据计算之大,远不是曾经CPU时代的人们敢于去想象的。mSWednc

这对专注于GPU生产的英伟达来说,确实是一个好消息,英伟达在去年的股价飙升也证明了这一点。然而这消息对于全世界最大的CPU制造商英特尔来说,就没那么友好了——不过,做不好我们可以买呀,2015年12月29日,踩着2015的尾巴与2016的前头,英特尔宣布以167亿美元全资收购FPGA/CPLD公司阿尔特拉(Altera),至于阿尔特拉和前文提到的塞灵思(Xilinx)的关系嘛,大概就像是肯德基和麦当劳。mSWednc

咦?不是说好的GPU吗?为什么聊起了FPGA?mSWednc

FPGA(Field Programmable Gate Array)全称“可编程门阵列”,是作为专用集成电路领域中的一种半定制电路而出现的,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。mSWednc

013ednc20170428
(赛灵思推出的UltraScale架构FPGA)mSWednc

简单来说, FPGA的“可编程”指的是可以用户通过重新配置逻辑资源来不停尝试,通过编辑不同的配置文件把同一个FPGA进行不同属性的设置,直到获得最佳方案,非常灵活。而深度学习作为一门尚在发展中的技术,FPGA的这种灵活、可编程、允许试错的特性对它来说是非常友好的,这是第一点。mSWednc

除了灵活性外,第二点则是功耗。一块GPU的功耗动辄100W、200W,功耗巨大。虽然英伟达也推出了面向嵌入端的GPU设备(比如Jetson TX2系列,其标准功耗为7.5W/15W),但对于无人机、安防摄像头这种功耗敏感型的硬件端来说则仍旧会存在功耗过大、发热、过度影响电池续航等问题,而功耗能做到3W、4W的FPGA此处优势凸显。mSWednc

第三点则是延迟问题,虽然GPU的运行速度比FPGA快,但是GPU的高性能来自于它的并行处理能力,训练时效果很好,但在应用时一次性只能处理一张输入图像,优势不能完全发挥,造成延时。mSWednc

不过,GPU由于峰值计算性能高、内存接口带宽高等优势,依旧是目前深度学习训练阶段的最佳选择。但在应用方面,FPGA的灵活、低功耗、而且价格相对低廉等优势开始凸显。目前国内外不少大公司开始逐渐注意到维护、采购、散热、内部损耗成本等问题,开始逐渐将FPGA引入自己的系统内,比如去年亚马逊和赛灵思合作,推出了基于FPGA的亚马逊云服务、百度大脑使用了基于FPGA版的AI专有芯片、腾讯云也发布FPGA云服务器等等,市场接受度正在不断提升。mSWednc

三、产品落地:DPU与深度压缩

虽然FPGA有种种好处,但是也存在一个大问题,那就是开发难度。由于传统FPGA开发需要使用硬件描述语言(Verilog或VHDL)而不是传统的计算机语言(比如C语言),程序员需要在FPGA公司提供的编译器基础上进行二次开发,造成了开发难度大、开发周期长(一般需要3-6个月)等问题,所以很多公司不愿意使用它。mSWednc

深鉴相当于给这些不愿意直接使用FPGA的厂商提供了一个带接口的黑盒子,厂商把自己的算法模型训练好之后,将模型与数据通过接口传入,由深鉴科技进行压缩和编译,生成的指令可以在FPGA上运行,厂商直接得到需要的输出结果。mSWednc

为此,深鉴科技提出了“DPU”这一概念,DPU(Deep Learning Processing Unit,深度学习处理单元),相当于把压缩、编译、执行的整个“黑盒子”过程具象化,最后的落地形态是一块板卡。mSWednc

014ednc20170428mSWednc

015ednc20170428
(上:亚里士多德板,用于嵌入端。下:笛卡尔版,用于大数据端)mSWednc

其中压缩的这一环节尤为值得一提,由于跟GPU相比,FPGA在带宽上存在一定劣势。而深鉴科技的联合创始人兼首席科学家韩松(对,就是FPGA 2017、ICLR 2016等大会上拿奖拿到手软那个韩松)正在研究“深度压缩”(Deep Compression)技术,他的获奖论文中解释了如何利用深度压缩将神经网络压缩数十倍而不影响准确度,从而降低计算复杂度、存储空间、以及带宽对其的限制。mSWednc

姚颂还告诉笔者,每套DPU并不需要根据不同公司而定制不同的板卡,只要是同类应用都可以复用。“比如公司A想要做车牌(识别),公司B想要做人脸(识别),这些公司只需要自己换不同的算法模型接入就行,DPU可以复用。”mSWednc

016ednc20170428
(搭载有深鉴板卡的无人机)mSWednc

目前,深鉴科技的合作伙伴主要集中在无人机、安防、数据中心这三个领域,代表企业分别是无人机厂商零度智控、上市公司东方网力、以及搜狗。比如在零度智控的无人机中载入板卡,为其提供人脸识别、跟随、手势照相等功能,功耗只有3W,不会对电力续航产生太大的影响。如安防摄像头等的其他嵌入式端也是3W的功耗,数据中心应用的功耗则只有30-40W。公司下一步的拓展目标包括产品的平台化与标准化、推进与其他大互联网公司合作等,进一步推进产品成熟化。mSWednc

四、“神人”云集

这里的“神人”值得不是学术大神——当然,办公室里放眼望去,各类编程代码高手云集,学术能力自然不必说了——这里的“神人”值的是那些特别有趣的人。mSWednc

深鉴科技的整个公司氛围有点像硅谷,气氛和环境比较轻松,但工作节奏比硅谷紧凑多了——毕竟身处五道口。公司里的学术大神不少,体育大神也特别多。不仅有足球、篮球、羽毛球三个球队,其中还有一个曾在国安青年俱乐部的足球大拿,跟所有人踢起来都不是一个量级的……mSWednc

再比如另外一位研发总监,搞起研发来还是特别扛得住。之前在搞一个FPGA的项目时,刚好碰上他孩子刚出生。于是当时就看见他坐在客厅里,一边抱着娃,一边写代码。mSWednc

可以,这很Work Hard, Play Hard。mSWednc

姚颂本人自然是“神人”之一。按他的讲法,“我自己比较躁动,比较喜欢新方式。”除了学术之外,社工、运动、音乐什么的,“都玩一点”。本科毕业后,姚颂获得了美国卡内基梅隆大学(CMU)的博士offer,还伴有每年高额的学术奖金,但姚颂拒绝了。一开始时父母当然不同意,最后还是汪玉老师亲自出马才说服了姚爸姚妈。mSWednc

不知道是不是口头禅,在整个采访过程中,姚颂经常说的一句话是——“这是一件非常好玩的事情”,恍惚间给人一种错觉,像是深度学习、FPGA、神经网络等等知识理论其实一点都不复杂,运营一间几十近百人、估值过10亿的技术公司也似乎轻而易举。mSWednc

结语:科学技术是第一生产力

当智东西问到“创业过程中最大的感触是什么?”时,姚颂说,最大的感触是,“一项理论从技术、到产品、到市场、最后收入,每一步都是非常重大的。”在一个商业产品中,纯理论的技术部分可能只占的30%,后续的产品研发、商业落地。因此对于学术能力较强的团队而言,如何掌控学术与商业的平和,为市场带来有价值实战产品,是需要认真思考的问题。mSWednc

但话说回来,在人工智能领域,技术依旧是如今的第一生产力。云集了重多技术大拿的深鉴科技能够在成立的这短短一年多里推出产品、与厂商达成合作、并且顺利拿到融资并获得高估值,成绩单还是十分亮眼的。随着深度学习的发展,国内外的各大企业也在逐渐拥抱FPGA,在这样的浪潮下,深鉴科技专注于深度学习应用落地,瞄准FPGA的开发难这一痛点,前景值得期待。mSWednc

在此之前,FPGA最大的应用在通信领域,开始被用在深度学习还是近年的事情。跟CPU、GPU这类已经经历过多年市场验证的产品不同,一方面FPGA还算是一个较为小众的市场,哪怕是巨头赛灵思,其市值也只在150亿美元左右(截至发稿,英伟达市值约570亿美元),推进产业接受仍需要时间;另一方面FPGA仍旧是一个对人力资源要求较高的技术,在公司未来的扩张过程中,如何更好地招揽FPGA人才、人力成本是否会进一步增加,也是可能面临的挑战之一。mSWednc

(来源:智东西)mSWednc

20160630000123mSWednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了