“网络通信未来的发展核心,已经变成云服务或者云脑,鹏城云脑将是今后网络通信领域一个非常重要的支撑。” CITE2021开幕论坛上,中国工程院院士、鹏城实验室主任高文指出。
高文院士分享了“云脑”的概念,并介绍了鹏城云脑这个重大的基础设施的建设情况,分享了其在网络通信领域的作用以及对人工智能发展的促进。
第一代鹏城云脑已于2019年完成,基于英伟达的芯片,其定位是模型训练专用高规格算力平台。
已支持深圳CDC、深圳交警局等部门,华为、华大基因、云天励飞、旷视等企业及北大、清华、深圳大学、加拿大滑铁卢大学、德国莱布尼兹超算中心等团队的高规格AI训练任务。
第二代鹏城云脑正在建设中,其定位是基于国产芯片的、国际先进的智能超级算力平台。
第二代鹏城云脑,从2020年3月编制项目建议书开始,2020年10月15日启动试运行,包括立项、可研、初设、优化、建设、开机试运行,9个月时间就做出来了。
“9个月42亿人民币做出这台设备,这在任何地方想都不要想。”高文院士指出。
而且,鹏程云脑Ⅱ完全采用华为架构,用了华为的鲲鹏920和昇腾910机器做出来的,其中910是用了4096颗,鲲鹏920是用了2048颗,实际上已经到了1024p浮点算力,在很多性能方面超越同期国际上比较好的GPU运算速度。
第二代鹏城云脑中每4颗AI处理器昇腾910构成一个AI服务器,故有1024个AI服务器;每256个AI服务器构成一个集群,故有4个集群架构,4个集群之间使用全互联高速网络,采用完全统一的架构,是目前全球做人工智能训练最强的一台机器。
据介绍,鹏城云脑从源头创新方面赋能应用,支持龙头企业前瞻技术研发,引领中小微企业技术产品研发。
为了将由鹏城云脑架构起来的生态环境做得更好,鹏城实验室已经成功组织了面向全球的人工智能大赛,从今年第三届大赛开始,希望都在鹏城云脑上跑比赛。
迅速增长的数据量要求算力增长,超算是国际间竞争的一个重要方面。
“但是有了超算还不能解决所有问题。超算解决科学计算问题,它对精度和速度要求较高,除此之外,还需要对智能的特别支持。如果用超算做人工智能的服务,效率可能仅为AI服务器的二百分之一,即‘大马拉小车’,产生巨大的浪费。”高文表示。所以,为云服务建的云设施——云脑应运而生。
图:鹏程云脑规划。
“数据不断增长,算力也需要跟上。事实上,现在数据与处理能力呈现越来越大的‘剪刀差’,急需超高计算密度、超大规模算力的智能平台,”高文表示,“鹏城云脑旨在提供云服务处理这些数据。”
现在,人工智能计算和超算两个技术发展路线在各自向对方的方向切入,最终可能会慢慢往一起融合。业界需要为平衡两个方向互相切入中遇到的问题,找到一个很好的解决方法。
鹏城实验室正在利用鹏城云脑进行这一探索。