广告

采用全球最大AI芯片,Lassen超算系统集成Cerebras 1.2万亿晶体管

2020-08-21 10:26:32 阅读:
劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory,LLNL)今天表示,已经将美国国家核安全局(National Nuclear Security Administration)的Lassen超级计算机与1.2万亿芯片进行了集成。

劳伦斯·利弗莫尔国家实验室(LLNL)和AI公司Cerebras Systems今天宣布,将1.2万亿塞雷布拉斯的晶圆级引擎(WSE)芯片集成到国家核安全局(NNSA)的23 petaflop拉森超级计算机中。拉森的仿真能力与Cerebras的机器学习计算系统,以及容纳该芯片的CS-1加速器系统的结合,使LLNL“成为第一家将AI平台与大型超级计算机集成在一起并创建全新类型的架构"。EARednc

超算Lassen

EARednc

此次集成意味着Lassen系统(如图所示)成为全球第一台将人工智能技术与高性能计算建模和仿真功能相结合的超级计算机。EARednc

劳伦斯利弗莫尔国家实验室表示,该系统旨在实现所谓的“认知模拟”,让研究人员可以研究用于预测建模的创新方法。该计划有几个目标,包括协助在美国国家点火设施进行融合内爆实验、材料科学、以及通过“医学治疗研发计划”快速开发用于治疗新冠病毒和癌症的新药。EARednc

Lassen超级计算机是目前全球排名第14的超级计算机,每秒浮点运算性能超过23 petaflops。劳伦斯利弗莫尔国家实验室表示,该系统已经集成了Cerebras Systems的CS-1加速器硬件系统,后者基于Wafer Scale Engine专用AI芯片,尺寸是标准数据中心GPU的57倍,封装了1.2万亿多个晶体管。EARednc

EARednc

去年Cerebras宣布,配置了40万个处理核心的WSE芯片已经针对AI工作负载进行了优化,配备18 GB高速板载内存。EARednc

该项目得到了美国国家核安全局(NNSA)的高级仿真和计算计划的资助,在该计划下,这款增强的系统将在未来十年内用于加速美国能源部和美国国家安全任务的一系列应用。EARednc

劳伦斯利弗莫尔国家实验室首席技术官Bronis R. de Supinski表示,该计划是在对计算提出了更高需求的情况下孕育而生的。由于计算需求已经远远超过了摩尔定律(根据摩尔定律,芯片上的晶体管密度每两年翻一番),因此已经无法通过常规手段提升计算性能了。EARednc

他说:“认知仿真是一种可以推动容量呈现指数级持续提升的方法,而像Cerebras CS-1这样系统级的异构方法,是实现这一提升的一个重要组成部分。”EARednc

研究人员通过这种方法探索一种所谓“异构性”的新概念,在这个概念下,超级计算机的不同元素负责某个特定工作负载的不同方面。根据De Supinski的说法,这样就可以运行数据生成和纠错之类的操作,从而为各种科学问题提供了一种更高效、更具成本效益的解决方案。EARednc

劳伦斯利弗莫尔国家实验室计算机科学家Ian Karlin表示:“异构的系统让我们能够确定,我们所使用的应用,其不同组成部分是可以同时执行各种任务的。对于我们的认知模拟工作负载来说,我们将在Cerebras硬件上运行机器学习负载,在GPU上运行高性能计算模拟负载,从而缩短了生成解决方案的时间。”EARednc

这意味着,研究人员可以跳过工作流程中很多不必要的处理,加速深度学习神经网络,最大程度上减少了将某些问题“切片和切成小块”的需要。EARednc

劳伦斯利弗莫尔国家实验室计算机科学家Brian Van Essen表示:“我们可以在更短的计算时间内进行科学探索,也可以在科学不确定性更高的领域进行更深入的研究,在有了更多计算时间的同时,得到更好的答案。”EARednc

Van Essen正在领导一个研究小组,该小组选择在CS-1系统上运行两种AI模型,初步工作重点是从多达50亿张模拟激光内爆图像中进行学习,优化用于国家点火装置实验的聚变目标,最终实现高能量输出,以及更强大的核武器储备管理应用聚变内爆。EARednc

与此同时,劳伦斯利弗莫尔国家实验室和Cerebras将合作建立一个人工智能卓越中心(Artificial Intelligence Center of Excellence),旨在确定认知模拟的最佳参数,这项研究可能会促使劳伦斯利弗莫尔国家实验室向Lassen及其他超级计算机平台中配置更多的CS-1。EARednc

作为该中心的负责人,Van Essen表示:“我是一名受过培训的计算机架构师,因此有机会构建这样的系统,并成为大规模部署这些系统的第一人,令人非常兴奋。将其集成并耦合到像Lassen这样的系统中,给我们提供了一个独有的机会,让我们能够率先去探索这种框架。”EARednc

简单粗暴的产品逻辑

去年EDN电子技术设计姐妹媒体《电子工程专辑》也报道指出,开发出 WSE 系列 AI 芯片的 Cerebras Systems 是一家2016年才成立的新创 AI 芯片公司。公司资历不长,但是却经历了三轮融资,分别是2016年5月份的2700万美元的A轮融资,2017年1月2500万美元的B轮融资,随后不到一年时间里,Cerebras Systems再次融资6000万美元,彼时估值达到8.6亿美元。EARednc

因为人工智能产业也恰巧在那个时候开始盛行,Cerebras Systems也因此被许多人看好。而这家公司发展产品的逻辑不同于其他AI芯片公司,就是奉行一个路子:“简单,粗暴”。为了满足 AI 计算的高性能需求,放弃其他厂商芯片越小越好的思维,以尽可能生产大面积芯片为主。由于面积越大的芯片,其中能整合越多的核心与晶体管,其相对计算效能也越强,但同时也提升了生产成本。EARednc

2019 年 11 月份,该公司正式推出了 WSE 系列芯片的第一代,采用台积电 16 纳米工艺,并以整个 12 吋晶圆来打造一个庞大的 AI 芯片。所以,WSE 系列芯片的第一代就整合了40 万个 AI 核心,1.2 万亿个晶体管,面积也高达 4.6 万平方毫米。EARednc

当时其性能之强大,让其他以大著称的芯片甘拜下风。EARednc

比如英伟达的GV100芯片号称最强GPU,211亿晶体管,核心面积815平方毫米,而WSE芯片晶体管数量是GV100的60倍,面积则是它的56倍多。WSE与当时的CPU芯片相比同样震撼,AMD 64核EPYC二代处理器才320亿晶体管,封装总面积也不过4410平方毫米,光是核心面积WSE就是EPYC二代处理器的10倍有余。EARednc

从性能上来看,WES芯片带宽超过100Pb/s,一般的计算芯片以Tb/s级别的单位都难以跟起比较。EARednc

除了贵,都挺好的

在关于WSE介绍的白皮书中,有这么一句话——“通过加速人工智能计算,WSE清除了阻碍人工智能进步的最大路障——时间。将训练时间从几个月缩减为几分钟,从几周减少到几秒。让深度学习实践者更快的验证自己的假设,从而不用去担心一些体系机构导致无法测试或者太大风险。WSE降低了好奇心的成本,加速了人工智能新思想和新技术的到来。”EARednc

虽然 堪称芯片工艺史上的一大“奇迹”的WSE 芯片第一代之后被顺利生产出来,但是其造价不斐,可以想见的是会采购的单位或企业更是少之又少。最后,还是美国劳伦斯利福摩尔国家实验室(LLNL)把WSE集成到美国国家核安全管理局的拉森超级计算机中,再由美国政府旗下的美国国家科学基金会(NSF)出手相助,购买了两套以 WSE芯片为主的超级计算机CS-1,总价约 500 万美元。EARednc

EARednc

第一代的WSE(有一套电力传输和冷却系统)EARednc

从整机价格推算,每片 WSE芯片的价格约为 200 万美元(约合人民币1384万元),Cerebras创始人兼CEO 安德鲁 · 费尔德曼(Andrew Feldman)也曾透露称这种巨无霸芯片及系统的售价在几百万美元级别。EARednc

Cerebras Systems公司透露,这款WSE芯片,他们已经接到了十几片的订单。EARednc

EARednc

Cerebras Systems的联合创始人兼首席执行官安德鲁 · 费尔德曼(Andrew Feldman)EARednc

二代产品晶体管数翻倍

WSE 系列芯片第一代采用的是台积电 16 纳米工艺,现在新一代产品也问世。在日前举办的年度半导体盛会Hot Chips 2020 大会上,WSE2 AI 芯片正式发布。该公司表示,已经在实验室中运行了新款芯片。EARednc

虽然具体细节还没公布,但受到晶圆尺寸的限制,会与第一代采用相同的芯片面积。但是因为采用了新一代的台积电 7 纳米工艺,AI 核心数翻倍成长到了 85 万个,而晶体管数量更是一口气增加至 2.6 万亿个,相比之前的规格增加了一倍有余,相信价格也会随之提高。EARednc

EARednc

此外,预计该公司还将增加芯片内置的内存容量并加强芯片互连速率,以提高芯片内数据传输的带宽。去年的第一代芯片具有9PB/s的内存带宽,并且这样一个芯片的TDP为15KW。EARednc

目前 7 纳米工艺的最大芯片是英伟达(NVIDIA) 的 GA100 GPU,芯片面积达到 826 平方毫米,拥有 540 亿个晶体管。比较之下,Cerebras Systems 新发布的 WSE2 AI 芯片无论从晶体管数,还是芯片面积都是庞然大物,预计售价也会非常高昂。EARednc

EARednc

WSE芯片尺寸达到了46225平方毫米,比最大的GPU核心要大56倍EARednc

晶圆级晶片除了像Cerebras这样制作计算芯片的应用外,也有应用于存储方面的研究。铠侠(前东芝存储)正在进行的新研究就是——通过跳过传统闪存和SSD制造方法过程中所有切割,组装,封装等操作,直接生产晶圆级的SSD ,这样可以极大地降低制造成本和交货时间,并且得到高性能的大量数据存储解决方案。EARednc

不过虽然铠侠提出了“晶圆级固态硬盘”的概念,但是还处在早期开发阶段,距离实际上市和应用还很早。目前受瞩目的晶圆级晶片还是Cerebras WSE,而关于第二代Cerebras WSE的更多信息,还是得到该公司宣布最终产品时才能知道。EARednc

 EARednc

本文综合自Technews、超能网、电子工程专辑EARednc

责编:ChalleyEARednc

  • Van Essen正在领导一个研究小组,该小组选择在CS-1系统上运行两种AI模型,初步工作重点是从多达50亿张模拟激光内爆图像中进行学习,优化用于国家点火装置实验的聚变目标,最终实现高能量输出,以及更强大的核武器储备管理应用聚变内爆。

    除了贵,都挺好的
    在关于WSE介绍的白皮书中,有这么一句话——“通过加速人工智能计算,WSE清除了阻碍人工智能进步的最大路障——时间。将训练时间从几个月缩减为几分钟,从几周减少到几秒。让深度学习实践者更快的验证自己的假设,从而不用去担心一些体系机构导致无法测试或者太大风险。WSE降低了好奇心的成本,加速了人工智能新思想和新技术的到来。”
    虽然 堪称芯片工艺史上的一大“奇迹”的WSE 芯片第一代之后被顺利生产出来,但是其造价不斐,可以想见的是会采购的单位或企业更是少之又少。最后,还是美国劳伦斯利福摩尔国家实验室(LLNL)把WSE集成到美国国家核安全管理局的拉森超级计算机中,再由美国政府旗下的美国国家科学基金会(NSF)(美国科学家都是国家发工资吗?)出手相助,购买了两套以 WSE芯片为主的超级计算机CS-1,总价约 500 万美元。

    这是简单,粗暴吗?
    个人觉得是简单,科学
  • 想问一下,国内非美国技术的芯片,可以做到多少纳米。手机是否也可以这样设计,整个手机主板作为基板,把手机所有的功能都集成在一起,不要分成不同的芯片。整个手机主板就是一个大大的IC。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 将锂金属电池寿命提高750%,竟然只需要“水”? 随着新能源汽车、移动设备等领域的快速发展,高性能电池的需求日益旺盛,锂金属作为新一代阳极材料,因具有高能量密度、轻量化等优点,备受关注。然而,锂金属电池所存在的寿命短、易起火或爆炸等问题,限制了其广泛的商业应用···
  • 按下ON还是按住OFF,将这种开关电路升级到交流电 2024年10月14日,Nick Cornford发布了一个名为“按下去再按上来,这种开关有哪些门道?”的设计实例(DI)。对于直流电压来说,这是一个非常有趣的DI,但对于交流电压呢?
  • 协同创新,助汽车行业迈向电气化、自动化和互联化的未来 汽车行业正处在电动化和智能化的转型过程中,而半导体企业站在这一变革的最前沿。这一转型带来了重大发展机遇,也带来了诸多挑战,需要颠覆性的技术以及更短的开发周期。加强半导体制造商、一级供应商和汽车制造商之间的合作,对于应对这些复杂情况及推动行业迈向电气化、自动化和互联化的未来至关重要···
  • 将单电源单端输入改成伪A/B类差分输出放大器 该放大器采用Barrie Gilbert的微混频器拓扑结构可将单端输入转换为单电源A/B类电流输出···
  • 加强低功耗FPGA的领先地位 在快速发展的技术领域,从以云端为中心到以网络边缘为中心的创新转变正在重塑数据的处理和利用方式···
  • 打造下一代家用机器人:精心构建智能化、集成化和电源优 ​​​​​​​今天的家用机器人不仅仅是工具,它们已经成为人们的生活伙伴,为日常生活增添了便利性和互动性。设计这些结构紧凑、功能强大的机器需要克服连接性、电源和外形尺寸等方面的严峻挑战,每一次突破都使我们更接近全面集成的智能家居体验···
  • 用LM337改造,让PWM DAC获得1.5 A输出能力 DAC是一种低功耗设备,其功率和电流输出能力仅限于毫瓦和毫安范围。当然,从根本上讲,它们没有理由不与合适的功率输出级配合使用,这确实也是常见的实际做法。不过,为了好玩,这个设计实例采用了不同的供电方式···
  • 意法半导体:让可持续世界从概念变为现实 最近,意法半导体人力资源和企业社会责任总裁Rajita D’Souza分享了意法半导体的可持续发展战略和近期工作重点···
  • 如何制作双变频的航空波段接收机? 随着互联网的发展,中波和短波频段的接收机已成为过去式,更不用说长波了。不过也许在无线电领域中最有趣的活动之一就是收听服务发射机,对于我这个与航空相关的人来说,主要指的是飞机的发射机和空中交通管制塔···
  • 用4200A和矩阵开关搭建自动智能的可靠性评估平台 在现代ULSI电路中沟道热载流子(CHC)诱导的退化是一个重要的与可靠性相关的问题···
  • 新一代MCU向着边缘AI和实时控制发展 在工业和汽车领域,电机驱动和数字电源转换是典型的实时控制系统,要求处理器具有高实时性和强大的数学计算与处理能力。这些应用需要优质的ADC和PWM功能,并通过联动机制,形成高效、有机的实时控制系统。
  • 英特尔Ultra处理器,用普通内存也能超频到10000 MT/s+? 目前内存超频的世界记录是12666MT/s,而想要达成这样的频率不光需要降低CPU频率,还需要辅助液氮等特殊的冷却方案,对内存进行降温。但已有主板可以在没有特殊冷却方案的情况下,超频到10000 MT/s以上···
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了