据EDN电子技术设计报道,英特尔日前在Hot Chips 2023 上首次公布了有关其未来 144 核 Xeon Sierra Forest 和 Granite Rapids 处理器的详细信息。据介绍,前者由英特尔全新 Sierra Glen E核心组成,后者则使用全新Redwood Cove P核心。
即将推出的新一代Xeon芯片将于明年上半年推出,采用全新的平铺式架构,在“Intel 7”工艺上采用双I/O小芯片,并在“Intel 3”工艺上蚀刻不同配置的计算核心。这种设计使英特尔能够在保持相同底层配置的同时,基于不同类型的核心制作多种产品。
英特尔在 Sapphire Rapids 中采用了四芯片设计,每个芯片都包含一部分相关 I/O 功能,例如内存和 PCIe 控制器。新处理器将一些 I/O 功能完全分解为两个独立的 HSIO 小芯片,这些小芯片蚀刻在 Intel 7 工艺上,从而为 I/O 提供成本、功耗和性能的最佳平衡,而 CPU 内核和内存控制器则独立存在专用计算小芯片。
与此同时,Sierra Forest的E-core(效率核心)阵容由只有较小效率核心的芯片组成,e核被安排在两核或四核集群中,这些集群共享4MB的L2缓存片和3MB的L3缓存。配备e- core的处理器拥有多达144个内核,并针对最高的功率效率、面积效率和性能密度进行了优化。对于高核数模型,每个e核计算芯片拥有48个核。Sierra Forest可以插入单插座和双插座系统,TDP低至200W。
无论内核类型如何,每个计算模块都包含内核、L2和L3缓存以及fabric和缓存主代理(CHA)。它们还在芯片的两端安装了DDR5-6400内存控制器,总共有多达12个通道(1DPC或2DPC)的标准DDR内存,或提供比标准dimm多30-40%内存带宽的新MCR内存。
英特尔还将改变每个计算芯片的内存通道数量——这里我们看到一个计算芯片上有三个内存控制器,而两个或更多计算芯片的设计每个有两个内存控制器。英特尔决定将其内存控制器紧密集成到计算芯片中,与AMD的EPYC设计相比,在某些工作负载下,英特尔的内存性能应该会更好。AMD的EPYC设计在一个中央I/O芯片上使用了所有内存控制器,从而增加了延迟。
计算模块与所有其他内核共享L3缓存,英特尔将其称为“逻辑单片网格”,但它们也可以划分为sub-NUMA集群,以优化某些工作负载的延迟。网格将L3缓存片连接在一起,形成一个统一的共享缓存,总容量超过0.5 gb,几乎是Sapphire Rapids的5倍。每个模具边界支持超过TB/s的带宽之间的模具。
结合起来,两个HSIO芯片支持多达136个PCIe 5.0/CXL 2.0通道(类型1,2和3设备),多达6个UPI链路(144通道),以及类似于Sapphire Rapids加速引擎的压缩,加密和数据流加速器。每个HSIO芯片还包括管理计算芯片的电源控制电路,尽管每个计算芯片也有自己的电源控制,可以在需要时独立运行。英特尔现在已经取消了对芯片组(PCH)的要求,从而允许处理器自动启动,就像AMD的EPYC处理器一样。
Sierra Glen微架构针对标量吞吐量工作负载(如横向扩展、云原生和容器化环境)的最佳效率进行了优化。该架构具有两核或四核集群,允许英特尔提供具有更高每核二级缓存容量和更高每核性能的某些型号(通过双核模块更高的功率传输)。每个核心集群驻留在相同的时钟和电压域中。E-core集群共享4MB的L2缓存片和3MB的共享L3缓存。
与前几代一样,每个E-core都是单线程的。英特尔还将L1缓存增加了一倍,达到64KB,并采用了一个6宽解码引擎(双3宽解码引擎可以改善延迟和功耗)、5宽分配和8-wide retire。Sierra Glen内核不支持AMX或AVX-512,而是依赖于AVX10,但英特尔确实增加了对BF16, FP16, AVX-IFMA和AVX-DOT-PROD-INT8的支持。
P核的Redwood Cove架构现在支持带有FP16加速的AMX,这是一个关键的补充,将提高AI推理工作负载的性能。英特尔还将L1指令缓存容量增加了一倍,达到64 KB,以更好地处理代码繁重的数据中心工作负载。Redwood Cove还采用了软件优化的预取和增强的分支预测引擎和错误恢复。英特尔还提高了浮点运算的性能,从4周期和5周期的FP操作提高到3周期,从而提高了IPC。
英特尔表示Sierra Forest将于2024年上半年上市,Granite Rapids紧随其后。