
AI新时代的Intel至强6:云端、本地双飞跃!

过去三年,随着问答式AI、生成式AI、智能体AI的风潮一浪高过一浪,整个科技行业都在被重塑,尤其是数据中心,这一根基深厚且规模庞大的市场,正经历前所未有的变革。
AI时代的数据中心,不但在算力上呈现井喷式爆发,新的需求也在不断出现、演变。
比如利用加速硬件和开放标准软件满足高算力需求,比如对高吞吐量和低时延都有了明确的要求,比如稳定性、可靠性、兼容性方面的更苛刻要求。
更突出的矛盾就是数据中心耗电量的急剧攀升,预计到2026年全球数据中心能消耗德国一年的用电量,这就对计算基础设施的能效和TCO成本有了明确的要求,可持续发展变得前所未有的重要。
在AI数据中心,不但需要高性能的GPU加速器,始终居于中枢位置的CPU处理器,也在新形势下呈现出了全新的面貌。
【AI时代的至强6:性能再次飞跃】
Intel全新的至强6家族,从硬件设计到技术特性都充分考虑了AI数据中心的全新需求。
至强6在家族历史上首次兵分两路:其中至强6900E/6700E系列采用E核能效核,至强6900P/6700P/6500P/6300P系列则采用P核性能核。
至强6900系列作为旗舰,可提供最多288个能效核(216MB三级缓存)或者128个性能核(504MB三级缓存),支持12个内存通道、96条PCIe 5.0/CXL 2.0通道、6条UPI 2.0链路。
至强6700/6500系列定位主流,可提供最多144个能效核或者86个性能核,支持8个内存通道、88条PCIe 5.0/CXL 2.0通道、6条UPI 2.0链路。
如此丰富的SKU产品组合,可以灵活匹配不同类型的AI加速系统,精准满足客户的不同需求。
技术方面,至强6系列支持高达6400MT/s的DDR5内存,相对于上一代,带宽提升1.7倍,还首发支持全新的MRDIMM内存。
至强6900系列提供多达12条内存通道,内存也高达8800MT/s,带宽因此大幅提升2.3倍,可以更好地满足AI等领域的大带宽需求。
PCIe 5.0带来了更高的I/O带宽,提升最多1.2倍;UPI 2.0带来了更高的多路并行带宽,最高提升1.8倍;支持CXL 2.0,可以进一步拓展内存容量和带宽。
另外,过去几代至强陆续集成了多种适配不同业务的IP加速器,包括QAT数据保护与压缩加速器、DSA数据流加速器、IAA存内分析加速器、DLB动态负载均衡加速器等等,都在至强6上进一步发扬光大。
比如QAT,压缩解压时相当于大约6.8个CPU核心,而至强6内置4个QAT,可以卸载24-32个CPU核心的计算能力。
另外,AMX高级矩阵扩展加速器作为集成在CPU内部的AI加速器,可以大幅提升CPU的AI处理能力。
得益于AMX的加持,至强6 128核心的INT8整数算力可达512 TOPS,BF16/FP16浮点算力也有256 TOPS,分别是传统AVX-512指令下的8倍、16倍。
在多种工作负载中,尤其是AI负载,至强6系列都可以带来显著的性能提升,同时保持类似甚至更低的功耗,可以说能效取得了极大的进步。
在通用计算、Web服务、科学计算、AI等不同领域,至强6900P系列相比上代至强铂金8592+的性能提升普遍超过2倍,同时每瓦性能普遍提升了1.4倍以上。
有趣的是,无论性能还是能效,提升最大的都恰好出现在AI领域,比如Llama2-7B摘要生成(bf16格式),至强6900P系列的性能可提升超过3倍,每瓦性能也提升超过2倍。
如果同样都是64核心,至强6700P系列对比上代至强铂金8592+,可以实现全场景20%上下的性能领先,而功耗基本相同甚至还更低一些。
至强6700P系列最多有86个核心,对比上代核心更多,但功耗并未增加,而性能可以大幅提升40-50%。
对于云计算应用,至强6系列同样是上佳之选,可以有效提升性能与能效,并显著降低成本。
对比五代至强,至强6系列在云计算领域可以实现2倍的核心密度提升、20%的单核性能提升、60%的能耗比提升,最终带来30%的代际TCO成本收益。
事实上,至强6系列还是AI加速系统中主控CPU的不二之选,这方面Intel与NVIDIA也一直有着深度合作。
通过双方的共同努力,至强6系列已经完美适配NVIDIA MGX、HGX AI加速系统的要求,它们可以灵活配备1/2个CPU、4/8/16个GPU,其中CPU可选32核心的至强6737P、64核心的至强6761P/6767P、72核心的至强6960P(可配置为48核心以提升频率)。
最新款的NVIDIA DGX B300系统,更是独家选择了双路64核心的至强6776P作为主控CPU,它和72核心的至强6962P、64核心的至强6774P一样,都是Intel特别为AI加速系统主控CPU设计的专属型号。
当然,至强6系列的其他型号同样可用于AI加速系统,包括能效核系列。
【火山引擎第四代ECS实例:全面展现至强6 AI实力】
正是凭借这一系列的独特优势,至强6系列不但是传统数据中心的上佳之选,更是AI加速系统的最优解,得到了大量客户的积极采纳。
比如火山引擎与Intel密切合作,推出了配备至强6性能核处理器的第四代弹性计算实例(ECS)家族,搭配火山引擎自研DPU、自研服务器,取得了全方位提升,为高速增长的AI负载提供强大的支撑。
火山引擎的第四代ECS家族包括基础型实例g4i、算力增强型实例g4ie、I/O增强型实例g4il,都凭借至强6系列得到了大幅性能提升,无论通用互联网场景,还是算力密集场景,又或者I/O密集场景,莫不如此,最高提升幅度可达30%。
另外,第四代ECS的网络和存储能力也得到了全面升级,比如整机网络和存储带宽提升100%,IOPS和PPS性能都提升了30%,此外CPU频率也有了20%的提升。
除了通用场景的性能提升,火山引擎也在AI相关应用上做了深度优化。
基于最新第四代ECS,火山引擎联合Intel,特别在RAG应用上深度优化。
针对RAG应用的四个主要环节,包括上传文档处理、嵌入向量化、向量数据库检索、重排序,充分利用至强6处理器的AMX加速器,大大缩短了各环节的任务耗时,最多甚至减少了90%,从而有效助力RAG应用全链路提速。
WDL模型推理同样在至强6系列处理器上得到了深度优化提速。
WDL是广泛应用于推荐系统和广告投放领域的经典模型,由广度模型(wide)与深度模型(deep)构成。
其中,广度模型负责捕捉低阶特征组合,如用户历史点击行为,从而强化对已知模式的记忆能力;
深度模型则通过非线性变换,学习高阶特征组合,挖掘用户兴趣与商品属性间的潜在关联,实现数据的泛化表达。
随着互联网用户规模不断扩大,搜索推荐场景的数据量呈指数级增长,对算力需求显著增加,但效率无法得到同步提升。
面对这一挑战,火山引擎与Intel进行了深入研究,通过AMX加速器优化,WDL模型推理性能实现了质的飞跃,吞吐能力提升最高达114%,显著提升了模型推理效率。
此外,针对云上AI场景,火山引擎也特别构建了端到端的全链路安全方案。
首先,基于CPU TDX和GPU CC硬件机密计算能力,火山引擎在固件、内核、虚拟化、操作系统做了全方位联合深度优化,而且将对性能的影响降至最低。
其次,火山引擎提供了机密容器、密钥管理、基线管理、远程证明、安全RAG、数据预处理、数据后处理等丰富的安全能力,保护AI应用中的数据安全。
【至强CPU搭档锐炫GPU:AI一体机加速本地推理】
AI大模型时代,除了云上业务,大量2B、2C业务都开始部署在本地一体机上,应用场景越来越多。
在这方面,Intel不仅有至强CPU处理器,锐炫GPU也有独到之处,二者搭档组成智算AI一体机,大大提升本地私有化推理的效率,推动企业应用和业务的创新。
尤其是在DeepSeek引领的开源大模型的支持下,AI一体机的技术门槛大幅降低,非常有利于加速普及。
一台典型的Intel AI一体机或者说工作站,通常采用一颗至强CPU,搭配一到四块锐炫GPU。
其中,GPU可选早已发布的锐炫A770 16GB,也可选最新发布的锐炫Pro B60 24GB,二者都有大容量显存。
AI应用对于显存的需求相信大家都有所耳闻,大显存可以显著提升AI应用性能,比如支持更大参数规模的大模型、更长的上下文长度、更多的并发,从而扩展应用场景。
锐炫Pro B60是在台北电脑展上刚刚发布的,已经有多家伙伴推出了不同的产品方案。
比如华擎的被动散热静音,华硕、蓝戟、铭瑄、撼与、傲世的涡轮风扇,Senao的开放式三风扇,铭瑄甚至还做了一款双GPU,提供多达48GB显存。
在进行本地推理的时候,单独一块GPU显卡往往是很难应付大参数量的大模型的,即便是进行量化之后也很难,比如INT8量化后的DeepSeek-R1 32B蒸馏模型,也会轻松吃掉超过32GB的显存,而单独一块显卡无论如何增加显存,空间都不是无限的。
因此,多卡并行无疑是最理想的解决方案,而且得益于大量开源软件的支持,多卡底层通信也不再是难题,Intel就有自己的多卡通信库oneCCL。
四块锐炫A770并行可提供64GB显存,可以基本运行满血版的32B模型或者量化后的70B模型。四块锐炫Pro B60并行,显存更是多达96GB,本地运行大模型更加轻松自如。
有了足够大的显存,企业在AI应用中就可以灵活配置所需要的上下文扩展或者并发扩展。
单并发下的上下文长度,以往只有10K左右就够了,但是如今32K都很普遍,不少大模型甚至已经做到几百K乃至1M,对显存容量的需求也急剧增加,四卡并行做到96GB大显存,就可以轻松满足,比如一次性分析几百页的文件资料等。
固定上下文长度时的并发扩展,也是类似,并发越多,对显存的需求就急剧增加,因为每一个会话都会产生大量的KV缓存和历史记录,而单卡甚至无法处理一个33GB体积大模型的单并发,四卡并行就能满足50个实例的并发。
小结
AI新时代,GPU加速器不仅备受瞩目,也是企业投资的重点。
但是CPU处理器作为任何计算系统的指挥中枢,其重要性不但没有下降,反而愈发凸显,同样要认真选好、优化到位,才能释放AI加速系统的全部实力。
至强6系列从设计之初就考虑了AI应用优化加速,无论是在云端还是在本地,都给行业带来了一股新的活力,实现了性能、能效的全新飞跃。
特别是性能核、能效核双管齐下的全新设计,以及MRDIMM内存的独家支持、AMX加速器的增强等等,都为至强6带来了广阔的应用空间,可以灵活适应各种各样的AI负载和场景。
再加上Intel广泛而深远的行业合作,至强6的种种针对性设计,都可以被挖掘出更大潜力,充分满足从云端到本地、不断涌现和升级的AI加速需求。

作者:访客本文地址:https://www.zsclv.com/zsclv/13128.html发布于 2025-06-25 10:26:40
文章转载或复制请以超链接形式并注明出处中首车旅集团