AI新时代的Intel至强6：云端、本地双飞跃！

访客 2025-06-25 10:26:40 83157

默认

摘要： 过去三年，随着问答式AI、生成式AI、智能体AI的风潮一浪高过一浪，整个科技行业都在被重塑，尤其是数据中心，这一根基深厚且规模庞大的市场，正经历前所未有的变革。AI时代的数据中心...

过去三年，随着问答式AI、生成式AI、智能体AI的风潮一浪高过一浪，整个科技行业都在被重塑，尤其是数据中心，这一根基深厚且规模庞大的市场，正经历前所未有的变革。

AI时代的数据中心，不但在算力上呈现井喷式爆发，新的需求也在不断出现、演变。

比如利用加速硬件和开放标准软件满足高算力需求，比如对高吞吐量和低时延都有了明确的要求，比如稳定性、可靠性、兼容性方面的更苛刻要求。

更突出的矛盾就是数据中心耗电量的急剧攀升，预计到2026年全球数据中心能消耗德国一年的用电量，这就对计算基础设施的能效和TCO成本有了明确的要求，可持续发展变得前所未有的重要。

在AI数据中心，不但需要高性能的GPU加速器，始终居于中枢位置的CPU处理器，也在新形势下呈现出了全新的面貌。

【AI时代的至强6：性能再次飞跃】

Intel全新的至强6家族，从硬件设计到技术特性都充分考虑了AI数据中心的全新需求。

至强6在家族历史上首次兵分两路：其中至强6900E/6700E系列采用E核能效核，至强6900P/6700P/6500P/6300P系列则采用P核性能核。

至强6900系列作为旗舰，可提供最多288个能效核(216MB三级缓存)或者128个性能核(504MB三级缓存)，支持12个内存通道、96条PCIe 5.0/CXL 2.0通道、6条UPI 2.0链路。

至强6700/6500系列定位主流，可提供最多144个能效核或者86个性能核，支持8个内存通道、88条PCIe 5.0/CXL 2.0通道、6条UPI 2.0链路。

如此丰富的SKU产品组合，可以灵活匹配不同类型的AI加速系统，精准满足客户的不同需求。

技术方面，至强6系列支持高达6400MT/s的DDR5内存，相对于上一代，带宽提升1.7倍，还首发支持全新的MRDIMM内存。

至强6900系列提供多达12条内存通道，内存也高达8800MT/s，带宽因此大幅提升2.3倍，可以更好地满足AI等领域的大带宽需求。

PCIe 5.0带来了更高的I/O带宽，提升最多1.2倍；UPI 2.0带来了更高的多路并行带宽，最高提升1.8倍；支持CXL 2.0，可以进一步拓展内存容量和带宽。

另外，过去几代至强陆续集成了多种适配不同业务的IP加速器，包括QAT数据保护与压缩加速器、DSA数据流加速器、IAA存内分析加速器、DLB动态负载均衡加速器等等，都在至强6上进一步发扬光大。

比如QAT，压缩解压时相当于大约6.8个CPU核心，而至强6内置4个QAT，可以卸载24-32个CPU核心的计算能力。

另外，AMX高级矩阵扩展加速器作为集成在CPU内部的AI加速器，可以大幅提升CPU的AI处理能力。

得益于AMX的加持，至强6 128核心的INT8整数算力可达512 TOPS，BF16/FP16浮点算力也有256 TOPS，分别是传统AVX-512指令下的8倍、16倍。

在多种工作负载中，尤其是AI负载，至强6系列都可以带来显著的性能提升，同时保持类似甚至更低的功耗，可以说能效取得了极大的进步。

在通用计算、Web服务、科学计算、AI等不同领域，至强6900P系列相比上代至强铂金8592+的性能提升普遍超过2倍，同时每瓦性能普遍提升了1.4倍以上。

有趣的是，无论性能还是能效，提升最大的都恰好出现在AI领域，比如Llama2-7B摘要生成(bf16格式)，至强6900P系列的性能可提升超过3倍，每瓦性能也提升超过2倍。

如果同样都是64核心，至强6700P系列对比上代至强铂金8592+，可以实现全场景20％上下的性能领先，而功耗基本相同甚至还更低一些。

至强6700P系列最多有86个核心，对比上代核心更多，但功耗并未增加，而性能可以大幅提升40-50％。

对于云计算应用，至强6系列同样是上佳之选，可以有效提升性能与能效，并显著降低成本。

对比五代至强，至强6系列在云计算领域可以实现2倍的核心密度提升、20％的单核性能提升、60％的能耗比提升，最终带来30％的代际TCO成本收益。

事实上，至强6系列还是AI加速系统中主控CPU的不二之选，这方面Intel与NVIDIA也一直有着深度合作。

通过双方的共同努力，至强6系列已经完美适配NVIDIA MGX、HGX AI加速系统的要求，它们可以灵活配备1/2个CPU、4/8/16个GPU，其中CPU可选32核心的至强6737P、64核心的至强6761P/6767P、72核心的至强6960P(可配置为48核心以提升频率)。

最新款的NVIDIA DGX B300系统，更是独家选择了双路64核心的至强6776P作为主控CPU，它和72核心的至强6962P、64核心的至强6774P一样，都是Intel特别为AI加速系统主控CPU设计的专属型号。

当然，至强6系列的其他型号同样可用于AI加速系统，包括能效核系列。

【火山引擎第四代ECS实例：全面展现至强6 AI实力】

正是凭借这一系列的独特优势，至强6系列不但是传统数据中心的上佳之选，更是AI加速系统的最优解，得到了大量客户的积极采纳。

比如火山引擎与Intel密切合作，推出了配备至强6性能核处理器的第四代弹性计算实例(ECS)家族，搭配火山引擎自研DPU、自研服务器，取得了全方位提升，为高速增长的AI负载提供强大的支撑。

火山引擎的第四代ECS家族包括基础型实例g4i、算力增强型实例g4ie、I/O增强型实例g4il，都凭借至强6系列得到了大幅性能提升，无论通用互联网场景，还是算力密集场景，又或者I/O密集场景，莫不如此，最高提升幅度可达30％。

另外，第四代ECS的网络和存储能力也得到了全面升级，比如整机网络和存储带宽提升100％，IOPS和PPS性能都提升了30％，此外CPU频率也有了20％的提升。

除了通用场景的性能提升，火山引擎也在AI相关应用上做了深度优化。

基于最新第四代ECS，火山引擎联合Intel，特别在RAG应用上深度优化。

针对RAG应用的四个主要环节，包括上传文档处理、嵌入向量化、向量数据库检索、重排序，充分利用至强6处理器的AMX加速器，大大缩短了各环节的任务耗时，最多甚至减少了90％，从而有效助力RAG应用全链路提速。

WDL模型推理同样在至强6系列处理器上得到了深度优化提速。

WDL是广泛应用于推荐系统和广告投放领域的经典模型，由广度模型(wide)与深度模型(deep)构成。

其中，广度模型负责捕捉低阶特征组合，如用户历史点击行为，从而强化对已知模式的记忆能力；

深度模型则通过非线性变换，学习高阶特征组合，挖掘用户兴趣与商品属性间的潜在关联，实现数据的泛化表达。

随着互联网用户规模不断扩大，搜索推荐场景的数据量呈指数级增长，对算力需求显著增加，但效率无法得到同步提升。

面对这一挑战，火山引擎与Intel进行了深入研究，通过AMX加速器优化，WDL模型推理性能实现了质的飞跃，吞吐能力提升最高达114％，显著提升了模型推理效率。

此外，针对云上AI场景，火山引擎也特别构建了端到端的全链路安全方案。

首先，基于CPU TDX和GPU CC硬件机密计算能力，火山引擎在固件、内核、虚拟化、操作系统做了全方位联合深度优化，而且将对性能的影响降至最低。

其次，火山引擎提供了机密容器、密钥管理、基线管理、远程证明、安全RAG、数据预处理、数据后处理等丰富的安全能力，保护AI应用中的数据安全。

【至强CPU搭档锐炫GPU：AI一体机加速本地推理】

AI大模型时代，除了云上业务，大量2B、2C业务都开始部署在本地一体机上，应用场景越来越多。

在这方面，Intel不仅有至强CPU处理器，锐炫GPU也有独到之处，二者搭档组成智算AI一体机，大大提升本地私有化推理的效率，推动企业应用和业务的创新。

尤其是在DeepSeek引领的开源大模型的支持下，AI一体机的技术门槛大幅降低，非常有利于加速普及。

一台典型的Intel AI一体机或者说工作站，通常采用一颗至强CPU，搭配一到四块锐炫GPU。

其中，GPU可选早已发布的锐炫A770 16GB，也可选最新发布的锐炫Pro B60 24GB，二者都有大容量显存。

AI应用对于显存的需求相信大家都有所耳闻，大显存可以显著提升AI应用性能，比如支持更大参数规模的大模型、更长的上下文长度、更多的并发，从而扩展应用场景。

锐炫Pro B60是在台北电脑展上刚刚发布的，已经有多家伙伴推出了不同的产品方案。

比如华擎的被动散热静音，华硕、蓝戟、铭瑄、撼与、傲世的涡轮风扇，Senao的开放式三风扇，铭瑄甚至还做了一款双GPU，提供多达48GB显存。

在进行本地推理的时候，单独一块GPU显卡往往是很难应付大参数量的大模型的，即便是进行量化之后也很难，比如INT8量化后的DeepSeek-R1 32B蒸馏模型，也会轻松吃掉超过32GB的显存，而单独一块显卡无论如何增加显存，空间都不是无限的。

因此，多卡并行无疑是最理想的解决方案，而且得益于大量开源软件的支持，多卡底层通信也不再是难题，Intel就有自己的多卡通信库oneCCL。

四块锐炫A770并行可提供64GB显存，可以基本运行满血版的32B模型或者量化后的70B模型。四块锐炫Pro B60并行，显存更是多达96GB，本地运行大模型更加轻松自如。

有了足够大的显存，企业在AI应用中就可以灵活配置所需要的上下文扩展或者并发扩展。

单并发下的上下文长度，以往只有10K左右就够了，但是如今32K都很普遍，不少大模型甚至已经做到几百K乃至1M，对显存容量的需求也急剧增加，四卡并行做到96GB大显存，就可以轻松满足，比如一次性分析几百页的文件资料等。

固定上下文长度时的并发扩展，也是类似，并发越多，对显存的需求就急剧增加，因为每一个会话都会产生大量的KV缓存和历史记录，而单卡甚至无法处理一个33GB体积大模型的单并发，四卡并行就能满足50个实例的并发。

小结

AI新时代，GPU加速器不仅备受瞩目，也是企业投资的重点。

但是CPU处理器作为任何计算系统的指挥中枢，其重要性不但没有下降，反而愈发凸显，同样要认真选好、优化到位，才能释放AI加速系统的全部实力。

至强6系列从设计之初就考虑了AI应用优化加速，无论是在云端还是在本地，都给行业带来了一股新的活力，实现了性能、能效的全新飞跃。

特别是性能核、能效核双管齐下的全新设计，以及MRDIMM内存的独家支持、AMX加速器的增强等等，都为至强6带来了广阔的应用空间，可以灵活适应各种各样的AI负载和场景。

再加上Intel广泛而深远的行业合作，至强6的种种针对性设计，都可以被挖掘出更大潜力，充分满足从云端到本地、不断涌现和升级的AI加速需求。

以上就是关于【AI新时代的Intel至强6：云端、本地双飞跃！】的相关消息了，希望对大家有所帮助！

标签：至强双飞

文章版权及转载声明

作者:访客本文地址：https://www.zsclv.com/zsclv/13128.html发布于 2025-06-25 10:26:40
文章转载或复制请以超链接形式并注明出处中首车旅集团

海报

阅读

相关推荐

美国断供EDA影响不大：小米玄戒O2正在顺利研发中 或还是3nm！

REDMI Watch 5智能手表拆解：全面采用小米自研玄戒系列方案

AI生产力全面领先！荣耀平板MagicPad 3定义最佳AI平板

4S店“虚销”致汽车电池延保资格过期！一汽丰田：已与经销商解约

徐徐凉风何处来：揭秘高铁上的空调

被问和雷军谁的影响力大 周鸿祎：当然是雷军 但不能拿这问题来逗我

产能不足还是饥饿营销 网友反馈Labubu线上抢购3个月后才能拿到

卢伟冰谈小米YU7价格：成本增加很多

美国断供EDA影响不大：小米玄戒O2正在顺利研发中或还是3nm！

被问和雷军谁的影响力大周鸿祎：当然是雷军但不能拿这问题来逗我

产能不足还是饥饿营销网友反馈Labubu线上抢购3个月后才能拿到