华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。 但是,在华为,昇腾万卡算力集群,已经可以做到近乎永不罢工了: -训练可用度达98%:这就好比你开着一辆车,全年365天里,有358天无论刮风下雨都能一脚油门就出...
新质观察|万卡集群三问:城市该如何不掉队? 2024年春,深圳宣布建设“鹏城云脑Ⅲ”。竣工后,其算力规模预计高达16000P。几乎同时,中部一座省会城市却暂停原计划中的万卡集群,理由是预算未过审议。这不仅是一次技术性的争议,更是一场城市间愈演愈烈的竞速。一边高举旗帜奔跑,一边犹疑止步回望。建得太早,可能砸出沉没成本的废墟;建得太晚,又怕被甩在...
AMD获青睐!甲骨文大手笔采购3万块MI355X 3月23日消息,据最新消息,甲骨文已与AMD签署了一项价值数十亿美元的协议,计划搭建包含3万块MI355X的AI集群。 甲骨文董事长兼CTO拉里·埃里森在2025财年第三财季电话会议上透露了这一采购计划,他还解释了甲骨文选择AMD的原因:我们能打造比对手更快、更经济的巨型AI集群。按小时计费模式下,...