新闻中心
x86性能狂飙16倍!AMD、Intel联手制定统一标准
来源:网络 | 作者:转自硬件世界 | 发布时间: 2026-05-01 | 24 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
在2024年10月,AMD与Intel联合成立了x86生态系统咨询小组,旨在推动x86计算架构的发展。该小组公布了四项核心特性:FRED、AVX10、ChkTag和ACE。最近,双方发布了ACE白皮书,将这一称为“x86标准矩阵加速架构”的指令集推向开发者。ACE的核心目标是实现x86芯片矩阵乘法性能的数量级跃升,矩阵乘法是神经网络和大语言模型的基础运算单元。与现有AVX10等SIMD指令集相比,ACE通过外积运算的矩阵加速机制,在相同输入下,计算密度达到等效操作的16倍。它支持INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16等主流AI精度标准。作为AVX10的扩展,ACE的软件生态已在推进,Deep Learning和HPC库、NumPy、SciPy及PyTorch、TensorFlow等框架已启动集成。AMD和Intel强调ACE设计注重低摩擦和广覆盖,适用于从笔记本到超级计算机的多种场景,开发者无需针对不同硬件重写代码,这与依赖专用加速器的方案不同,后者需额外适配成本。

在2024年10月的时候,AMD和Intel联合成立了x86生态系统咨询小组(x86 Ecosystem Advisory Group),汇聚行业领导厂商,共同推动x86计算架构的未来。

EAG成立时公布了四项核心特性:FRED、AVX10、ChkTag和ACE如今AMD与Intel联合发布了ACE白皮书,正式将这一被称为“x86标准矩阵加速架构”的指令集推向开发者社区。

ACE的核心目标很直接:让x86芯片的矩阵乘法性能实现数量级跃升。

矩阵乘法是神经网络和大语言模型的基础运算单元,现有的AVX10等SIMD指令集虽然能完成矩阵运算,但在计算密度和扩展性上存在明显瓶颈。

ACE通过引入基于外积运算的矩阵加速机制,在消耗相同输入向量的前提下,计算密度达到等效AVX10乘累加操作的16倍。

在数据格式支持方面,ACE原生覆盖了当前AI领域的主流精度标准,包括INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16。

作为AVX10的扩展指令集,ACE的软件生态适配已在推进中,Deep Learning和HPC底层库、NumPy、SciPy等Python科学计算库,以及PyTorch和TensorFlow等主流机器学习框架均已启动集成工作。

AMD和Intel在白皮书中强调,ACE的设计理念是低摩擦、广覆盖,从笔记本到超级计算机,开发者无需针对不同硬件平台重写代码。

这与将AI计算迁移到专用加速器的方案形成鲜明对比,后者往往需要额外的代码适配和迁移成本。