人工智能技术改变了我们的生活,谈到AI背后的计算能力,人们往往首先想到的是GPU。 自2023年英特尔在其第二代至强可扩展处理器中添加内置深度学习加速技术以来,原本定位于通用计算的CPU芯片也加入了加速AI的行列。

第四代至强可扩展处理器,代号“特别引人注目”,其背后的技术力量也是英特尔在这一代产品中新增的内置AI加速器——英特尔高级矩阵扩展(AMX)技术自然成为了焦点。

作为焦点,当然要拿出实力证明自己的价值——发布会上,英特尔透露,第四代至强可扩展处理器基础算力平均提升53%,并借助AMX,其AI实时推理速度可提升至上一代产品(FP32)的5.7-10倍,训练性能可提升至上一代产品的10倍……这意味着这款新的Xeon,将业界顶级CPU的性能门槛提高了很多。

至强cpu为什么那么便宜_至强cpu_至强cpu性能排行

新一代英特尔CPU为AI任务处理找到了新方向。 英特尔现在可以利用新的 CPU 和 GPU 加速各种人工智能任务。 为了实现这些改进,英特尔推出了一系列内置加速单元。

支持各种加速器,提高AI训练、推理和端到端性能

人工智能自成为热门话题以来,其受欢迎程度并未减弱。 近来,人们一直在谈论“大模式”带来的革命性体验。 预训练模型方法驱动的AI技术正在向跨任务、跨模态的方向发展,已成为AI技术发展的重要趋势。

然而,大模型虽然带来了前所未有的AI能力,但也对算力提出了无尽的需求。 芯片制造商和科技公司一直在寻找提高人工智能应用效率的方法。 GPU更多解决的是训练效率和探索AI算法边界的能力,而CPU似乎更适合在AI应用的大规模部署和实践中发挥重要作用。

自从四五年前开始将AI加速的专用计算单元或指令集构建到CPU中以来,英特尔一直认为,如果想要真正推动AI应用在更广泛的行业普及,就应该充分利用现阶段使用和部署最广泛的IT基础设施和架构是充分利用CPU资源。 毕竟,使用 GPU 和其他专用加速器的成本、知识和人才障碍都非常高。 相比之下,内置AI加速能力、主打AI推理加速,并搭配更易用、可部署和优化难度的软件工具,将是一条更有效的路径。

这就是它的想法和做法——首先,从2023年第一代Xeon可扩展芯片开始,Intel开始利用Intel 512技术(AVX-512指令集)的向量计算能力来进行AI运算。 在加速方面的尝试,到2023年,英特尔将在第二代Xeon可扩展芯片中引入深度学习加速(DL Boost)技术,使Xeon成为首款集成强大AI加速的主流数据中心级CPU,或者换句话说:具有 CPU 加速的 AI。

2023年,通过扩展加速功能,用于多进程服务器的第三代至强可扩展处理器除了推理加速能力外,还将增加训练加速能力,这已被证明可以帮助业界大量AI工作负载实现更好的性能。表现。 性能与功耗比。

正当大家以为英特尔对CPU加速AI的技术创新和投入就此止步时,第四代至强可扩展芯片带来了矩阵计算支持——AMX。

至强cpu性能排行_至强cpu为什么那么便宜_至强cpu

第四代英特尔至强可扩展处理器。

这款新型内置AI加速器的出现,进一步验证了“相比增加CPU核心数量和时钟频率,添加和更新专用计算单元更能有效提升AI工作负载性能”的想法。 前面提到,第四代至强可扩展芯片不仅可以借助AMX实现相当于上一代芯片(FP32)10倍的AI性能提升,而且比所采用的深度学习加速技术拥有更好的理论性能在前两代产品中。 (每秒操作数)最多可达 8 倍。

机器学习涉及大量的矩阵计算。 在专注于通用计算的CPU上,此类任务将被转换为效率较低的向量计算。 添加专用矩阵计算单元后,Xeon CPU的AI能力得到了大幅提升。 推动。 因此,AMX可以被视为Xeon CPU上的“”——原则上,CPU上AI加速器的用途与GPU和移动处理器上类似。 由于AMX单元加速了底层矩阵计算,理论上它可以对所有基于深度学习的AI应用有效。

如果说 AMX 为 Xeon CPU 带来了直观的推理和训练加速,那么第四代 Xeon 可扩展芯片内置的其他几款加速器对于端到端 AI 应用加速来说就是惊喜。

这是因为在真正完整的人工智能应用程序管道中,任务通常从数据处理和准备开始。 现阶段,第四代至强可扩展芯片内置的数据流加速器(DSA)可以将数据存储和传输性能提升至上一代产品的2倍,并且英特尔内存分析加速器(IAA)专为数据库和数据分析加速而设计的,还可将相关应用的性能提升至上一代产品的三倍(); 数据保护和压缩加速技术 (QAT) 可以使一级压缩吞吐量翻倍,同时减少高达 95% 的核心使用率。 这些技术的使用也有助于AI端到端应用性能的整体提升。

至强cpu为什么那么便宜_至强cpu性能排行_至强cpu

此外,随着人工智能应用在更多行业落地,包括金融、医疗等数据敏感行业,人们对数据安全合规性的要求逐渐提高,联邦学习等技术也逐渐得到应用。 在这方面,集成到Xeon可扩展处理器中、专门用于数据安全增强的加速器 Guard (SGX)也大有用处。 其突出优点是可以在处理或操作过程中保护敏感数据和数据。 应用程序代码提供了一个与其他系统组件和软件隔离的安全区域,从而实现更小的信任边界。

这项技术对于AI的核心价值在于可以让多方数据交互协作的AI训练过程更加安全。 各方数据均可参加其所有者本地的培训。 用于训练和模型的数据受到安全飞地的保护,最终模型可以提高准确性和效率,但对其演化做出关键贡献的数据仍然“可用但不可见”,以确保敏感和隐私的安全信息。

在如此多的内置加速器的加持下,可以说,从数据预处理,到训练,到推理,最后到整个AI应用的安全防护层面,第四代至强可扩展处理器实现了更全面的提升。功能 覆盖范围和焦点增强。 与此同时,英特尔正在进一步强化AI加速的开箱即用优势:通过与大量第三方合作,共同优化SAP HANA、SQL、Cloud、Red Hat等主流应用,许多主流软件库和开源机器学习框架以及大部分云服务也都针对这款基于英特尔架构的新产品进行了优化,开发者可以直接使用新硬件来开发和部署AI算法。

从开发者的角度来看,使用第四代至强可扩展处理器进行优化加速的门槛确实很低:只需要使用集成的库,无需任何额外的工作就可以激活至强芯片内置的AI加速能力。 此外,开发人员只需更改几行代码,就可以在单节点和多节点配置中无缝加速学习应用程序。

全能服务器CPU

除了拥有专用于特定应用工作负载的加速器之外,第四代至强可扩展处理器在基本性能方面也表现出色。

例如,它采用与Intel 12代和13代酷睿相同的Intel 7制造工艺(改进的10nm工艺)和Cove CPU架构。 它还首次引入了小芯片封装方式,最多可搭载60个核心。 它采用全新E封装接口,集成112MB三级缓存,功耗高达350W。

新一代至强还支持八通道DDR5-4800和PCIe 5.0,并包括CXL 1.1高速互连总线,可选集成高达64GB HBM2e内存。

上述IO和存储新技术的引入,使得第四代至强可扩展处理器具备了可以突破带宽瓶颈的I/O能力,让用户能够充分利用处理器的代际性能提升,满足用户对数据的需求。 AI平台的需求。 等业务对通用计算能力有苛刻的要求。

至强cpu性能排行_至强cpu_至强cpu为什么那么便宜

四代至强可扩展处理器平台特性。

结合这些基础芯片架构规模上的升级和创新,以及各种加速器的具体加成效果,第四代至强可扩展处理器的基础算力相比上一代可提升53%,并且它的能效,或者说每瓦性能方面,也比上一代产品提高了2.9倍,这意味着更高的效率、更低的功耗和更好的投资回报。

英特尔表示,新一代CPU还可以催生前所未有的应用,帮助AI算法直接利用非结构化数据进行实时分析。 在金融、医疗、零售等行业,人们可以利用机器学习做出更准确的投资决策,降低术后并发症的风险,更好地了解消费者需求。

打造下一代异构AI算力

在不断寻求创新业务的过程中,人们对算力的需求变得比以前更加迫切。 而且,这个计算能力还必须考虑到通用和特殊用途的不同方向。 因此,英特尔架构也在有针对性地演进,从本次第四代至强可扩展处理器的推出就可以看出——对科学计算和AI加速有更苛刻要求的用户也在等待。 英特尔发布旗舰数据中心GPU产品MAX系列。

至强cpu_至强cpu为什么那么便宜_至强cpu性能排行

事实上,在过去的几年里,英特尔已经陆续推出了一些异构产品。 例如,2023年,英特尔实验室正式发布了一款用于深度学习训练的产品,随后应用于AWS。 同年夏天,专注于视觉云应用的数据中心GPU Flex系列也在视频处理、云游戏和视觉AI推理应用领域首次亮相。 不过,不少“发烧友级”用户最期待的还是数据中心GPU Max系列。 该系列采用突破性设计,采用多芯片采集方式,混合5种工艺,拥有超过1000亿个晶体管的“怪物”终于来了!

GPU产品线的完善也使得英特尔成为业界唯一能够提供横跨CPU、GPU、ASIC、FPGA四大类型芯片计算解决方案的供应商,并能够为智能数据中心提供基于GPU的产品组合。任何场景和需求。

除了强大的硬件之外,英特尔还利用其软件系统实现异构硬件的统一编程和管理,打造灵活部署、无缝协作、低门槛的AI开发工具。 通过XPU硬件、软件和UCIe开放标准的布局,英特尔打造了软硬件一体化的完整生态系统。

随着新一代芯片的发布,我们可能会看到未来AI计算形态的重要变化。

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注