西南证券架构师技术联盟

intel服务器cpu

intel服务器cpu

intel服务器cpu

intel服务器cpu

intel服务器cpu

intel服务器cpu

intel服务器cpu

1)从通用到专用:针对不同场景特性的定制芯片,XPU、FPGA、DSA、ASIC应运而生。

2)从下到上:软件、算法、硬件架构。 架构的优化可以极大地提高处理器的性能。 例如,AMD Zen3将两个独立的16MB L3 Cache合并为一个32MB L3 Cache,然后叠加改进的分支预测、更宽的浮点单元等,使其成为单核。 相比Zen2性能提升19%。

3)异构与集成:苹果M1 Ultra芯片的推出带来了灵感。 利用日益成熟的3D封装、芯片间互连等技术来有效集成多个芯片似乎是延续摩尔定律的最佳方式。

主流芯片厂商已开始全面布局:Intel已拥有CPU、FPGA、IPU产品线,并正在加大GPU产品线投入,推出最新架构,打磨异构封装技术; NVDIA已陆续发布多芯片模块(MCM,Multi-Chip)Grace系列产品,预计很快将投入量产; AMD最近完成了对的收购,未来有望迈向CPU+FPGA的异构集成。

此外,英特尔、AMD、Arm、高通、台积电、三星、日月光、Cloud、Meta、微软等十大行业厂商联合成立标准联盟,正式推出通用高速互连标准“通用小芯片互连”( Small Chip ) ,(简称“UCIe”)。

在UCIe框架下,统一了互联接口标准。 不同工艺、不同功能的各类芯片有望通过2D、2.5D、3D等多种封装方式进行集成。 各种形式的处理引擎共同构成了高带宽、低延迟、经济的超大规模复杂芯片系统。 节能优势。

intel服务器cpu

利用多核处理器提高性能功耗比:多核处理器将多个处理器核心集成到同一芯片上,大大提高了每个单元的计算性能密度。 同时,原有的外围组件可以被多个CPU系统共享,可以带来更高的通信带宽和更短的通信延迟。 多核处理器在并行性方面具有天然的优势。 通过动态调整电压/频率、负载优化分配等,可以有效降低功耗、提高性能。

通过多线程提高整体性能:通过复制处理器上的结构状态,允许同一处理器上的多个线程同时执行并共享处理器的执行资源,可以以最小的硬件成本获得相当比例的整体性能和吞吐量。 数量增加。

微架构改进

众多的算术单元、逻辑单元和寄存器通过三态总线、单项总线和各种控制线连接起来,构成CPU微体系结构。 不同的微架构设计对于提高CPU性能和效率发挥着直观而重要的作用。

微架构的升级一般会涉及到指令集扩展、硬件虚拟化、大内存、乱序执行等一系列复杂的工作,还涉及到编译器、函数库等软件层的修改,这些都会影响到微架构的升级。全身。 。

摩尔定律放缓

摩尔定律于20世纪60年代提出。 直到2011年,计算机组件的小型化是提高处理性能的主要因素。 2011年之后,摩尔定律开始放缓,硅制造工艺的改进将不再提供显着的性能提升。

“Tick-Tock”模式失败

从2007年开始,英特尔开始实行“Tick-Tock”开发模式,采用两年周期,奇数年推出新制造工艺(Tick),偶数年推出新架构微处理器(Tock)。

intel服务器cpu

在连续推迟14nm向10nm的切换后,Intel在2023年宣布停止“Tick-Tock”处理器升级周期,改为处理器升级三步走策略:制程技术()——架构更新()——优化 ()。

后摩尔时代,顶层优化可能更重要

新的底层优化路径已经被提出,如3D堆叠、量子计算、光子学、超导电路、石墨烯芯片等。该技术仍处于起步阶段,但未来有望突破现有想象。

intel服务器cpu

据麻省理工学院在《》上发表的文章称,后摩尔定律时代,算力提升将更大程度上来自于计算栈的“顶层”,即软件、算法和硬件架构。

为了覆盖更多的应用,通用指令集往往需要支持数千条指令,导致流水线前端设计(取指、解码、分支预测等变得非常复杂),这会对性能和功耗产生负面影响消耗。

特定领域指令集可以大幅减少指令数量,提高运算粒度,集成内存访问优化,实现性能功耗比的数量级提升。

新兴场景出现,CPU从通用向专用发展

1972年,戈登·贝尔提出,每10年就会出现一种新型计算机(新的编程平台、新的网络连接、新的用户界面、新的使用方式并且更便宜),形成一个新的产业。 1987年,前日立总工程师牧村嗣夫提出,未来半导体产品可能沿着“标准化”和“定制化”交替发展路线前进,大约每十年就会出现波动。

intel服务器cpu

在经历了桌面PC时代、互联网时代、移动互联网时代后,“万物智联”已成为新趋势。 AIoT正在掀起世界信息产业革命第三次浪潮。 AIoT最明显的特点就是需求的碎片化。 现有的通用处理器设计方法难以有效响应定制化需求。

多功能性和性能,很难兼得

CPU是最通用的处理器引擎,具有最基本的指令和最好的灵活性。 ,是基于CPU的扩展指令集的运行引擎,如ARM的NEON、Intel的AVX、AMX扩展指令集及相应的协处理器。

GPU本质上是很多小CPU核的并行化,所以NP、IPU等都是与GPU同一级别的处理器类型。

intel服务器cpu

FPGA从架构上来说可以用来实现定制的ASIC引擎,但由于其硬件可编程性,可以​​切换到其他ASIC引擎,具有一定的灵活可编程性。

DSA是接近ASIC的设计,但具有一定程度的可编程性。 覆盖的领域和场景比ASIC更大,但是仍然有太多的领域需要特定的DSA来覆盖。

ASIC是一种完全不可编程的定制处理引擎,具有理论上最复杂的“指令”和最高的性能效率。 由于覆盖的场景很小,需要大量的ASIC处理引擎来覆盖各种场景。

后摩尔定律时代,展望CPU的未来发展

不可逆的SoC集成:随着集成电路的集成度不断提高,将一台完整计算机的所有不同功能块直接集成到一个芯片上的SoC中已成为整个半导体行业发展的趋势,这可以显着降低系统成本和功率。 消耗并提高系统可靠性。 M1并不是传统意义上的CPU,而是SoC。 CPU采用8核心,其中4个高性能核心和4个高能效核心。 每个高性能核心都提供出色的单线程任务处理性能,并在允许的范围内最大限度地降低能耗。

intel服务器cpu

异构能力显着提升:M1还采用统一内存架构(UMA),其中CPU、GPU、神经引擎、缓存和DRAM内存都通过高速总线连接在一起。 得益于此,SoC中的所有模块都可以访问相同的数据,而无需在多个内存池之间复制数据,更高的带宽和更低的延迟,大大提高了处理器性能和功耗效率。 此外,最新一代的M1 Ultra本质上是两个M1 MAX的有效组合。 通过其架构,提供高达128G的统一内存,相比M1,GPU性能提升8倍。

苹果的M1处理器完成了从多芯片到集成的过程。 这也是苹果打造完整PC生态链的必由之路,让我们看到了CPU未来发展的更多可能性。

后摩尔时代,异质性与整合

海外芯片巨头积极布局异构计算:Intel现已布局CPU、FPGA、IPU、GPU产品线,并相继发布Alder Lake、等新架构。 相继发布了多芯片模块(MCM,Multi-)Grace系列产品。 预计很快投入量产; AMD最近完成了对的收购,未来有望迈向CPU+FPGA的异构集成。

intel服务器cpu

晶圆厂和封装厂也在积极投资异构集成:异构计算需要先进的集成封装技术。 得益于过去十年先进封装和芯片堆叠技术的发展,如3D堆叠、SiP等,异构集成成为了巨大的可能性。 目前2.5D封装技术已经发展比较成熟,如台积电的CoWoS、三星的I-Cube等。 3D封装已成为各大晶圆厂的发展方向。 英特尔已经开始量产该技术,三星已经完成了X-Cube的验证,台积电也提出了SoiC集成方案。

CPU+XPU已被广泛使用,但仍有优化空间。 传统的异构计算架构存在IO路径长、输入输出资源损耗等固有问题,仍然无法充分平衡极致性能和灵活性。

联盟的成立是为了探索超异质的可能性。 2023年3月3日,英特尔、AMD、Arm、高通、台积电、三星、日月光、Cloud、Meta、微软等十大行业巨头联合成立标准联盟,正式推出通用高速互连标准“”(通用)小芯片互连,简称“UCIe”)。

intel服务器cpu

在UCIe框架下,统一了互联接口标准。 不同工艺、不同功能的各类芯片有望通过2D、2.5D、3D等多种封装方式进行集成。 各种形式的处理引擎共同构成了高带宽、低延迟、经济的超大规模复杂芯片系统。 节能优势。

边缘计算服务器是解决AIoT时代“算力荒”的必备产品

云计算无法满足海量、实时的处理需求。 随着人工智能、5G、物联网等技术逐渐成熟,对算力的需求不断从数据中心延伸到边缘,以产生更快的网络服务响应,满足行业实时业务、应用的需求智能、安全和隐私保护。 基本需求。

intel服务器cpu

市场规模呈爆炸式增长。 据IDC统计,中国边缘计算服务器整体市场规模已达33.1亿美元,较2023年增长23.9%。预计2023年至2025年CAGR将达22.2%,高于全球20.2%。

定制服务器正在快速增长。 目前,通用服务器和边缘定制服务器占比分别为87.1%和12.9%。 随着边缘应用场景的逐渐丰富,为了适应复杂多样的部署环境和业务需求,需要特定外形、低能耗、更宽工作温度的服务器。 和其他专门设计的边缘定制服务器的需求将迅速增加。 IDC预测边缘定制服务器将保持76.7%的复合增长率,2025年渗透率将超过40%。

根据业务场景多样化定制,融合是趋势

与数据中心服务器不同,边缘服务器配置并不一味追求最高计算性能、最大存储、最大扩展卡数量等参数,而是在有限的空间内尽可能提供配置灵活性。 目前,边缘服务器主要应用于工业制造等领域。 主板、处理器等需要根据具体环境(高压、低温、极端天气)等进行选择,下游需求碎片化,没有统一标准。

随着越来越多的计算和存储需求下放到边缘,当前趋势普遍涉及更紧密的加速集成,以满足包括AI算力在内的多种需求。 超大规模云提供商开始考虑分解架构。 为了减少熟悉的多租户方法中不可避免的碎片,其中计算、存储、网络和内存成为一组可组合的结构,基于机架的架构 (RSA) 被单独部署。 CPU、GPU、硬件加速、RAM、存储和网络容量。

全球范围内云服务器正在取代传统服务器

云服务器的发展使中国成为全球服务器强国。 随着移动终端、云计算等新一代信息技术的发展和应用,企业和政府正逐步将业务从传统数据中心迁移到云数据中心。 虽然目前中国云计算市场落后于美国,但近年来我国云计算的发展速度明显高于全球云计算市场的增速,并且这一趋势预计将在未来几年保持下去。未来。

intel服务器cpu

为不同的需求提供多样化的计算能力。 一般小型网站需要处理的数据较少,通常使用1核或2核CPU; 地方门户网站和小型行业网站需要4核以上的CPU; 而电商平台、影视网站等,则需要16核以上的CPU。 此外,云服务器还提供灵活的扩展、升级等服务,普遍支持异构算力的加载。

CPU+ASIC,云服务器异构化趋势明显

传统的计算机虚拟化架构中,业务层是虚拟机,管理层是主机,业务和管理共存于CPU上。 导致只能提供70%左右的CPU资源给用户。

AWS创造性地重构了架构,将业务和管理分离为两个硬件实体。 业务运行在CPU上,管理运行在NITRO芯片上。 这不仅将虚拟化的损失转移到定制的Nitro系统上,而且还提高了安全性。 性别。

intel服务器cpu

Nitro架构不仅性能强大,而且特别灵活。 它可以基于一些常用工具(如qemu-kvm)运行虚拟机,甚至可以直接裸运行操作系统,节省30%的CPU资源。

ARM或成重要挑战者,推出首款数据中心专用CPU GRACE

公有云巨头价格竞争激烈,国内一线城市能耗控制严格。 ARM移动终端的优势和低能耗特性是超大型数据中心解决节能和成本问题的重要解决方案之一。 在国内自主可控趋势的背景下,如果能够打造一个强大的生态联盟,是未来可能颠覆原有格局的最有力的挑战者。

intel服务器cpu

宣布推出 NvDIA Grace,这是首款用于 AI 基础设施和高性能计算的专用数据中心 CPU,它由两颗通过最新一代 C2C 技术互连的 CPU 芯片组成。

Grace基于最新的ARMv9架构,每个单元有144个CPU核心。 它使用纠错码(ECC)和其他机制来提供两倍于当今领先服务器芯片的内存带宽和能源效率。 兼容性也非常出色,可以运行所有NvDIA软件堆栈和平台,包括NvDIA RTX、HPC等。

从CPU到CPU+DPU

DPU,即数据单元,主要用作CPU的卸载引擎。 主要处理网络数据和IO数据,并提供带宽压缩、安全加密、网络功能虚拟化等功能,将CPU的计算能力释放给上层应用。 。

intel服务器cpu

2013年AWS开发的Nitro和阿里云开发的X-都可以算是DPU的前身; 将于2023年正式发布一款名为“DPU”的产品,将其定义为继CPU和GPU之后的第三种产品。 主芯片DPU的出现,是异构计算的又一阶段标志。

DPU 是 CPU 和 GPU 的良好补充。 根据的预测,每台服务器可能没有GPU,但一定有DPU。 数据中心使用的DPU数量将达到与数据中心服务器相同的水平。

从CPU到CPU+XPU

AI模型经过数千亿个参数的训练,以增强包含数万亿字节的深度推荐系统,其复杂性和规模正在爆炸式增长。 这些巨大的模型正在挑战当今系统的极限,仅靠CPU优化无法满足它们的性能需求。

因此,AI服务器主要采用异构形式,且多为机架式。 异构模式下可以是CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+各种加速卡。

intel服务器cpu

现在市场上的AI服务器普遍采用CPU+GPU的形式,因为GPU与CPU不同,采用并行计算模型,擅长整理密集型数据运算,例如图形渲染、机器学习等。继续对模型进行规模化要实现高精度和实用性,需要快速访问大内存池以及CPU和GPU的紧密耦合。

从CPU到CPU+TPU

TPU,即张量处理单元(Unit),是一种为加速深度学习而开发的特殊集成电路(DSA)。 它采用专用的CISC指令集来定制和改进逻辑、电路、计算单元、存储系统架构、片上互连等,并针对其他开源框架进行了优化。

intel服务器cpu

2023年开始,将发布TPUv1,将用于Alpha Go等特定内部项目; 2023年,谷歌将发布TPUv3并开始向第三方销售,TPU将逐步商用。

2023年,谷歌宣布性能较第三代TPU提升2.7倍; 256个TPU仅用1.82分钟就完成了NLP领域著名的“BERT”模型的训练,而同等条件下,使用 A100 GPU则需要3.36分钟。

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注