网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于ob欧宝

公司概况 核心优势 核心团队 发展历程

联系ob

官方微信 官方微博
主页 > 新闻中心

ob欧宝AMD EPYC (霄龙)8004 系列处理器概述详细介绍专为云服务、智能边缘和电信打造的AMD EPYC 8004处理器

发布时间:2023-11-17 21:56浏览次数: 来源于:网络

  ob欧宝AMD EPYC8004系列处理器是第四代AMD EPYC服务器级处理器的一部分。第四代AMDEPYC (霄龙)处理器采用AMD最新的基于Zen4的计算核心,以及相应的下一代InfinitvFabric内存和1/0技术。AMD EPYC8004处理器采用新的/更小的SP6插座/封装和更低的TDP,非常适合电信和边缘环境。

  第四代 AMD EPYC 8004 系列处理器提供多种配置,具有不同数量的内核、热设计点 (TDP)、频率、高速缓存大小等,进一步提高了性能、能效和价值。补充了AMD 现有的服务器产品组合。表 1‑1 列出了所有 AMD EPYC 8004 系列处理器共有的一些显着特征。

  第四代 AMD EPYC 处理器将计算核心、内存控制器、I/O 控制器、RAS(可靠性、可用性和可维护性)和安全功能集成到集成片 上系统 (SoC) 中。 AMD EPYC 8004 系列处理器保留了先前成功的 AMD EPYC 处理器经过验证的多芯片模块 (MCM) Chiplet 架 构,同时对 SoC 组件进了进一步改进。

  SoC 包括核心复合体芯片 (CCD),其中包含核心复合体 (CCX),其中包含基于“Zen 4”的核心ob欧宝。 CCD 围绕中央高速 I/O 芯片(并通过Inityfabric互连)。

  AMD EPYC 8004 系列处理器基于新的“Zen 4”计算核心。“Zen 4”内核采用 5 纳米工艺制造,旨在比上一代“Zen”内核提供每周期 指令 (IPC) 提升和频率改进。每个核心都具有更大的二级缓存,并且比上一代提高了缓存效率。每个“Zen 4”核心包括:

  ‧ 高达1MB 的专用统一(指令/数据)L2 缓存。所有高速缓存均使用64B高速缓存大小。

  每个核心都支持同步多线个单独的硬件线程独立运行,共享相应内核的二级缓存。

  显示了一个核心复合体(CCX),其中多达8个基于“Zen4”的核心共享一个16 MB的三级或最后一级缓存(LLC)。启用同步多线程(SMT) 允许单个CCX支持多达16个并发硬件线程。

  IOD提供了6个统一内存控制器,支持DDR5内存。 IOD 提供系统 OEM/设计人员可以配置以支持各种 IO 接口的链接。

  AMD EPYC 8004 系列处理器使用非统一内存访问 (NUMA) 架构,其中可能存在不同的延迟,具体取决于处理器核心与内存和 I/O

  控制器的距离。使用同一 NUMA 节点中的资源可提供统一的良好性能,而使用不同节点中的资源会增加延迟。1.10.1 NUMA 设置

  用户可以调整系统每插槽 NUMA 节点数(NPS) BIOS 设置,以针对其特定操作环境和工作负载优化此 NUMA 拓扑。例如,设置 NPS=2,如第 4 页的“内存和 I/O”中所示 将 AMD EPYC 处理器分为两半,每半有 2 个 CCD、3 个 UMC 和 2 个 I/O 集线器。最近的处理器内存 I/O 距离位于同一象限内的内核、 内存和 I/O 外设之间ob欧宝。最远的距离是跨不同半部的核心和内存控制器或 IO 集线器之间的距离ob欧宝。基于 NUMA 的系统中核心、内存 和 IO 集线器/设备的位置是性能调整时的一个重要因素。

  NPS 设置还控制 NUMA 节点内内存通道的交错模式。给定 NUMA 节点内的每个内存通道都是交错的。随着 NPS 设置变得更加精 细,交错的通道数量会减少。例如:

  NPS=2 设置将处理器配置为两个 NUMA 域,将一半核心和一半内存通道分组到一个 NUMA 域,并将剩余核心和内存通道分组到 第二个 NUMA 域。内存在每个 NUMA 域中的三个内存通道之间交错。 PCIe 设备将位于两个 NUMA 节点之一的本地,具体 取决于具有该设备 PCIe 根联合体的一半。 AMD 建议对大多数工作负载使用 NPS1 或 NPS2。

  NPS=1 设置表示单个NUMA 节点。此设置将处理器上的所有内存通道配置为单个 NUMA 节点。所有处理器核心、所有连接的内存以 及连接到 SoC 的所有 PCIe 设备都位于该一个 NUMA 节点中。内存跨处理器上的所有内存通道交错到单个地址空间中。您还可以通过使用LLC(L3 缓存)作为 NUMA来进一步提高某些环境的性能 用于将工作负载与共享单个 LLC 的计算核心相关联的 BIOS 设置。启用此设置将每个共享 L3 或 CCX 等同于一个单独的 NUMA 节点,作为每个 CCD 的唯一 L3 缓存。启用此设置后,具有 4 个 CCD 的单个 AMD EPYC 8004 系列处理器最多可以有 8 个 NUMA 节 点。

  因此,单个 EPYC 8004 系列处理器可以支持从 1 到 4 个 NUMA 节点的各种 NUMA 配置,具体取决于填充的 UMC 数量。 NPS4 可能是某些 EPYC 8004 系统上的一个选项/处理器;然而,UMC 的不对称性意味着 NPS1 或 NPS2 通常会提供更好的结果。如果软件需要了解 NUMA 拓扑或核心枚举,则必须使用记录的操作系统 (OS) API、定义良好的接口和命令。不要依赖过去有关 APICID 或 CCX 排序等设置的假设。

  显示了 AMD EPYC 8004 系列处理器的处理器命名约定以及如何使用此约定来识别特定处理器型号:

  ‧步进:可用于进一步识别较小的设计变更例如,系列、型号和步进(十进制)的CPUID值 25、17、1 对应于“B1”部分“Zen 4”CPU。

  AMD EPYC 8004 系列处理器引入了多项新功能,可增强性能、ISA 更新、提供额外的安全功能以及提高系统可靠性和可用性。 一些新功能包括:

  并非所有操作系统或虚拟机管理程序都支持所有功能。请参阅您的操作系统或虚拟机管理程序文档以了解特定版本,以确定对这 些功能的支持。

  另请参阅最新版本的AMD64 架构程序员手册或AMD 系列 19h 的处理器编程参考 (PPR)。

  AVX‑512 是一组支持 512 位寄存器宽度数据(即单指令、多数据 [SIMD])操作的单独指令。 AMD EPYC 8004 系列处理器通 过“双泵”256 位宽寄存器实现 AVX 512。AMD 的 AVX‑512 设计使用与 Zen4 核心相同的 256 位数据路径,使两个部分能够在连续的时钟周期上执。这意味着在 AMD EPYC 8004 系列上运行AVX‑512 指令既不会导致有效频率下降,也不会导致功耗增加。相反,许多工作负载在 AVX‑512 上运行比在 AVX‑256P 上运更节能。

  ‧ 用于深度学习模型并加速的矢量化神经网络指令 (VNNI) 指令 神经网络通过为卷积运算提供硬件支持来进

  ‧ Brain 浮点16 位(BFLOAT16) 数字格式。此格式用于机器学习应用程序 需要高性能,但还必须节省内存和带宽。 BFLOAT16 支持使 SIMD 操作数的数量比32位单精度FP增加一倍,从而允许使用相同的内存带宽处理两倍的数据量。 BFLOAT16 以牺牲一个小数点为代价来评估尾数动态范围。

下一篇:ob欧宝【芯片论文】华为鲲鹏920:首款基于7nm Chiplet的64核云服务ARM SoC
上一篇:ob欧宝处理器与AI芯片-阿里平头哥-NPURISC-V

咨询我们

输入您的疑问及需求发送邮箱给我们