四川成都戴尔服务器_Dell EMC PowerEdge R750xa 评测 低密度加速

本站
2025-02-06 11:30:29
2484人看了



今天,我们来看看 Dell EMC PowerEdge R750xa 服务器。这是一款加速的 2U 系统,戴尔希望它能插在下面的 PowerEdge R750 服务器 和 上面的Dell EMC PowerEdge XE8545 服务器之间。作为代号为 Ice Lake 的第三代英特尔至强可扩展系统,我们在这个平台上获得了加速计算的新功能。在我们的评测中,我们将看看这些新功能以及 Dell EMC 采取的一些独特的设计角度。

 

这是一个很难评测的系统。大多数 STH 读者都知道我真的很喜欢 PowerEdge 设计。如果我们没有在 STH 评测那么多 GPU 服务器,PowerEdge R750xa 将是一个绝对出色的系统。由于我们评测了戴尔和其他公司的许多 GPU 服务器,因此很难爱上这个系统。在这篇评测中,我们将说明原因。

Dell EMC PowerEdge R750xa 机架式服务器 硬件概览


我们将把这次评论分为外部和内部硬件概述,就像我们最近的许多评论一样。

 

Dell EMC PowerEdge R750xa 企业级服务器 外部硬件概览
PowerEdge R750xa 实际上是 PowerEdge C4140 的替代品,而且有一个显而易见的变化:这个替代品是 2U,而不是 1U。额外的高度允许更多组件和更多冷却。这也意味着深度只有大约 837.2-872.8 毫米深,或 33 英寸到 34.5 英寸范围内。虽然它仍然是一个相当深的服务器,但比其前身更容易装入机架。此外,戴尔告诉我们,对于大多数客户来说,机架密度不是问题,因为这些加速系统消耗大量电力。

 

需要注意的是,系统前部的机架耳朵上有 USB、VGA 和服务端口,而系统的其余部分专用于 GPU 气流和磁盘。

 

在系统的正面,我们有 SATA、SAS 和 NVMe 2.5 英寸托架。在这里可以看到四个 SAS 驱动器以及四个 NVMe 驱动器。

 

 

有趣的是,PERC 卡安装在驱动器托架的后部,而不是位于机箱的后部。我们目前的一般指导方针是跳过 SAS 控制器,只使用 NVMe 作为 SSD。

 

在系统后部,我们可能获得更多功能。由于这是一个加速系统,我们有两个 2.4kW 电源。如果机架两侧都有 A+B PDU,则戴尔会在两侧使用 PSU 以缩短电缆布线。

 

从这一代产品开始,戴尔已转向更加模块化的后置 I/O 配置,因此低速 I/O 为 iDRAC NIC、USB 端口和 VGA 配备了自己的 PCB。

 

 

网络通过 OCP NIC 3.0 插槽处理。由于这是英特尔系统,而不是 AMD 系统,因此双插槽服务器中可用的 PCIe 通道有限,只有 128 条,而不是 160 条。其影响是,使用前置 SAS/NVMe 和四个 PCIe Gen4 x16 GPU,我们只有 OCP NIC 3.0 插槽以及两侧的薄型 x16 转接卡。从这张照片中可以看出,戴尔采用免工具设计来接触转接卡,但由于需要在此过程中移除许多模块,因此我们花费的时间肯定比普通的 2U GPU 服务器转接卡更长。

 

也许最酷的功能是戴尔 BOSS 选项。它在适配器板上有两个 M.2 SSD,它们被放置在机箱的后部。未来,我们预计这些将是 E1.S SSD,因为这是 EDSFF 外形尺寸已经在超大规模中解决的特定应用,因此我们预计戴尔将在未来几年将其带给客户。

 

在系统内部,我们从 GPU 和存储开始,然后是风扇分区,接着是 CPU 和内存,最后是后置 I/O 和电源。

 

戴尔的配置将 I/O 板放在机箱前部,以获得最冷的气流。通过将它们放在提升板上,而不是实际连接到系统前部的 I/O 板上,它们主要用于无头加速器,如 NVIDIA A100。有些系统将 GPU 连接到机箱的前部或后部,因此高端 FPGA 和其他加速器可以使用板载结构端口。不过,我们的感觉是 NVIDIA GPU 将成为该系统的畅销产品,因此大多数客户不会介意这种设计。

 

 

戴尔配置的一个非常好的功能是,与 PowerEdge C4140 和一些竞争系统不同,通过堆叠 GPU,戴尔可以在 GPU 对之间使用 NVLink 桥。

 

戴尔不仅可以支持更高端的 NVIDIA A100 PCIe 卡,还允许同一 CPU 上的 A100 对使用 NVLink 而不是 PCIe 进行通信。配备 SXM GPU 的 C4140 和 PowerEdge XE8545 允许所有 GPU 通过 NVLink 进行通信,从而绕过 CPU 到 CPU 流量的主要瓶颈(例如 UPI/Infinity Fabric)。XE8545 还支持更多 PCIe 通道、更多内核和更高 TDP/性能的 NVIDIA A100。虽然两者的规格表中都列出了四个 A100,但 XE8545 是高端解决方案。

 

戴尔设计中最大的挑战或许在于更换 GPU 的过程并不快捷。虽然看起来只需按下解锁按钮,然后弹出 GPU,但戴尔却采用九步流程,几乎涵盖整个机箱,每个 GPU 托架的标签上都印有这一流程。

 

戴尔的设计在风扇隔板中间设置了线缆接入通道,并将线缆布线到机箱侧面。由于没有空间来维修 GPU 并轻松断开线缆,因此必须进行 9 步操作才能拆下 GPU 提升板,然后执行任何替换步骤,最后再执行 9 步操作才能将东西重新组装起来。组件和线缆的数量之多,使得这款服务器成为我们测试过的戴尔服务器中最容易出现对齐不准的重新安装之一。

 

 

部分挑战在于步骤基本如下:

断开机箱后部主板侧的 GPU 线缆。这通常也意味着 SAS/NVMe 连接。
根据需要从风扇罩上解开 GPU、SAS/NVMe 连接
从 CPU 和内存上取下风扇罩
打开电缆接入门
从电缆接入通道中移除 GPU、SAS/NVMe 连接
拆除整个风扇隔板
从挂钩上取下电缆,将电缆从风扇隔板两端的通道中固定下来
从主板正面移除连接
按下按钮并使用闩锁移除立管本身
完成所有这些操作后,还需要更多步骤才能拆开提升板并取出 GPU。此外,由于必须拆除风扇罩,因此需要断开其他 GPU 和驱动器的连接。由于这种设计,在组装时,发生附带损坏或错过重新连接的可能性更高。

 

这是一种非常奇怪的感觉。戴尔竭尽全力让所有这些完美地结合在一起。整个系统甚至用黑色或灰色进行颜色编码,以便可以轻松通过系统跟踪 CPU-GPU 连接。同时,在测试了来自不同供应商的如此多 GPU 系统后,R750xa 中的 GPU/加速器提升板的维修难易程度与竞争系统之间存在巨大差距。戴尔的客户可能不知道戴尔生态系统内部还有什么更好的选择,但由于在这些系统中有更广泛的背景,R750xa 的 GPU 提升板情况绝对是维修的噩梦。

 

另一方面,风扇很棒。除了风扇隔板中间的电缆接入外,一切都非常容易维修。整个隔板都可以通过双杆系统拆卸,这很棒。风扇本身是双风扇模块,可能是整个行业中最容易更换的风扇之一。

 

该系统使用双 Intel Xeon Scalable Ice Lake 版处理器,由于在冷却方面投入了大量精力,戴尔可以扩展到高端配置。每个处理器都有 8 个内存通道和双通道配置,每个 CPU 总共有 16 个 DIMM 插槽,每个系统有 32 个。在这个系统中可以使用 Intel Optane PMem 200 DIMM,但系统温度限制在 30C 环境中,而不是 35C。

 

顺便说一句,虽然我们提到了 GPU/加速器提升板访问的 9 步流程,但该设计还有另一个重要方面。由于连接经过 CPU 和内存气流导向器,因此必须拆除电缆才能取出气流导向器。这使得维修故障 DIMM 或升级内存容量的任务比其他 PowerEdge 服务器或竞争系统要长得多。

 

 

气流导向器非常好。它们根据 CPU 进行颜色编码,并与每个 GPU 关联的 PCIe 电缆相匹配。还有固定钩来固定中央通道电缆。这实际上是一个很棒的概念。但它会导致系统维护时间更长、风险更高。

 

这是一个有趣的模块,原因有几个。这里的蓝色电缆走向不同。一条穿过中央通道,另一条绕过底盘侧面。另一个原因是,这个模块需要小心重新组装,因为许多推片靠得很近。轻轻一推,这些推片就会松动。这是一个更大的挑战,因为在设计时需要移除它们才能维修内存或 GPU。

 

这里有一个有趣的注意事项,虽然两个低调转接卡适用于不同的 CPU,但它们都是低调设计。这意味着不能使用像 NVIDIA BlueField-2 100Gbps DPU 这样的全高卡的高端网络。虽然转接卡有不同的选择,但这也由系统其余部分的配置决定,因为只有这么多 PCIe 通道可供使用,而且需要这么多的冷却。

 

NVIDIA A100 MIG
该系统的一个非常重要的功能是对 NVIDIA MIG 的支持。借助 NVIDIA MIG,可以将物理 A100 GPU 拆分为多个较小的逻辑 GPU,最多可拆分 7 个。

 

这意味着可以安装四个 NVIDIA A100 GPU,然后将它们拆分,使用 MIG 为系统提供 8-28 个 GPU。对于许多 AI 推理任务,将 A100 拆分成多个 GPU 比未充分利用较大的 GPU 更有效。每个 MIG 实例都可以由单个 VM 使用,并且可以即时进行配置。

 

iDRAC 9 管理
PowerEdge R750xa 机架式服务器 的最大特点之一是它支持 iDRAC。对于那些不知道的人来说,iDRAC 是戴尔在服务器级别的管理解决方案。它的BMC被称为 iDRAC 控制器。对于戴尔生态系统中的人来说,您可能知道 iDRAC 是什么。

 

我们不会花太多时间介绍这里的 iDRAC 解决方案。它实际上与我们在 Dell EMC PowerEdge R7525 评测中看到的类似,只是增加了对 GPU 和不同风扇/驱动器配置的监控。R750xa 与竞争系统之间的一个显着区别是,许多 GPU 系统旨在最大限度地提高 GPU/$ 和性能/$。因此,除了 HPE 和联想之外,通常还会包括 GPU 系统上的 iKVM 支持等功能。使用戴尔时,需要升级许可证才能执行此操作。

 

对于大多数戴尔商店来说,最大的好处是能够使用 Open Manage 管理 R750xa。这是可以管理从Dell EMC PowerEdge XE7100 存储平台到 Dell EMC PowerEdge MX再到 Dell EMC PowerEdge C6525的一切的同一管理平台。

 

接下来我们来看看性能。

Dell EMC PowerEdge R750xa 性能
就性能而言,在 GPU 加速系统中,最大的差异往往来自电源和冷却。因此,我们在系统中装载了 4 个 NVIDIA A100 40GB 卡和两个 Intel Xeon Platinum 8380 CPU,以查看系统冷却组件的能力以及性能。我们在数据中心的冷通道中使用 27.1C 的环境温度。

 

在 CPU 性能方面,CPU 的冷却速率似乎与没有 GPU 的标准 2U 服务器大致相同,这是理想的结果。

 

虽然这种性能不错,但还未达到令人惊艳的程度,以至于人们会将其与白盒系统相提并论。这种性能足以让戴尔继续使用戴尔的产品,但它并不是一款会让公司更换供应商的机器。

 

 

【代理级别】成都DELL服务器工作站总代理

【销售经理】熊经理

【联系方式】座机:028-85596747    手机:18244236404

【公司地址】成都市人民南路 科华路口 群益商务大厦403

成都戴尔服务器
Dell EMC PowerEdge R750xa
Dell EMC PowerEdge R750xa服务器
戴尔R750XA服务器
DELLR750XA服务器
成都戴尔服务器经销商

大家都看了

可能感兴趣

本网站不支持ie10及以下版本浏览器,请使用谷歌浏览器或其他浏览器访问,感谢您的支持。