欢迎访问集团网商讯

戴尔PowerScale存储升级 用于AI模型训练

金融科技 2024-05-214175user95655242

戴尔宣布推出具有并行文件系统的 PowerScale F910 系统。

PowerScale 是戴尔对收购的 EMC Isilon 横向扩展文件管理器的名称。到目前为止,共有五种全闪存 PowerScale 型号:F200、F210、F600、F710 和 F900,PCIe 第 5 代总线使用 F210 和 F710 系统,并使用 Sapphire Rapids Intel CPU。这些都是运行 OneFS 操作系统的具有直接连接存储的 PowerEdge 服务器。它们可以与 3 到 252 个节点进行群集。

F910 与 F900 一样,采用带有 24 个 NVMe 驱动器的 2RU 机箱。它每个节点最多可容纳 1.87 PB 的容量,这意味着它使用 61 TB SSD,我们认为是 Solidigm 的 QLC SSD。戴尔非结构化数据解决方案(UDS)集团高级产品经理汤姆·威尔逊(Tom Wilson)在F910博客中表示,F910“与早期发布的F710相比,每个RU的密度提高了20%。

F910 本质上是从 Cascade Lake 升级到 Sapphire Rapids CPU 以及从 Gen 3 PCIe 升级到 Gen 5 总线的 F900。与 F9.8 和 F210 的 OneFS v9.7 相比,它还需要 OneFS v9.7。

F910 在本地可用,其 OneFS v9.8 操作系统在公有云中作为 APEX 文件存储(AWS 和 Azure)提供。戴尔表示,F910 的流媒体性能比 F900 高 127%,比 Azure NetApp Files 产品快六倍。戴尔表示,这是英伟达DGX SuperPOD的第一个以太网存储系统。

Wilson 在博客中写道:“它加速了 AI 管道的模型检查点和训练阶段,并使每个集群的 GPU 利用高达 300 PB 的存储空间。他补充说:“通过提供比上一代产品高出 2 倍的每瓦性能来控制存储成本并优化存储利用率”,这意味着运行 OneFS 9.5 的 F900。

OneFS 9.8 为 NFS v4.1 提供 RDMA、为 Azure 提供 APEX 文件存储以及为 IPv6 网络提供基于源的路由。PowerScale OS 据称可以保护 AI 数据免受中毒和模型反演,其中攻击者根据目标模型的输出训练自己的机器学习模型,因此可以从目标模型的输出中预测目标模型的输入数据。这类似于使用一种人工智能模型数字孪生的逆向工程。Defense.AI 博客可以告诉你更多。OneFS 如何提供针对模型反转的防御措施尚未公开。

戴尔ISG营销高级副总裁Varun Chhabra在简报中表示:“我们很高兴地宣布Project Lightning将为PowerScale中的非结构化数据提供并行文件系统。Project Lightning将带来极致的性能和无与伦比的效率,以及接近线速的效率——97%的网络利用率,以及使1000个数据饥渴型GPU饱和的能力。

与传统的全闪存、横向扩展NAS供应商相比,Lightning的性能将提高20倍,使PowerScale成为最先进的AI工作负载的完美平台。

戴尔的 Project Lightning 有着悠久的历史。早在 2010 年,这个项目就涉及基于 PCIe/闪存的服务器缓存技术。它已进展到使 PowerScale 群集节点能够并行执行 I/O。戴尔没有透露F910软件如何更改以添加并行文件系统访问的任何细节。例如,OneFS 9.8 发行说明中没有提到并行访问。

我们没有被告知并行文件系统支持是否扩展到其他全闪存 PowerScale 产品。戴尔被问及这些要点。

Chhabra 补充了一些网络要点:“GPU 越来越大,要求也越来越高。因此,网络还必须保持从 GPU 流向 GPU 的数据量。从服务器到存储。网络是巨大的。因此,我们与 Broadcom 合作,发布了一些非常重大的公告,以帮助客户使用他们的 AI 网络结构,以确保他们从基础设施中获得最大性能。我们拥有全面的基于 Ethternet 的 NIC、交换机和网络结构产品组合,我们正在所有这些方面取得进展。从基于 Broadcom Tomahawk 5 的全新 PowerSwitch 开始,它将支持 400 G 和 500 G 交换。

威尔逊说:“我们将在今年下半年宣布进一步的改进。这些是:

61TB QLC 硬盘,将存储容量和数据中心密度提高一倍,以容纳训练复杂 AI 模型所需的大型数据集。

包括 200GbE 以太网和 HDR 200G InfiniBand 选项,可实现更强的连接性、更快的数据访问和更无缝的集群扩展;NVIDIA Spectrum-4 和 Quantum QM8790 交换机。

PowerScale F910 将于 2024 年 5 月 21 日起在全球上市。您可以在此处的规格表及其PowerScale网站上找到有关戴尔AI优化的PowerScale节点的更多信息。

戴尔发言人告诉我们:“新的并行文件系统将在晚些时候推出,我们今天没有透露可用性。

PowerScale 市场地位

戴尔的并行文件系统 IO 壮举使 PowerScale 成为 Lustre、IBM 的 Spectrum Scale、VAST Data、WEKA 和其他并行访问文件系统存储播放器的竞争对手。它立即将 PowerScale 升级为 AI 模型训练存储的有力竞争者,因为所有最快的 Nvidia GPUDirect 合格文件系统本质上都是并行的,而不是顺序的。

2 月 22 日,迈克尔·戴尔 (Michael Dell) 在推特上写道:“如果存储不能足够快地向其提供数据,@nvidia 的 GPU 通常会处于空闲状态。这就是我们创建 PowerScale 的原因,这是世界上最快的 AI 存储。该评论与GPUDirect供应商的统计数据不符,该统计数据显示,与DDN,华为,IBM,NetApp以及BeeGFS,VAST和WEKA的并行系统相比,当时的IO PowerScale落后。

现在情况应该不同了,我们期待看到更新的 PowerScale GPUDirect 性能数据。

通过采用并行访问,PowerScale 现在与 NetApp 区分开来,后者的 ONTAP 文件系统产品本质上是横向扩展的,本质上是非并行的,并且出于同样的原因也与 Qumulo 区分开来。

The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

Copyright © 2099 集团网商讯 版权所有

苏ICP备2023036119号-9 |——:合作/投稿联系微信:nvshen2168

|—— TXT地图 | 网站地图 |