在现代系统架构中,有很多不断变化的系统软件部分(特别是在控制平面中),并且它们的工作负载通常在硅片之间进行,以获得更好的性价比,提高系统的整体安全性,或两者兼而有之. 但重要的是要记住,一个计算引擎的卸载是另一个计算引擎的加载,无论如何,计算仍然需要在某个地方完成。
借助与“Rosetta”Slingshot 以太网交换机 ASIC 协同工作的新型“Cassini”Slingshot 11 网络接口卡,HPE 已经卸载了一些用于使用消息传递接口管理用于计算和通信的控制平面的计算(MPI) 协议通常用于分布式 HPC 应用程序,有时用于从 CPU 到 GPU 的 AI 训练框架——有趣的是,不是网络接口卡本身。
HPE 工程师创建的这种卸载技术称为流触发通信,它是橡树岭国家实验室“前沿”百亿亿级超级计算机的一部分,许多机器将成为这个百亿亿级块的芯片。在最近的一篇论文中,HPE 展示了新的 MPI 卸载方法,区分了GPU 感知的典型 MPI 通信与GPU流感知的流触发方法。
这是要点。使用普通的 GPU 感知 MPI 软件,在节点内部,GPU 供应商——今天唯一重要的两个是 Nvidia 和 AMD——有自己的机制在 GPU 之间进行点对点通信——在这种情况下是 NVLink 和 Infinity Fabric。对于位于不同节点的 GPU 之间的 MPI 数据交换(运行大型模拟和模型以及大型 AI 训练运行通常需要),MPI 数据移动是通过几十年前由 InfiniBand 适配器开创的远程直接内存访问方法完成的,允许在 GPU 和网络接口卡之间传输数据,而无需主机 CPU 的网络堆栈的交互。
这一切都很好,但是即使在现代 MPI 堆栈中使用这些 GPU 感知方法,仍然需要 CPU 线程来同步节点之间的操作并协调计算引擎之间的数据移动。“这一要求导致所有通信和同步操作都发生在 GPU 内核边界,”该论文的作者写道。
借助 HPE 为 Cassini 适配器和 Rosetta ASIC 创建的流触发技术,GPU 的内核操作排队并放入并发流中,GPU 内核操作的流被包装在允许这些操作的命令描述符中稍后触发,控制操作附加到 GPU 流,重要的是,这些操作由 GPU 控制处理器执行,而不是 CPU。
超级计算机的诀窍(如果有的话)是,整个系统中的无数增量变化加起来可以在性能和规模上实现阶跃函数的改进。正是这种对细节的关注,发生在 HPC 和 AI 中使用的每个网络堆栈和计算框架中,才使真正的进步成为可能。我们没有介绍这种新的流触发技术,因为它可以使 HPC 和 AI 应用程序性能翻倍,而是为了说明许多小的增量步骤的原理,深入到硬件架构和系统软件的 gorp 是什么使得这一步功能高阶吧。
为了测试 MPI 的流触发 GPU 加载技术,HPE 从 CORAL-2 采购软件堆栈中获取了 Nekbone 基准,该基准导致美国能源部创建了三台 exascale 级机器。Nekbone 是Navier-Stokes 求解器中的核心内核之一,称为 Nek5000。从 Nekbone 中提取出来用于性能测试的微基准内核之一称为 Faces,这是 HPE 用来测试基于 AMD Epyc 处理器和 AMD Instinct GPU 的节点的内核,大概是在 Oak Ridge,但也许在实验室里。(论文不清楚。)我们知道 Faces 测试是在 8 个节点上运行的,每个节点有 8 个 MPI 进程,8 个节点,每个节点有一个 MPI 进程。
但是当每个节点只有一个 MPI 进程时,性能提升了 4% 到 8%:
HPE 指出,这只是这项研究的开始,它正在努力“确定完全卸载 ST 通信语义的选项,以从新接口中获得最大的性能优势。”
我们想知道的是:所有这些 MPI 处理不是更自然地在 DPU 上执行吗?也许从长远来看,它会是。但就目前而言,在没有 DPU 的架构中,将一些 MPI 工作分流到 GPU 看起来是一个很好的权宜之计。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都惠普HPE服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
友情链接: 成都惠普服务器 成都HP工作站经销商四川慧与存储器成都HPE服务器成都H3C服务器四川HP图形工作站 成都戴尔服务器工作站 成都联想服务器工作站 成都浪潮服务器 成都超聚变服务器 成都华三(H3C)服务器 四川戴尔台式机笔记本销售中心 四川联想服务器经销商 成都dell台式机笔记本直销中心
Copyright 2021-2022 cditdl.cn 版权所有蜀ICP备2024051727号-5
请用微信扫描二维码