Supermicro 的端到端液冷解决方案,利用 NVIDIA Blackwell 平台推动行业,向可持续的人工智能数据中心过渡
加利福尼亚州圣何塞2024年10月17日 /美通社/ -- Supermicro, Inc.(纳斯达克:SMCI)是人工智能 (AI)、云端、存储和 5G/Edge 的整体 IT 解决方案提供商正在利用 NVIDIA Blackwell 平台,向液冷数据中心加速过渡,为新人工智能基础设施快速增长的能源需求提供新的能效模式。Supermicro 业界领先的端到端液体冷却解决方案,由 NVIDIA GB200 NVL72 平台提供支持,可在单机架上进行百万兆级计算,并已开始向部分客户提供样品,并将于第四季度末全面投产。此外,最近发布的 Supermicro X14、H14 4U 液冷系统以及 10U 风冷系统已准备就绪,可用于 NVIDIA HGX B200 8-GPU 系统。
Supermicro 总裁兼首席执行官 Charles Liang 表示:"我们正在推动可持续 AI 计算的未来,我们的液冷 AI 解决方案,正在被世界上一些最具野心的 AI 基础设施项目争相采用,自 2024 年 6 月以来已出货的液冷机架计有 2,000 多个。" "Supermicro 的端到端液体冷却解决方案采用 NVIDIA Blackwell 平台,可释放下一代 GPU 的计算能力、成本效益和能效,例如 NVIDIA GB200 NVL72(单个机架中的超大规模计算机)的计算能力、成本效益和能效。Supermicro 在部署液冷 AI 基础设施方面的丰富经验,以及全面的现场服务、管理软件和全球制造能力,为客户在使用最强大、最可持续的 AI 解决方案改造数据中心方面提供了明显的优势。"
https://www.supermicro.com/en/solutions/ai-supercluster
Supermicro 为基于 NVIDIA GB200 NVL72 平台的系统推出的液冷超级集群,采用全新的先进机架内或行内冷却剂分配单元 (CDU),以及定制冷板,用于在 1U 外形中容纳两个 NVIDIA GB200 Grace Blackwell 超级芯片的计算托盘。Supermicro 的 NVIDIA GB200 NVL72 利用 Supermicro 的端到端液冷解决方案,在单个机架中实现了超大规模 AI 计算能力。该机架解决方案,集成了 72 个 NVIDIA Blackwell GPU 和 32 个 NVIDIA Grace CPU,通过 NVIDIA 第五代 NVLink 网络互连。NVIDIA NVLink 交换机系统,以极低的延迟实现每秒 130 太字节 (TB/s) 的 GPU 总通信量,从而增强了人工智能和高性能计算 (HPC) 工作负载的性能。此外,Supermicro 支持最近发布的 NVIDIA GB200 NVL2 平台,采用紧密耦合的两颗 NVIDIA Blackwell GPU 和两颗 NVIDIA Grace CPU 的 2U 风冷系统,适合轻松部署各种工作负载,如大型 LLM 推理、检索增强生成 (RAG)、数据处理和高性能计算 (HPC) 应用。
Supermicro 领先的 4U 液冷系统和全新的 10U 风冷系统,现已支持 NVIDIA HGX B200 8-GPU 系统,并可投入生产。新开发的冷板和 250kW 容量的机架内冷却剂分配装置,最大限度地提高了 8 GPU 系统的性能和效率,在一个 48U 机架内可提供 64x 1000W NVIDIA Blackwell GPU 和 16x 500W CPU。最多 4 个全新 10U 风冷系统可以安装并完全集成到机架中,其密度与上一代相同,同时提供高达 15 倍的推理和 3 倍的训练性能。
SuperCloud Composer 软件是 Supermicro 的综合数据中心管理平台,提供强大的工具,用于监控有关液冷系统和机架、冷却剂分配装置和冷却塔的重要信息,包括压力、湿度、泵和阀门状况等。SuperCloud Composer 的液体冷却咨询模块 (LCCM),冇助优化液体冷却数据中心的运营成本并管理其完整性。
Supermicro 为数万亿参数的人工智能模型扩展基础架构,走在采用 InfiniBand 和以太网创新网络技术的前沿,包括 NVIDIA BlueField®-3 SuperNIC 和 400Gb/s 的 NVIDIA ConnectX®-7、NVIDIA ConnectX®-8、Spectrum™-4 和 NVIDIA Quantum-3 为 NVIDIA Blackwell 平台提供 800Gb/s 的网络连接。NVIDIA Spectrum-X™ Ethernet 与超微公司的 4U 液冷和 8U 风冷 NVIDIA HGX H100 和 H200 系统集群配合使用,现在为迄今为止最大的 AI 部署之一提供动力。
Supermicro 是一站式商店,从概念验证 (PoC) 到全面部署,提供所有必要的技术、液体冷却、网络解决方案和现场安装服务。Supermicro 提供全面的、内部设计的液体冷却生态系统,包括针对各种 GPU、CPU 和内存模块进行了优化的定制冷板,还有多种 CDU 外形和容量、歧管、软管、连接器、冷却塔以及监控和管理软件。这种端到端解决方案无缝集成到机架级配置中,显着提高系统效率,缓解热节流,同时降低数据中心运营的总体拥有成本 (TCO) 和对环境的影响,以迎接人工智能时代的来临。
Supermicro 参加 2024 OCP Global Summit
2024 年 10 月 15 日至 17 日,请在加利福尼亚州圣何塞 OCP Global Summit 的 #21 号展位了解更多信息。