Project Ceiba
在云端构造世界上速度最快的人工智能超级计算机之一
在云端构造世界上速度最快的人工智能超级计算机之一
Ceiba 项目是 AWS 和 NVIDIA 之间的一项开创性合作,其目标是在云端构造世界上最快的人工智能(AI)超级计算机之一,以此突破人工智能的界限。这台尖端的超级计算机完全在 AWS 上托管,将为 NVIDIA 在人工智能领域的研发工作提供支持。
推动前沿创新
NVIDIA 研发团队将利用 Project Ceiba 的强大功能推动各个前沿领域实现进步,包括大语言模型(LLM)、图形(图像、视频和 3D 生成)、模拟、数字生物学、机器人、自动驾驶汽车、借助 NVIDIA Earth-2 进行气候预测等等。这一开创性举措将助力 NVIDIA 不断推进生成式人工智能的发展,同时推动其在不同领域的广泛应用,进而塑造人工智能的未来。
可扩展的人工智能基础设施
Project Ceiba 可通过英伟达 DGX Cloud 架构使用。DGX Cloud 是一个面向开发人员的端到端、可扩展人工智能平台,其提供基于最新 NVIDIA 架构构造的可扩展容量,并且每一层都与 AWS 共同设计。搭载 GB200 的 DGX Cloud 已在 AWS 上可用,并且在英伟达 GTC DC 2025 期间,英伟达还宣布加入 GB300 NVL72。Project Ceiba 基于 AWS 专门构造的人工智能基础设施构造,旨在为此类规模的超级计算机提供其所需的巨大规模、更高安全性以及卓越性能。
数据
的每个超级芯片吞吐量,支持闪电般快速的数据传输和处理
NVIDIA Blackwell GPU,业界首创的超级计算机
功能
Project Ceiba 的配置现在包括 GB300 以及 20,736 颗英伟达 GB200 Grace Blackwell 超级芯片。这台业界首创的超级计算机使用 NVIDIA 最新的 GB200 NVL72(采用第五代 NVLink 的液冷机架级系统)构造,可扩展到 20736 个 Blackwell GPU,与 10368 个 NVIDIA Grace CPU 相连。这台超级计算机每秒能够处理 414 EFLOPS 的浮点运算,比目前世界上最快的超级计算机“Frontier”还要强大 375 倍左右。即使把全世界目前的超级算力全部相加,也达不到每秒 414 EFLOPS 的浮点运算所代表算力的 1%。从这个角度来看,这相当于让 60 多亿台世界上最先进的笔记本电脑同时工作。更进一步说,如果地球上的每个人每秒进行一次计算,也需要 1660 多年的时间才能完成 Project Ceiba 只需一秒就能完成的计算。
Project Ceiba 是第一个利用第四代 AWS Elastic Fabric Adapter(EFA)联网所支持的大规模横向扩展功能的系统,为每个超级芯片提供了前所未有的 1600 Gbps 的低延迟、高带宽网络吞吐量,实现了闪电般快速的数据传输和处理。
-
液冷技术已存在多年。玩家会在其个人游戏计算机上使用此技术。虽然这不是一项新技术,但在 Project Ceiba 之前,AWS 特意选择了空冷技术而不是液冷技术,因为前者具有成本效益。为了应对功率密度挑战,并在 Project Ceiba 中实现卓越的计算能力,AWS 率先在数据中心大规模使用液冷技术来提供更高效、更可持续的高性能计算解决方案。
Project Ceiba 将整合业界领先的安全功能,这些功能经过专门设计,即使是最敏感的人工智能数据也能得到保护。对于与 AWS Nitro System 和 EFA 技术集成的 GPU,NVIDIA 的 Blackwell GPU 架构可提供这些 GPU 之间的安全通信,此架构将为生成式人工智能工作负载提供安全的端到端加密数据。这种联合解决方案可以解密敏感的人工智能数据并将其加载到 GPU 中,同时保持与基础设施运营商的完全隔离。同时还可验证用于处理数据的应用程序的真实性。使用 Nitro System,客户可以通过 AWS Key Management System(KMS)以加密方式验证其应用程序,并且只在必要的检查通过时才解密数据,从而确保数据流经生成式人工智能工作负载时均经过端到端加密。阅读此博客并访问安全的人工智能网页,了解更多信息。