跳至主要内容

AWS 和 NVIDIA

Project Ceiba

在云端构造世界上速度最快的人工智能超级计算机之一

在云端构造世界上速度最快的人工智能超级计算机之一

Ceiba 项目是 AWS 和 NVIDIA 之间的一项开创性合作,其目标是在云端构造世界上最快的人工智能(AI)超级计算机之一,以此突破人工智能的界限。这台尖端的超级计算机完全在 AWS 上托管,将为 NVIDIA 在人工智能领域的研发工作提供支持。

推动前沿创新

NVIDIA 研发团队将利用 Project Ceiba 的强大功能推动各个前沿领域实现进步,包括大语言模型(LLM)、图形(图像、视频和 3D 生成)、模拟、数字生物学、机器人、自动驾驶汽车、借助 NVIDIA Earth-2 进行气候预测等等。这一开创性举措将助力 NVIDIA 不断推进生成式人工智能的发展,同时推动其在不同领域的广泛应用,进而塑造人工智能的未来。

Missing alt text value

可扩展的人工智能基础设施

Project Ceiba 可通过英伟达 DGX Cloud 架构使用。DGX Cloud 是一个面向开发人员的端到端、可扩展人工智能平台,其提供基于最新 NVIDIA 架构构造的可扩展容量,并且每一层都与 AWS 共同设计。搭载 GB200 的 DGX Cloud 已在 AWS 上可用,并且在英伟达 GTC DC 2025 期间,英伟达还宣布加入 GB300 NVL72。Project Ceiba 基于 AWS 专门构造的人工智能基础设施构造,旨在为此类规模的超级计算机提供其所需的巨大规模、更高安全性以及卓越性能。

Missing alt text value

数据

EFLOPS 的浮点运算,比当今世界上最快的超级计算机 Frontier 强约 375 倍

的每个超级芯片吞吐量,支持闪电般快速的数据传输和处理

NVIDIA Blackwell GPU,业界首创的超级计算机

功能

    Project Ceiba 的配置现在包括 GB300 以及 20,736 颗英伟达 GB200 Grace Blackwell 超级芯片。这台业界首创的超级计算机使用 NVIDIA 最新的 GB200 NVL72(采用第五代 NVLink 的液冷机架级系统)构造,可扩展到 20736 个 Blackwell GPU,与 10368 个 NVIDIA Grace CPU 相连。这台超级计算机每秒能够处理 414 EFLOPS 的浮点运算,比目前世界上最快的超级计算机“Frontier”还要强大 375 倍左右。即使把全世界目前的超级算力全部相加,也达不到每秒 414 EFLOPS 的浮点运算所代表算力的 1%。从这个角度来看,这相当于让 60 多亿台世界上最先进的笔记本电脑同时工作。更进一步说,如果地球上的每个人每秒进行一次计算,也需要 1660 多年的时间才能完成 Project Ceiba 只需一秒就能完成的计算。

    Project Ceiba 是第一个利用第四代 AWS Elastic Fabric Adapter(EFA)联网所支持的大规模横向扩展功能的系统,为每个超级芯片提供了前所未有的 1600 Gbps 的低延迟、高带宽网络吞吐量,实现了闪电般快速的数据传输和处理。 

    液冷技术已存在多年。玩家会在其个人游戏计算机上使用此技术。虽然这不是一项新技术,但在 Project Ceiba 之前,AWS 特意选择了空冷技术而不是液冷技术,因为前者具有成本效益。为了应对功率密度挑战,并在 Project Ceiba 中实现卓越的计算能力,AWS 率先在数据中心大规模使用液冷技术来提供更高效、更可持续的高性能计算解决方案。

    Project Ceiba 将整合业界领先的安全功能,这些功能经过专门设计,即使是最敏感的人工智能数据也能得到保护。对于与 AWS Nitro System 和 EFA 技术集成的 GPU,NVIDIA 的 Blackwell GPU 架构可提供这些 GPU 之间的安全通信,此架构将为生成式人工智能工作负载提供安全的端到端加密数据。这种联合解决方案可以解密敏感的人工智能数据并将其加载到 GPU 中,同时保持与基础设施运营商的完全隔离。同时还可验证用于处理数据的应用程序的真实性。使用 Nitro System,客户可以通过 AWS Key Management System(KMS)以加密方式验证其应用程序,并且只在必要的检查通过时才解密数据,从而确保数据流经生成式人工智能工作负载时均经过端到端加密。阅读此博客并访问安全的人工智能网页,了解更多信息。