Google Cloud 的 AI 超计算机架构的新增功能

跳转到内容

博客

解决方案与技术

生态系统

开发者与从业者

借助 Google Cloud 进行转型

联系销售人员

免费开始使用

计算

文章来自于谷歌云

Google Cloud 的 AI 超计算机架构的新增功能

2024 年 4 月 10 日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_Images_6-02.max-2500x2500.jpg

马克·洛迈尔

计算和人工智能基础设施副总裁兼总经理

尝试双子座 1.5 专业版

Google Vertex AI 中最先进的多模式模型

尝试一下

人工智能的进步正在解锁以前认为不可能的用例。更大、更复杂的人工智能模型正在为涉及文本、代码、图像、视频、语音、音乐等的各种应用程序提供强大的功能。因此,利用人工智能已成为世界各地企业和组织的创新当务之急,它有可能提高人类的潜力和生产力。

然而,为这些令人兴奋的用例提供支持的人工智能工作负载对底层计算、网络和存储基础设施提出了令人难以置信的要求。这只是该架构的一方面:客户还面临着集成开源软件、框架和数据平台的挑战,同时优化资源消耗,以经济高效地利用人工智能的力量。从历史上看,这需要手动组合组件级增强功能,这可能会导致效率低下和瓶颈。

这就是为什么今天我们很高兴地宣布我们的人工智能超计算机架构的每一层都得到了显着的增强。这种系统级方法结合了性能优化的硬件、开放的软件和框架以及灵活的消费模型,使开发人员和企业能够提高工作效率,因为整个系统以更高的性能和效率运行,并且生成的模型得到更高效的服务。

事实上,就在上个月,Forrester Research 将 Google 评为《Forrester Wave™:2024 年第一季度 AI 基础设施解决方案1》的领导者,在本报告的“当前产品”和“战略”类别中获得了所有评估的供应商中的最高分。

我们今天发布的公告涵盖了人工智能超级计算机架构的每一层:

性能优化的硬件增强功能,包括全面推出由 NVIDIA H100 Tensor Core GPU 提供支持的 Cloud TPU v5p 和 A3 Mega VM,通过增强的网络功能为大规模训练提供更高的性能

针对 AI 工作负载的存储组合优化,包括 Hyperdisk ML(针对 AI 推理/服务工作负载优化的新块存储服务)以及 Cloud Storage FUSE 和 Parallelstore 中的新缓存功能,可提高训练和推理吞吐量和延迟

开放软件的进步,包括引入 JetStream——一种针对大型语言模型 (LLM) 的吞吐量和内存优化的推理引擎,在 Gemma 7B 等开放模型上提供更高的性价比,而 JAX 和 PyTorch/XLA 版本则提高了两者的性能云 TPU 和 NVIDIA GPU

具有动态工作负载调度程序的新灵活消耗选项,包括用于保证启动时间的日历模式和用于优化经济性的灵活启动模式

通过难得一见的内部观察我们的数据中心之一,了解有关 AI 超级计算机的更多信息:

https://storage.googleapis.com/gweb-cloudblog-publish/images/240404_Ai-Infra_Thumb_v1.max-2000x2000.png

https://storage.googleapis.com/gweb-cloudblog-publish/images/AI-Hypercomputer-Architecture.max-2000x2000.jpg

性能优化硬件的进步

Cloud TPU v5p GA

我们很高兴地宣布 Cloud TPU v5p 全面上市,这是我们迄今为止最强大、可扩展的 TPU。 TPU v5p 是下一代加速器,专门用于训练一些最大、要求最高的生成式 AI 模型。单个 TPU v5p Pod 包含 8,960 个协同运行的芯片,是 TPU v4 Pod 中芯片数量的 2 倍多。除了规模更大之外,TPU v5p 还可以在每个芯片上提供超过 2 倍的 FLOPS 和 3 倍的高带宽内存。当客户使用更大的切片时,它还可以实现吞吐量的近线性改进,在切片大小增加 12 倍(从 512 个芯片到 6144 个芯片)的情况下实现 11.97 倍的吞吐量。

对 TPU v5p 的全面 GKE 支持

为了能够跨大规模 TPU 集群在 GKE 上训练和服务最大的 AI 模型,今天我们还宣布全面推出对 Cloud TPU v5p 和 TPU multi 的 Google Kubernetes Engine (GKE) 支持。在 GKE 上提供服务的主机。 GKE 上的 TPU 多主机服务允许客户将部署在多个主机上的一组模型服务器作为单个逻辑单元进行管理,从而可以集中管理和监控它们。

“通过在 Google Kubernetes Engine (GKE) 上利用 Google Cloud 的 TPU v5p,与 TPU v4 相比,Lightricks 在训练文本到图像和文本到视频模型方面实现了 2.5 倍的显着加速。GKE 确保我们能够顺利地利用 TPU v5p 来执行需要性能提升的特定训练作业。” - Yoav HaCohen 博士,Lightricks 核心生成人工智能研究团队负责人

通过 A3 Mega GA 和机密计算扩展了 NVIDIA H100 GPU 功能

我们还通过添加 A3 VM 系列(现在包括 A3 Mega)来扩展 NVIDIA GPU 功能。由 NVIDIA H100 GPU 提供支持的 A3 Mega 将于下个月全面上市,并提供 A3 两倍的 GPU 到 GPU 网络带宽。机密计算也将出现在 A3 VM 系列中,并于今年晚些时候推出预览版。在 A3 机器系列上启用机密虚拟机可以保护敏感数据和 AI 工作负载的机密性和完整性,并减轻未经授权访问带来的威胁。在 A3 VM 系列上启用机密计算可通过受保护的 PCIe 对支持 Intel TDX 的 CPU 和 NVIDIA H100 GPU 之间的数据传输进行加密,并且无需更改代码。

将 NVIDIA Blackwell GPU 引入 Google Cloud

我们最近还宣布,将以两种配置将 NVIDIA 最新的 Blackwell 平台引入我们的 AI 超计算机架构。 Google Cloud 客户将可以访问由 NVIDIA HGX B200 和 GB200 NVL72 GPU 提供支持的虚拟机。配备 HGX B200 GPU 的新虚拟机专为最苛刻的人工智能、数据分析和 HPC 工作负载而设计,而即将推出的由液冷 GB200 NVL72 GPU 提供支持的虚拟机将开启实时 LLM 推理和大规模计算的新时代。 - 万亿参数规模模型的规模训练性能。

同时利用 Google Cloud TPU 和基于 GPU 的服务的客户

Character.AI 是一个强大的、直接面向消费者的 AI 计算平台,用户可以在其中轻松创建各种角色并与之交互。 Character.AI 正在基于 GPU 和 TPU 的基础设施上使用 Google Cloud 的 AI 超计算机架构,以满足其快速增长的社区的需求。

“Character.AI 正在使用 Google Cloud 的张量处理器单元 (TPU) 和在 NVIDIA H100 Tensor Core GPU 上运行的 A3 VM 来更快、更高效地训练和推理 LLM。在强大的 AI 优先基础设施上运行的 GPU 和 TPU 的可选性使 Google Cloud 成为我们在扩展规模以向数百万用户提供新特性和功能时的明显选择。令人兴奋的是看到下一代加速器在整个人工智能领域的创新,包括 Google Cloud TPU v5e 和带有 H100 GPU 的 A3 虚拟机。我们预计这两个平台的性能成本效益比各自的前几代平台高出 2 倍以上。” - Noam Shazeer ,Character AI 首席执行官

针对 AI/ML 工作负载优化的存储

为了提高 AI 训练、微调和推理性能,我们在存储产品中添加了许多增强功能,包括缓存,使数据更接近您的计算实例,以便您可以更快地进行训练。每项改进还最大限度地提高了 GPU 和 TPU 的利用率,从而实现更高的能源效率和成本优化。

Cloud Storage FUSE(已正式上市)是 Google Cloud Storage 的基于文件的接口,通过提供对我们的高性能、低成本云存储解决方案的文件访问,利用 Cloud Storage 功能来实现更复杂的 AI/ML 应用程序。今天我们宣布新的缓存功能全面可用。 Cloud Storge FUSE 缓存将训练吞吐量提高了 2.9 倍,并将我们自己的基础模型之一的服务性能提高了 2.2 倍。

Parallelstore现在还包括缓存(预览版)。 Parallelstore 是一种针对 AI/ML 和 HPC 工作负载进行优化的高性能并行文件系统。与本机 ML 框架数据加载器相比,新的缓存功能可将训练时间提高 3.9 倍,训练吞吐量提高 3.7 倍。

Filestore(普遍可用)针对需要低延迟、基于文件的数据访问的 AI/ML 模型进行了优化。基于网络文件系统的方法允许集群内的所有 GPU 和 TPU 同时访问相同的数据,从而将训练时间缩短高达 56%,优化 AI 工作负载的性能并促进最苛刻的 AI 项目。

我们还很高兴推出 Hyperdisk ML 预览版,这是我们针对 AI 推理/服务工作负载进行优化的下一代块存储服务。与常见替代方案相比, Hyperdisk ML可将模型加载时间加快 12 倍,并通过只读、多重附加和精简配置提供成本效益。它允许多达 2,500 个实例访问同一卷,并为每个卷提供高达 1.2 TiB/s 的聚合吞吐量 —性能比 Microsoft Azure Ultra SSD和 Amazon EBS io2 BlockExpress高出 100 倍以上。

我们的开放软件的进步

从框架开始,涵盖整个软件堆栈,我们引入了开源增强功能,使客户能够通过简化开发人员体验、同时提高性能和成本效率来缩短人工智能工作负载的价值实现时间。

JAX 和高性能参考实现

我们很高兴推出MaxDiffusion,它是一种新的高性能且可扩展的扩散模型参考实现。我们还在MaxText中引入了新的 LLM 模型,包括跨 Cloud TPU 和 NVIDIA GPU 的Gemma、GPT3、LLAMA2 和 Mistral 。客户可以利用这些开源实现快速启动人工智能模型开发,然后根据自己的需求进一步定制。

MaxText 和 MaxDiffusion 模型基于 JAX 构建,JAX 是一个用于高性能数值计算和大规模机器学习的尖端框架。 JAX 又与 OpenXLA 编译器集成,该编译器优化数值函数并大规模提供出色的性能,使模型构建者能够专注于数学并让软件驱动最有效的实现。我们大力优化了 Cloud TPU 上的 JAX 和 OpenXLA 性能,并与 NVIDIA 密切合作,优化了大型 Cloud GPU 集群上的 OpenXLA 性能。

推进 PyTorch 支持

作为我们对 PyTorch 承诺的一部分,对 PyTorch/XLA 2.3 的支持将在本月晚些时候发布上游版本后进行。PyTorch/XLA 使数以万计的 PyTorch 开发人员能够从 XLA 设备(例如 TPU 和 GPU)获得最佳性能,而无需学习新框架。新版本带来了单程序、多数据(SPMD)自动分片和异步分布式检查点等功能,使运行分布式训练作业变得更加容易和更具可扩展性。

对于 Hugging Face 社区中的 PyTorch 用户,我们与 Hugging Face 合作推出了Optimum-TPU,这是一个性能优化的软件包,可帮助开发人员在 TPU 上轻松训练和服务 Hugging Face 模型。

Jetstream:新的 LLM 推理引擎

我们将推出Jetstream,这是一种适用于 XLA 设备的开源、吞吐量和内存优化的 LLM 推理引擎,从 TPU 开始,在 Gemma 7B 和其他开放型号上每美元提供高达 3 倍的推理能力。随着客户将其 AI 工作负载投入生产,对可提供高性能的经济高效的推理堆栈的需求不断增加。 JetStream 支持使用 JAX 和 PyTorch/XLA 训练的模型,并包括对 Llama 2 和 Gemma 等流行开放模型的优化。

与 NVIDIA 合作开放社区模型

此外,作为 NVIDIA 和 Google 开放社区模型合作的一部分,Google 模型将作为 NVIDIA NIM 推理微服务提供,为开发人员提供一个开放、灵活的平台,以便使用他们喜欢的工具和工具进行训练和部署。构架。

新的动态工作负载调度程序模式

Dynamic Workload Scheduler是一种专为 AI 工作负载设计的资源管理和作业调度服务。动态工作负载调度程序可提高对 AI 计算能力的访问,并通过在保证的持续时间内同时调度所需的所有加速器来帮助您优化 AI 工作负载的支出。 Dynamic Workload Scheduler 提供两种模式:灵活启动模式(预览版),用于通过优化经济性增强可用性,以及日历模式(预览版),用于可预测作业启动时间和持续时间。

Flex 启动作业会根据资源可用性提示尽快运行,从而可以更轻松地为具有灵活启动时间的作业获取 TPU 和 GPU 资源。除了Google Kubernetes Engine (GKE)之外, Flex 启动模式现已集成到 Compute Engine托管实例组、Batch和Vertex AI Custom Training中。借助 Flex Start,您现在可以运行数千个 AI/ML 作业,并提高 Google Cloud 中提供的各种 TPU 和 GPU 类型的可用性。

日历模式提供对 AI 优化计算能力的短期预留访问。您最多可以预留 14 天的并置 GPU,最多可以提前 8 周购买。这种新模式扩展了 Compute Engine未来的预留功能。您的预订将根据可用性进行确认,并在您要求的开始日期将产能交付给您的项目。然后,您可以简单地创建针对整个预留期间的容量块的虚拟机。

“动态工作负载调度程序将按需 GPU 可用性提高了 80%,加快了我们研究人员的实验迭代速度。利用内置的 Kueue 和 GKE 集成,我们能够快速利用 Dynamic Workload Scheduler 中的新 GPU 容量,并节省数月的开发工作。” - Alex Hays,2 Sigma 软件工程师

借助 Google 分布式云,随时随地实现人工智能

企业对人工智能的加速采用凸显了对灵活部署选项的需求,以在更接近数据生成的地方处理或安全地分析数据。Google 分布式云(GDC) 可在您需要的任何地方(您自己的数据中心或边缘)提供 Google 云服务的强大功能。今天,我们介绍了 GDC 的多项增强功能,包括由Gemma支持的生成式 AI 搜索包解决方案、扩展的合作伙伴解决方案生态系统、新的合规性认证等。详细了解如何使用 GDC 在任何地方运行 AI。

我们借助 Google AI 基础设施不断增长的势头

在本周的 Next 大会上,我们将推出令人难以置信的 AI 创新,涵盖从 AI 平台和模型到 Gemini for Google Cloud 的 AI 辅助等各个方面,所有这些都以 AI 优化的基础设施为基础。所有这些创新都为我们的客户带来了令人难以置信的动力。事实上,近 90% 的生成式 AI 独角兽和超过 60% 的融资生成式 AI 初创公司都是 Google Cloud 客户。

“Runway 的文本转视频平台由 AI 超级计算机提供支持。在基础上,由 NVIDIA H100 GPU 提供支持的 A3 VM 使我们的训练性能比 A2 VM 显着提升,从而支持我们的 Gen-2 模型进行大规模训练和推理。使用 GKE 来编排我们的培训工作,使我们能够在单一结构中扩展到数千个 H100,以满足客户不断增长的需求。” - Anastasis Germanidis,Runway 首席技术官兼联合创始人

“通过迁移到 Google Cloud 并利用 AI 超计算机架构以及由 NVIDIA L4 GPU 和 Triton 推理服务器提供支持的 G2 虚拟机,我们看到模型推理性能显着提升,同时使用灵活性带来的新技术将托管成本降低了 15% Google Cloud 提供的服务。” - Ashwin Kannan,Palo Alto Networks 高级机器学习工程师

“Writer 的平台由由 NVIDIA H100 和 L4 GPU 提供支持的 Google Cloud A3 和 G2 虚拟机提供支持。借助 GKE,我们能够高效地训练和推理超过 17 种大型语言模型 (LLM),这些模型可扩展到超过 70B 参数。我们利用 Nvidia NeMo 框架用于构建我们的工业实力模型,每秒生成 990,000 个单词,每月执行超过一万亿次 API 调用,我们提供的推理模型质量超过了拥有更大团队和预算的公司的模型,而所有这一切都可以通过 NeMo 框架来构建。谷歌和英伟达的合作伙伴关系。” - Waseem Alshikh 联合创始人兼首席技术官、作家

在下面的后续会议中了解有关AI 超级计算机的更多信息,并向您的销售代表询问如何在您自己的组织中应用这些功能。

SPTL205 -工作负载优化和人工智能驱动的基础设施

ARC108 -使用 Google Cloud 的 AI 超级计算机将大规模 AI 从研究到生产

IHLT303 - Lightricks 如何利用云 TPU 和 AI 超级计算机为生成图像模型提供支持

  1. Forrester Research,Forrester Wave™:人工智能基础设施解决方案,2024 年第一季度,Mike Gualtieri、Sudha Maheshwari、Sarah Morana、Jen Barton,2024 年 3 月 17 日

Forrester Wave™ 的版权归 Forrester Research, Inc. 所有。Forrester 和 Forrester Wave™ 是 Forrester Research, Inc. 的商标。Forrester Save 是 Forrester 对市场的预测的图形表示,并使用带有公开分数、权重的详细电子表格进行绘制。和评论。 Forrester 不认可 Forrester Wave™ 中描述的任何供应商、产品或服务。信息基于最佳可用资源。意见反映了当时的判断,可能会发生变化。

发表于

计算

人工智能与机器学习

谷歌云下一步

系统

相关文章

https://storage.googleapis.com/gweb-cloudblog-publish/images/enterpriseready_2022.max-700x700.jpg

计算

区域永久性磁盘:为您的关键任务工作负载提供最大的弹性

作者:Michael Ng • 5 分钟阅读

https://storage.googleapis.com/gweb-cloudblog-publish/images/compute_7XaotWm.max-700x700.jpg

计算

新型存储优化型 Z3 VM 提供业界领先的 IOPS

作者:Aisha Wang • 4 分钟阅读

https://storage.googleapis.com/gweb-cloudblog-publish/images/DO_NOT_USE_qZcLLnu.max-700x700.jpg

存储和数据传输

超级磁盘存储池:简化块存储管理并降低总体拥有成本

作者:Ben Gitenstein • 4 分钟阅读

https://storage.googleapis.com/gweb-cloudblog-publish/images/DO_NOT_USE_HBAdZzf.max-700x700.jpg

容器与 Kubernetes

推出 Hyperdisk Balanced,这是用于有状态 Kubernetes 工作负载的新存储选项

作者:Spencer Bischof • 5 分钟阅读

页脚链接

跟着我们

谷歌云

谷歌云产品

隐私

条款

帮助

英语