Google Cloud が最も強力な AI をデビュー

08:00 EDT / 2023 年 8 月 29 日更新

マイク・ウィートリー著

Google Cloudは、クラウドベースの人工知能コンピューティングインフラストラクチャを強化しており、最も要求の厳しいAIワークロードを強化するために最適化されているという新しいテンソルプロセッシングユニットとグラフィックスプロセッシングユニットベースの仮想マシンを追加している。

新しい AI に最適化された VM は、ネットワークエッジを含むあらゆる場所で AI とデータ分析のワークロードを実行できるようにする更新された Google Distributed Cloud 製品の開始と併せて、Google Cloud Next 2023 で発表されました。さらに、Google は、コンテナベースのアプリケーション向けに、Google Kubernetes Engine の新しいエンタープライズグレードのエディションをデビューさせました。

Googleの機械学習、システム、クラウドAI担当ゼネラルマネージャーであるAmin Vahdat氏はブログ投稿の中で、顧客は生成AIや大規模言語モデルなどの新しいワークロードの急激に増大する需要に対処するため、より強力なVMを求めていると述べた。「LLM のパラメータの数は、過去 5 年間で年間 10 倍に増加しました」と彼は言いました。「その結果、顧客はコスト効率と拡張性の両方を備えた、AI に最適化されたインフラストラクチャを必要としています。」

このニーズを満たすために、Google は Cloud TPU v5e を考案し、現在プレビューで利用可能です。これは、同社がこれまでに考案した中で最もコスト効率が高く、多用途でスケーラブルなクラウド TPU であると言われており、GKE、Google の機械学習フレームワーク Vertex AI、および PyTorch、TensorFlow、JAX などのさまざまな主要 AI フレームワークとの統合を提供します。中規模および大規模の AI トレーニングおよび推論アプリケーション向けに設計されており、前世代と比較して、1 ドルあたり最大 2 倍高速なトレーニングパフォーマンスと、LLM および生成 AI モデルの 1 ドルあたり最大 2.5 倍の推論パフォーマンスを実現すると言われています。クラウド TPU v4。

良いニュースは、顧客がこうしたコスト効率の向上のためにパフォーマンスや柔軟性を犠牲にする必要がないことだ、とヴァハダット氏は述べた。同氏は、TPU v5e ポッドは柔軟性と効率性を備えたパフォーマンスの完璧なバランスを提供し、最大 256 個のチップを毎秒 400 テラバイトを超える帯域幅と 100 petaOps のパフォーマンスで相互接続できると述べました。お客様は、単一チップから単一スライス内の 250 以上に至るまで、8 つの異なる VM セットアップから選択できます。これにより、顧客はさまざまな LLM や AI モデルをトレーニングおよび実行できる優れた柔軟性が得られると、Vahdat 氏は付け加えました。

Cloud TPU v5e VM の発売に伴い、Google は新しい Multislice テクノロジーもプレビューで利用できるようにしており、これにより数万個の TPU v5e チップまたは Google の古い TPU v4 チップを組み合わせることが可能になります。以前は、顧客は TPU チップの 1 スライスに制限されていました。つまり、TPU v4 では最大 3,072 チップに制限されていました。マルチスライスを使用すると、開発者はチップ間相互接続を介して接続された何万ものクラウドベースのチップを操作できるようになります。

Google は、TPU v5e VM と並んで、Nvidia Corp. の最新の H100 GPU をベースにした新しい A3 VM を発表し、最も要求の厳しい生成 AI ワークロード専用に構築されていると述べました。 Google によると、前世代の A100 GPU と比較して、パフォーマンスの面で大きな進歩があり、トレーニングが 3 倍高速になり、ネットワーク帯域幅が 10 倍増加しました。帯域幅が広いため、顧客はモデルを数万の H100 GPU にスケールアップできると Vahdat 氏は述べています。

現在プレビュー段階にある 1 つの A3 VM には、2 テラバイトのホストメモリとともに 8 つの H100 GPU が搭載されており、他のアプリケーションタスクをオフロードするための Intel の最新の第 4 世代 Xeon スケーラブル中央処理装置も含まれています。

Googleは、OpenAI LPのライバルである生成AIスタートアップのAnthropic AIは、同社の新しいTPU v5eおよびA3 VMを最も早く採用した企業の1つであるとし、Google Kubernetes Engineと連携してそれらを使用して、ほとんどの機能をトレーニング、デプロイ、共有していると述べた。上級モデル。