NVIDIA が Microsoft と共同で大規模なクラウド AI コンピューターを構築

数万の NVIDIA GPU、NVIDIA Quantum-2 InfiniBand、NVIDIA AI ソフトウェアのフルスタックが Azure で利用可能になり、迅速かつ費用対効果の高い AI の開発と展開の実現に NVIDIA、Microsoft およびグローバル企業がプラットフォームを活用

2022 年 11 月 16 日、カリフォルニア州サンタクララ — NVIDIA は本日、Microsoft Azure の高度なスーパーコンピューティングインフラストラクチャと NVIDIA GPU、ネットワーク、および AI ソフトウェアのフルスタックを組み合わせることで、世界で最も強力な AI スーパーコンピューターの 1 つを構築し、企業による大規模な最先端モデルを含む AI のトレーニング、展開、スケーリングを支援するため、Microsoft との複数年にわたるコラボレーションを発表しました。

Azure のクラウドベースの AI スーパーコンピューターには、AI の分散トレーニングと推論用に最適化された強力でスケーラブルな ND シリーズおよび NC シリーズの仮想マシンが含まれています。これは、NVIDIA の高度な AI スタックを組み込んだ最初のパブリッククラウドであり、数万の NVIDIA A100（https://www.nvidia.com/ja-jp/data-center/a100/ ）および H100（https://www.nvidia.com/ja-jp/data-center/h100/ ） GPU、NVIDIA Quantum-2（https://www.nvidia.com/ja-jp/networking/quantum2/ ） 400Gb/s InfiniBand ネットワーキング、および NVIDIA AI Enterprise（https://www.nvidia.com/ja-jp/data-center/products/ai-enterprise/ ）ソフトウェアスイートをそのプラットフォームに追加しています。

コラボレーションの一環として、NVIDIA は Azure のスケーラブルな仮想マシンインスタンスを活用し、ジェネレーティブ AI の進化の研究とさらなる加速を目指します。ジェネレーティブ AI は急速に台頭する分野であり、Megatron Turing NLG 530B（https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ ）のような基盤モデルが教師なし自己学習アルゴリズムのベースとなり、新たなテキスト、コード、デジタル画像およびビデオやオーディオを生成します。

両社は、Microsoft の DeepSpeed（https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ ）ディープラーニング最適化ソフトウェアの最適化でも協力する予定です。Azure 向けに最適化された NVIDIA のフルスタックの AI ワークフローとソフトウェア開発キットは、Azure エンタープライズの顧客も利用できるようになります。

NVIDIA のエンタープライズコンピューティング担当バイスプレジデントであるマヌバーダス (Manuvir Das) は、次のように述べています。「AI テクノロジの進歩だけでなく、産業界での採用も加速しています。基盤モデルの躍進は、研究についての大きな変動を引き起こし、新しいスタートアップを育成し、新しい企業の利用を可能にしました。Microsoft とのコラボレーションにより、研究者や企業に最先端の AI インフラストラクチャとソフトウェアを提供し、AI の変革力を活用できるようになるでしょう」

Microsoft のクラウド + AI グループ担当エグゼクティブバイスプレジデントであるスコットガスリー (Scott Guthrie) 氏は次のように話しています。「AI は、企業や産業におけるコンピューティング全体の自動化の次の波を促進し、組織が経済の不確実性を乗り切る際に、より少ないリソースでより多くのことを行えるようにします。NVIDIA とのコラボレーションにより、世界で最もスケーラブルなスーパーコンピュータープラットフォームが解放され、Microsoft Azure 上のすべての企業に最先端の AI 機能が提供されるでしょう」

Azure 上の NVIDIA のコンピューティングと Quantum-2 InfiniBand によるスケーラブルなピーク性能
Microsoft Azure の AI に最適化された仮想マシンインスタンスは、NVIDIA の最先端のデータセンター GPU を使用して設計されており、NVIDIA Quantum-2 400Gb/s InfiniBand ネットワークを組み込んだ最初のパブリッククラウドインスタンスです。顧客は単一のクラスターに数千の GPU を展開して、膨大な量の大規模言語モデルをトレーニングし、最も複雑なレコメンダーシステムを大規模に構築し、ジェネレーティブ AI を大規模に有効活用できます。

現在の Azure インスタンスは、NVIDIA A100 GPU と NVIDIA Quantum（https://www.nvidia.com/ja-jp/networking/products/infiniband/ ） 200Gb/s InfiniBand ネットワークを備えています。将来のインスタンスでは、NVIDIA Quantum-2 400Gb/s InfiniBand ネットワークおよび NVIDIA H100 GPU が統合される予定です。Azure の高度なコンピューティングクラウドインフラストラクチャ、ネットワーク、およびストレージと組み合わせることで、AI に最適化されたこれらのインスタンスは、あらゆる規模の AI トレーニングとディープラーニングの推論ワークロードに対してスケーラブルなピーク性能を提供します。

AI の開発と展開の加速
さらに、このプラットフォームは、Microsoft DeepSpeed や NVIDIA AI Enterprise ソフトウェアスイートなどの、幅広い AI アプリケーションとサービスをサポートします。

Microsoft DeepSpeed は、NVIDIA H100 Transformer Engine（https://blogs.nvidia.co.jp/2022/04/07/h100-transformer-engine/ ）を活用して、大規模言語モデル、ジェネレーティブ AI、コンピューターのコードの記述などのアプリケーションに使用される Transformer ベースのモデルを高速化します。このテクノロジは、DeepSpeed に 8 ビットの浮動小数点精度機能を適用して、Transformer の AI 計算を劇的に高速化し、16 ビット命令の 2 倍のスループットを実現します。

世界中で採用されている NVIDIA AI プラットフォームのソフトウェアである NVIDIA AI Enterprise は、NVIDIA A100 GPU を搭載した Microsoft Azure インスタンスで認証およびサポートされています。NVIDIA H100 GPU を使用した Azure インスタンスでのサポートは、将来のソフトウェアリリースで追加される予定です。

スピーチ AI 向けの NVIDIA Riva や NVIDIA Morpheus サイバーセキュリティアプリケーションフレームワークを含む NVIDIA AI Enterprise は、データ処理と AI モデルのトレーニングからシミュレーションと大規模展開までの、AI ワークフローの各ステップを合理化します。

Azure での NVIDIA の AI テクノロジの詳細については、パートナーページ（https://www.nvidia.com/ja-jp/data-center/gpu-cloud-computing/microsoft-azure/ ）をご覧ください。

NVIDIA について
1999 年における NVIDIA (NASDAQ: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューターグラフィックス、ハイパフォーマンスコンピューティング、そして人工知能 (AI) を再定義しました。NVIDIA のアクセラレーテッドコンピューティングと AI における先駆的な取り組みは、輸送、ヘルスケア、製造業などの数兆ドル規模の産業を再構築し、その他のさまざまな産業の拡大も加速させています。詳細は、こちらのリンクから：https://nvidianews.nvidia.com/