HPE、AIモデルのトレーニングを加速する新しいターンキーソリューションにNVIDIAを搭載

概　要

「生成AIのためのスーパーコンピューティングソリューション」は、AIモデルを開発する際のプロセスの合理化を目的としており、LLM（大規模言語モデル）および深層学習に基づく推奨モデル（DLRM = Deep Learning Recommendation Models）のための、生成AIおよび深層学習プロジェクトの加速を支援するAI/MLソフトウェアスタックで構成
HPEが提供するAIモデルをトレーニングするためのソリューションは、事前に構成および検証を実施した、業界をリードするスーパーコンピューティング、アクセラレーテッドコンピュート、ネットワーキング、ストレージ、およびサービスで構成 – クワッドNVIDIA Grace Hopper™ GH200 Superchip構成を採用した初のシステム
インストールと設定サービスが含まれる本ターンキーソリューションは、AI研究機関や大手企業向けに設計されており、成果を得るまでの時間およびAIモデルのトレーニングにかかる時間を2～3倍速めることが可能

HPEは本日、大手企業、研究機関、政府機関が公開不可のデータセットを使用したAIモデルのトレーニングおよびチューニングを加速するために設計された生成AIのためのスーパーコンピューティングソリューションを発表しました。本ソリューションには、モデルのトレーニングやチューニング、AIアプリケーション開発のためのソフトウェアスイートが含まれ、液冷式スーパーコンピューター、アクセラレーテッドコンピュート、ネットワーキング、ストレージ、サービスで構成され、AIの価値をより迅速に解き放てるよう支援します。

HPEのHPC、AI & Labs担当エグゼクティブバイスプレジデント兼ジェネラルマネージャーであるジャスティン・ホタード（Justin Hotard）は、次のように述べています。

「世界をリードする企業や研究機関は、イノベーションを推進し、研究のブレークスルーに向けてAIモデルをトレーニングし、チューニングしています。生成AIを支えるにあたって必要とされるのは、AIモデルのトレーニングをサポートするスーパーコンピューターのパフォーマンスと拡張性に加え、サステナブルなソリューションを活用することです。NVIDIAとのコラボレーションにより、AIモデルのトレーニングとその成果を劇的に速める、ターンキーのAIネイティブソリューションを提供できることを嬉しく思います」

AIアプリケーションの構築、構築済みモデルのカスタマイズ、コードの開発と修正を行うためのソフトウェアツールが、生成AI のためのスーパーコンピューティングソリューションの重要な構成要素です。本ソフトウェアは、世界最速のスーパーコンピューター( https://www.hpe.com/jp/ja/japan/newsroom/press-release/2022/060701.html )と同じ強力なアーキテクチャのHPE Crayスーパーコンピューティングテクノロジーに統合されており、NVIDIA Grace Hopper GH200 Superchipsを活用します。本ソリューションは、大規模言語モデル（LLM）や深層学習に基づく推奨モデル（DLRM）のトレーニングなどの大規模AIワークロードに必要とされる、卓越した拡張性とパフォーマンスを実現します。HPEとNVIDIAによる高度なスーパーコンピューティングは、演算処理能力を必要とする研究成果の向上に貢献します。本システム上でHPE Machine Learning Development Environmentを実行した結果、オープンソースの700億パラメータLlama 2モデルを3分以下(*1)で微調整することができました。HPEの高度なスーパーコンピューティング能力は、NVIDIAテクノロジーに支えられ、システムパフォーマンスが2～3倍向上します(*2)。

NVIDIA のハイパースケールおよび HPC 担当バイスプレジデントであるイアン・バック（Ian Buck）氏は、次のように述べています。

「生成AIは、あらゆる産業および科学の取り組みに変革をもたらしつつあります。NVIDIA GH200 Grace Hopper Superchipsを搭載したターンキーのAIモデルトレーニングおよびシミュレーションのためのソリューションに関するNVIDIAのHPEとのコラボレーションにより、お客様が生成AIへの取り組みおけるブレークスルーに必要とされるパフォーマンスを提供します」

強力な統合AIソリューション

生成AIのためのスーパーコンピューティングソリューションは、AIネイティブな統合ソリューションで、以下のエンドツーエンドのテクノロジーとサービスを提供します。

AI/MLアクセラレーションソフトウェア– 3つのソフトウェアツールのスイートにより、AIモデルのトレーニングとチューニング、独自AIアプリケーションの開発を支援します。
- HPE Machine Learning Development Environmentは、機械学習ソフトウェアプラットフォームで、普及しているMLフレームワークとの統合およびデータの準備を簡素化することで、AIモデルの迅速な開発と展開を可能にします。
- NVIDIA AI Enterpriseは、セキュリティ、安定性、管理性、サポートにより、最先端AIの展開を加速します。広範なフレームワーク、学習済みモデル、本番AIの開発と展開を合理化するツールを提供します。
- HPE Cray Programming Environmentスイートは、コードの開発、移植、デバッグ、改良のためのツール一式をプログラマーに提供します。
卓越した拡張性 – エクサスケールクラスのHPE Cray EX2500に業界をリードするNVIDIA GH200 Grace Hopper Superchipを搭載した本ソリューションは、数千のGPUを搭載でき、全ノードに単一のAIワークロードを占有させて、成果を加速することができます。
リアルタイムのAI用のネットワーク – HPE Slingshot Interconnectは、エクサスケールクラスのワークロードをサポートするように設計された、イーサネットベースのオープンな高性能ネットワークを提供します。HPE Crayテクノロジーをベースにしたこのチューニング可能なインターコネクションは、非常に高速なネットワーキングを可能にすることで、システム全体のパフォーマンスを大幅に向上させます。
ターンキーの容易性 – 本ソリューションには、HPE Complete Care Servicesが含まれており、セットアップ、設置、およびライフサイクル全般にわたるサポートをグローバルなエキスパートが提供し、AIの導入を容易にします。

スーパーコンピューティングとAIの未来はサステナブル

AIワークロードの増加により、2028年までに、データセンター内で約20ギガワットの電力が必要になると推定(*3)されています。二酸化炭素排出量への影響を最小限に抑えるためには、新しいレベルのエネルギー効率を実現するソリューションが必要になります。

エネルギー効率は、HPEのコンピューティング開発における中核を成す取り組みであり、空冷ソリューションと比較して、キロワット当たり最大20%の性能向上と15%の消費電力削減を実現する液冷機能を備えたソリューションを提供しています。(*4)

現時点でHPEは、世界で最も効率的なスーパーコンピューターの上位10システムの大半を提供しています。これらのスーパーコンピューターは、直接液体冷却を採用しています。生成AIのためのスーパーコンピューティングソリューションでも、演算負荷の高いアプリケーションのエネルギー消費を抑えながらシステムを効率的に冷却するために直接液体冷却を採用しています。

HPEは、お客様がAIのゴールに向けた取り組みを支える最もパワフルなコンピュートテクノロジーを提供するだけでなく、エネルギー使用量の削減も支援できる、他に類のないポジションにあります。

提供開始時期

生成AIのためのスーパーコンピューティングソリューションはHPEを通じて、30カ国以上での提供を2023年12月に開始します。

参考資料

・英文ブログ記事：HPE expands portfolio of HPE Cray Supercomputing solutions for AI and HPC( https://community.hpe.com/t5/servers-systems-the-right/hpe-expands-portfolio-of-hpe-cray-supercomputing-solutions-for/ba-p/7200472 )

・NVIDIAホワイトペーパー：NVIDIA GH200 Grace Hopper Superchip architecture whitepaper( https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper?ncid=so-link-825427-vt25#cid=hpc012_so-link_en-us )

注　記

*1 HPE Cray EX 2500を32ノードとNVIDIA H100 GPU 128台を97%のスケーリング効率で使用し、内部テストで700億パラメータのLlama 2モデルを1,000万トークンのコーパスで3分以内に微調整しました。モデルのチューニングコードとトレーニングパラメータは、スケーリング実行の間に最適化しませんでした。

*2 標準的な AI ベンチマークである BERT と Mask R-CNN を実施したシステムは、アウトオブボックスでチューニングされていないHPE Cray EX2500 スーパーコンピューターで、4 基の NVIDIA GH200 Grace Hopper Superchips を搭載した HPE Cray EX254n アクセラレーターブレードが使用されました。独自に実施したテストでは、2基のAMD EPYC 7763プロセッサとNVLINKインターコネクトを備えた4基のNVIDIA A100 GPUから構成されるA100ベースのシステムにおいて、MLPerf 3.0で発表されている結果と比較して2～3倍の性能向上が見られました。

*3 Avelar, Victor; Donovan, Patrick; Lin, Paul; Torell, Wendy; and Torres Arango, Maria A., The AI disruption: Challenges and guidance for data center design (White paper 110), Schneider Electric:

https://download.schneider-electric.com/files?p_Doc_Ref=SPD_WP110_EN&p_enDocType=White+Paper&p_File_Name=WP110_V1.1_EN.pdf

*4 HPEが2023年4月に実施した、空冷HPE Cray XD2000と直接液冷を使用した同システムを比較する内部性能テストによる推定値に基づきます。SPEChpc™2021、small、MPI + OpenMP、64ランク、14スレッドのベンチマークを使用して、サーバー1台当たりの推定結果を算出したところ、空冷システムは1kW当たり6.61の性能を記録し、DLCシステムは1kW当たり7.98の性能を記録し、20.7%の差が生じました。同じベンチマークで、空冷システムのシャーシ電力は4539ワット、DLCシステムは3862ワットを記録し、その差は14.9%でした。

※本リリースは、ヒューレット・パッカードエンタープライズ（本社：米国テキサス州ヒューストン、以下：HPE）が、2023年11月13日（現地時間）に発表した英文リリースに基づいて作成した日本語抄訳です。原文（全文）はこちらをご参照ください。

https://www.hpe.com/us/en/newsroom/press-release/2023/11/hewlett-packard-enterprise-and-nvidia-accelerate-ai-training-with-new-turnkey-solution.html

■ ヒューレット・パッカードエンタープライズ（HPE）について

Hewlett Packard Enterprise （NYSE: HPE）は、グローバルEdge-to-Cloudカンパニーとして、あらゆる場所に蓄積される全てのデータの価値を解き放ち、事業の成果を加速させる支援をします。人々の生活そして働き方の向上を目指し、数十年にわたって未来の再考とイノベーションを重ね、HPEは独自でありながら、オープンでインテリジェントなテクノロジーソリューションをas a Serviceで提供しています。クラウドサービス、コンピュート、HPC & AI、インテリジェントエッジ、ソフトウェア、ストレージを全てのクラウドとエッジにわたって一貫したエクスペリエンスで提供することで、お客様が新たなビジネスモデルを創出し、新たなエンゲージメントを展開し、運用のパフォーマンスを最大化できるようサポートしています。詳細はhttps://www.hpe.com でご確認ください。

■ プレスルーム

https://www.hpe.com/jp/ja/newsroom/press-hub.html

＃＃＃

【お客様からのお問い合わせ先】

カスタマー・インフォメーションセンター

TEL：0120-268-186　または03-5749-8279

ホームページ： http://www.hpe.com/jp/

製品およびサービスに関する保証条件は製品およびサービスに付属する保証書に明示された保証条件のみによるものとし、本ニュースリリースの記載内容はいかなる追加保証をも行なうものではありません。当社は本レターの記載内容に技術上の誤り、欠落または本ニュースリリース作成にあたっての誤り、記載漏れがあった場合でも何ら責任を負わないものとします。