サイバーエージェントは、国内最大規模となる80基もの「NVIDIA H100 Tensor コア GPU」が搭載されたサーバー群による強力な分散学習環境を、GPU/HPCサーバーなど超高発熱機器に対応する「高負荷ハウジングサービス」で安定稼働させることで、国内最大規模のLLM(大規模言語モデル)で従来比2.57倍(*1)の処理性能の向上を実現しています。
■背景
サイバーエージェントは、2016年からインターネット広告事業でAIの研究開発を開始し、2020年には「極予測AI」などAIを活用した様々な効果予測プロダクトの提供と、AI解析を応用した広告関連プロダクトの研究・開発の強化を目的に、当時最新のGPU搭載システムである「NVIDIA DGX™ A100」を導入しました。膨大なデータを高速・大量処理できるGPUは、CPUサーバーと比較すると多くの電力と高熱を発しますが、GPUの運用経験を有していたIDCフロンティアの空冷空調方式のデータセンターでシステムを運用していました。
その後、サイバーエージェントは2021年から大規模言語モデル(LLM)への取り組みを始めました。LLMのような大規模トレーニングでは数週間単位で計算リソースを稼働させ続ける必要があり、従来基盤より強力な分散学習環境が必要となったことから、現在利用可能な商用製品で最上位のGPUとなる「NVIDIA H100 Tensor コア GPU」80基と、国内で初めてとなる「NVIDIA DGX H100」の導入を決定しました。
サイバーエージェント社導入「NVIDIA H100 Tensor コア GPU」搭載サーバー
80基ものGPU搭載システムを安定稼働するには、従来の「NVIDIA DGX™ A100」が稼働していた空調方式のデータセンターでは、冷却性能と電力供給能力が不足していました。そのため、システムの設置と運用が可能なデータセンターの検討を新たに開始し、「NVIDIA H100 Tensor コア GPU」搭載のサーバー群が必要とする高電力の供給と、稼働時の高発熱を安定して冷却できる、IDCフロンティアの「高負荷ハウジングサービス」を採用するに至りました。
■「高負荷ハウジングサービス」の採用理由
「高負荷ハウジングサービス」を採用した理由として、サイバーエージェントは次の点をあげています。
-
ラックあたりの供給電力が最大20kVAと大きく「NVIDIA H100 Tensor コア GPU」搭載サーバーを1ラックに複数台設置が可能であったこと
-
冷却方法に大風量・高静圧のファンと冷却水を循環させる冷水コイルを組み合わせたリアドア型空調機を採用しており高発熱機器でも安定した冷却能力を有していたこと
-
「NVIDIA H100 Tensor コア GPU」搭載サーバーにも対応した「オンサイト運用アウトソーシングサービス」により現地の作業代行を依頼できること
サイバーエージェント社 AI開発基盤「NVIDIA H100 Tensor コア GPU」搭載サーバー群
サイバーエージェント グループIT推進本部CIU, Solution Architect 高橋 大輔氏からのコメント
「当社のAI開発を大幅に強化するにあたり『NVIDIA H100 Tensor コア GPU』の採用を決定し、大規模AI開発の基盤を構築することで大幅な性能強化が見込まれる一方、データセンターを選ぶGPUでもありました。国内においてはこれらGPU搭載のサーバーを設置できるデータセンターの選択肢は限られていますが、『高負荷ハウジングサービス』では高い電力供給に加え、水冷方式のリアドア型空調機で安定した冷却性能が得られることが採用した理由の中で最も大きなところです。また、以前より『NVIDIA DGX™ A100』を運用いただいていたことと、オンサイト運用でGPUサーバーの現地作業代行を依頼できることもポイントでした」
***
サイバーエージェントの「高負荷ハウジングサービス」導入事例、および、「高負荷ハウジングサービス」の詳細は次のURLをご参照ください。
・サイバーエージェント導入事例:「国内最大規模の和製生成AI開発・AI活用のための最先端GPUの大規模導入を高負荷ハウジングサービスで実現」
https://www.idcf.jp/case/cyberagent/
・「高負荷ハウジングサービス」
https://www.idcf.jp/datacenter/colocation/high-power.html
*1 「従来比2.57倍」は2023年7月時点での値、NVIDIA H100 Transformer Engineの最適化によりさらなる性能向上が見込まれている
以上