データブリックス、Data + AI Summitでフラッグシップオープンソースプロジェクトへの多大な貢献を発表

この記事は約8分で読めます。
  • Delta Lake 2.0 のリリースにより、すべてのDelta Lakeの機能強化をLinux Foundationに提供
  • MLflow 2.0のML Pipelinesで、機械学習プロジェクトの運用開始までの時間を短縮
  • Spark Connectの導入により、Apache Spark™をあらゆるデバイスで利用可能に
  • 次世代 Spark ストリーミングに向けてProject Lightspeedを発表

サンフランシスコ – 2022 年 6 月 28日 – 「データとAIの民主化」を推進するDatabricks(*1) 社(本社:米国カリフォルニア州サンフランシスコ、以下:データブリックス)は、Delta Lake、MLflow、Apache Spark™ をはじめとする人気の高いデータと AI のオープンソースプロジェクトに対する複数の貢献を発表しました。
*1) https://databricks.com/jp/

オープンソースデータと AI のコミュニティが集う最大規模のイベントである Data + AI Summitにおいて、データブリックスは、Delta Lakeのすべての機能と強化をLinux Foundationに提供し、Delta Lake 2.0 リリースの一環としてすべてのDelta Lake APIをオープンソース化することを発表しました。また、MLflow 2.0の発表も行いました。MLflow 2.0には、機械学習モデルの展開を短縮およびシンプル化する新機能としてMLflow Pipelinesが含まれています。最後に、あらゆるデバイスでのSparkの仮想的な使用を可能にするSpark Connectと、レイクハウスでのデータストリーミング向けの次世代Spark Structured StreamingエンジンとしてProject Lightspeedについて発表しました。

データブリックスの共同創業者兼CEOのアリ・ゴディシは次のように述べています。「データブリックスは当初からオープンスタンダードやオープンソースのコミュニティに取り組んできました。当社は、現代のオープンソース技術において最も影響力のあるいくつかのイノベーションを生み出し、それに貢献し、成長を促進し、提供してきました。オープンデータレイクハウスは、革新的な企業が自社のデータとAIを取り扱う方法の標準技術として急速に認識されています。Delta Lake、MLflow、Sparkはすべて、このようなアーキテクチャの変革にとっての中核であり、当社は企業のイノベーションや導入の加速において役割を果たせていることを誇らしく感じています」

Delta Lake 2.0でレイクハウスを誰でも利用可能に
Delta Lake 2.0は、すべてのDelta Lakeユーザーにきわめて高いクエリパフォーマンスをもたらします。また、誰でもオープンスタンダード環境で高パフォーマンスのデータレイクハウスを構築できるようになります。今回の貢献により、データブリックスをご利用のお客様やオープンソースコミュニティは、Delta Lake 2.0のすべての機能と強化されたパフォーマンスのメリットを得ることができます。Delta Lake 2.0 Release Candidateは現在利用可能で、今年の後半に完成にリリースされる予定です。Delta Lakeのエコシステムの広がりは、幅広い用途で柔軟性と効果を高めています。この動きを加速させているのは、6,400人を超えるメンバーによる活気あるコミュニティと、70以上の協力団体の開発者です。

Akamaiのエンジニアリング担当バイスプレジデントであるアリエ・シヴァン氏は次のように語っています。「データブリックスは、当社のような条件の厳しいワークロードに、オープンかつ実績のあるテーブルストレージフォーマットを提供しています。レイクハウスは大規模でのインタラクティブ分析を可能にし、それによってお客様は当社のエッジプラットフォーム内でほぼリアルタイムでセキュリティイベントを分析することができます。当社は、データブリックスおよび急速に成長するコミュニティがDelta Lakeにもたらしている飛躍的なイノベーションに非常に興奮しています。また、プロジェクトでの他の開発者とのコラボレーションにより、データのコミュニティがさらに発展することにも期待しています」

Linux Foundationのエグゼクティブディレクターであるジム・ゼムリン氏は次のように話しています。「Delta Lakeプロジェクトは素晴らしい活動と成長トレンドを実現しており、開発者のコミュニティがこのプロジェクトに参加したいと感じていることを示しています。協力者の数は昨年1年間で 60% 増加し、総コミットの増加は 95%、平均コード行数は900%増えています。この急激な増加は、Uber Technologies、Walmart、CloudBees, Inc. のような協力企業によるものであると考えています」

MLflow 2.0のMLflow Pipelinesにより、MLOps(機械学習オペレーション)のテンプレート化と自動化を実現
MLflowは、非常に大きな成功を収めているオープンソース機械学習(ML)プロジェクトの一つとして、 ML プラットフォームの標準技術になっています。MLflow 2.0のリリースにより、MLflow Pipelinesがプラットフォームに導入されます。この標準化により運用開始までの時間が大幅に削減され、実行時のパフォーマンスも改善されます。MLflow Pipelinesは、構築予定のモデルタイプをベースにした事前定義済みで、すぐに利用できるテンプレートをデータサイエンティストに提供します。運用エンジニアの介在を必要とせずに確実にブートでき、モデルの開発を加速できます。

次世代ストリーミングエンジンと Spark をいつでもどこでも利用可能に
Sparkは、大規模データ分析向けの主要な統合エンジンとして、あらゆる規模のデータセットを処理できるようにシームレスに拡張します。しかし、リモート接続機能の欠如やドライバーノード上で開発、実行されるアプリケーションの負担は、最新のデータアプリケーションの要件において阻害要因となっています。この問題に対応するため、データブリックスは Apache Spark™向けのクライアント/サーバーインターフェイスとしてSpark Connectを導入しました。DataFrame APIがベースになっており、安定性を高めるためにクライアントとサーバーを切り離すと同時に、組み込みのリモート接続を可能にします。Spark Connectによって、ユーザーはあらゆるデバイスからSparkにアクセスできるようになります。

Sparkコミュニティとのコラボレーションで、データブリックスは次世代のSparkストリーミングエンジンとして Project Lightspeed も発表しています。  ストリーミングデータに移行するアプリケーションの多様化に伴い、レイクハウスにとって最も需要の多いデータワークロードであるデータストリーミングをサポートするために新しい要件が発生しています。Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティを理由として、ストリーミングの初期段階から幅広く採用されてきました。こうした点を念頭に置いて、データブリックスはコミュニティと協業を行い、Project Lightspeedへの参加を奨励し、パフォーマンス向上、コネクタのエコシステムのサポート、新しいオペレーターやAPIによるデータ処理機能の強化および、展開、運用、モニタリング、トラブルシューティングの簡素化を目指します。

オープンソースコミュニティに向けたデータブリックスのコミットメントの詳細は、https://databricks.com/product/open-source をご覧ください。

データブリックスについて
データブリックスは、グローバルで唯一のデータ&AI企業です。Comcast、Condé Nast、H&M、そしてFortune 500の40%以上を含む7,000以上の世界のリーディング企業が、データブリックスのレイクハウス・プラットフォームを活用し、データ、アナリティクス、AIなどのデータプロジェクトに取り組んでいます。データブリックスは米国サンフランシスコに本社を構え、世界中に営業拠点を有しているグローバル企業です。Apache Spark™、Delta Lake、MLflowのクリエーターによって創立され、企業のデータチームが抱える、世界の最も困難な課題を解決するサポートをしています。その他のデータブリックスの詳細に関しては、Twitter、LinkedIn、Facebookをフォローしてください。
Twitter: https://twitter.com/databricksjp
LinkedIn: https://www.linkedin.com/company/databricks
Facebook : https://www.facebook.com/DatabricksJP

データブリックス・ジャパン株式会社についての詳細:
ホームページ: https://databricks.com/jp/
所在地 :東京都港区六本木1丁目4-5 アークヒルズサウスタワー16階 
事業内容:データ&AI向け統合データ分析プラットフォームの提供 
代表者:データブリックス・ジャパン株式会社 社長 グレック・テイラー

セーフハーバー ステートメント 
この情報は、Databricksの一般的な製品の方向性を示すものであり、情報提供のみを目的としたものです。Databricksのサービスを購入するお客様は、現在利用可能なサービス、特徴および機能のみに基づいて購入を決定してください。将来予測に関する記述に記載されている未発表の機能または特徴は、Databricksの裁量で変更されることがあり、計画通りに、または全く提供されない可能性があります。
 

タイトルとURLをコピーしました