データブリックス、業界をリードするデータレイクハウス・プラットフォームにおける新しいイノベーションを公開

先進的なデータウェアハウスとデータガバナンス機能で、モダンデータスタックの未来を強調
Databricks MarketplaceとData Cleanroomsの機能により、企業のオープンなコラボレーション型データ共有に対する構想を加速
新しいデータエンジニアリング最適化機能により、バッチやストリーミングデータパイプラインを最もコスト効率の良い方法で自動的に実行
機械学習のライフサイクル全体の強化により、運用規模でのMLOps（機械学習オペレーション）を劇的に簡素化

サンフランシスコ – 2022 年 6 月 28日 – 「データとAIの民主化」を推進するDatabricks(*1) 社（本社：米国カリフォルニア州サンフランシスコ、以下：データブリックス）は、サンフランシスコで開催されている年次イベントData + AI Summit(*2)で満席の聴衆に向けて、データブリックスのレイクハウス・プラットフォームの進化について発表しました。発表した新機能には、最高クラスのデータウェアハウスのパフォーマンスと機能、強化されたデータガバナンス、分析に関するマーケットプレイスや安全なデータコラボレーションのためのデータクリーンルームを取り入れた新しいデータ共有のイノベーション、ETLオペレーションの自動コスト最適化、機械学習（ML）ライフサイクルの向上が含まれます。
*1) https://databricks.com/jp/
*2) https://databricks.com/dataaisummit/

データブリックスの共同創業者兼CEOのアリ・ゴディシは次のように述べています。「当社のお客様は、ビジネスインテリジェンス、AI、機械学習を、すでに自社のデータが存在している1つのプラットフォーム上で運用できることを望んでいます。そのためには、データレイク上で直接実行できる最高クラスのデータウェアハウス機能が必要です。最高レベルの基準に照らしてベンチマーキング(*3)を行い、データブリックスのレイクハウス・プラットフォームは、シンプルでオープンなマルチクラウド対応のプラットフォーム上で、データ担当部門に両方の長所を提供できることを繰り返し実証してきました。本日の発表は当社のレイクハウスの構想の進化において非常に重要な前進であり、当社は企業内と企業間の両方においてデータの価値を最大限に高めることを、従来よりも高速かつ容易に実現しています」
*3) https://databricks.com/blog/2021/11/02/databricks-sets-official-data-warehousing-performance-record.html

最適なデータウェアハウスはレイクハウス
Amgen(*4)、AT&T(*5)、Northwestern Mutual(*6)、Walgreens(*7) などの企業は、レイクハウスへの移行を進めています。その理由は、レイクハウスが構造化データと非構造化データの両方の分析を提供できるからです。本日、データブリックスは、分析ワークロードをさらに強化する、同社のプラットフォームにおける新しいデータウェアハウス機能を発表しました。
●Databricks SQL Serverlessは、AWSでのプレビューで利用できます。強化されたパフォーマンスを低コストで実現する、簡単で安全なフルマネージドのエラスティックコンピュートを提供します。
●Photonは、レイクハウス向けの高性能クエリエンジンです。今後数週間のうちにDatabricks Workspacesで利用できるようになる予定で、プラットフォーム全体にPhotonの対象範囲をさらに拡張します。Photonは発表後2年で、エクサバイト規模のデータを処理し、数十億回のクエリを実行し、従来のクラウド型データウェアハウスよりも最大で12倍の機能向上となる、ベンチマーク基準の価格性能比を提供してきました。
●Go、Node.js、Python向けオープンソースコネクタにより、運用アプリケーションからさらに簡単にレイクハウスにアクセスできるようになります。
●Databricks SQL CLIにより、開発者やアナリストが自分のローカルコンピュータからクエリを直接実行できるようになります。
●Databricks SQLではクエリフェデレーションが提供されます。最初にソースシステムからデータを抽出して読み込まなくても、PostgreSQL、MySQL、AWS Redshiftなどのリモートデータソースのクエリが可能になります。
*4) https://databricks.com/blog/2022/03/22/amgen-modernizes-analytics-with-a-unified-data-lakehouse-to-speed-drug-development-delivery.html
*5) https://databricks.com/blog/2022/04/11/data-att-modernization-lakehouse.html
*6) https://databricks.com/blog/2021/07/15/driving-transformation-at-northwestern-mutual-with-scalable-open-lakehouse-platform.html
*7) https://youtu.be/L4XQ7ioIzc0

Unity Catalog の高度な機能で最優先課題として強調されたデータガバナンス
Unity Catalogは、今後数週間のうちにAWSやAzure上で利用できるようになる予定です。すべてのデータとAI資産を対象にした、集中管理型ガバナンスソリューションを提供します。組み込み型の検索機能、全ワークロードの自動系統化、あらゆるクラウド上でのレイクハウスに対応したパフォーマンスと拡張性を備えています。また、データブリックスは今月初めにUnity Catalog向けのデータリネージを導入し(*8)、レイクハウス上のデータガバナンス機能を大幅に強化すると同時に、ビジネスにおけるデータライフサイクル全体の把握を可能にしました。データリネージによって、お客様はレイクハウス内のデータがどこから発生したものであるか、誰がいつ作成したか、どのように変更されたか、データウェアハウス全体やデータサイエンスワークロードなどでどのように使用されているかを、可視化できます。
*8) https://databricks.com/company/newsroom/press-releases/databricks-introduces-data-lineage-for-unity-catalog

Databricks MarketplaceとCleanroomsでデータ共有機能の強化を実現
すべてのデータとAIを対象とする初めてのマーケットプレイスとして、今後数か月のうちにDatabricks Marketplaceが利用できるようになる予定です。これは、データや分析の資産をパッケージ化し、配布するためのオープンなマーケットプレイスです。データセットを提供するだけのマーケットではなく、Databricks Marketplaceでは、データプロバイダがデータテーブル、ファイル、機械学習モデル、ノートブック、分析ダッシュボードなどの数多くの資産を安全にパッケージ化し、収益化できます。データ利用者は、新しいデータやAI資産を簡単に発見し、すぐに分析を開始してデータからインサイトや価値を迅速に取得できます。例えば、データセットへのアクセス権を取得してレポート用のダッシュボードの開発や保守に時間を費やす代わりに、必要な分析結果を提供している既存のダッシュボードを定期購入することを選択できます。Databricks Marketplaceは、Delta Sharingの機能を利用しています。データプロバイダは、クラウドストレージからデータの移動や複製を行わなくてもデータを共有できます。これにより、プロバイダは1つのソースから他のクラウド、ツール、プラットフォームにデータを配信できます。

また、データブリックスは、お客様が組織の境界を越えてデータの共有や共同作業を行えるように支援します。今後数か月のうちに利用可能となるCleanroomsは、安全なホスト環境を備え、データの複製を必要とせずに組織を超えてデータの共有や結合を行う方法を提供します。例えば、メディアや広告配信においては、2つの企業が対象者の重複やキャンペーンの対象範囲を把握したい場合があります。既存のクリーンルームソリューションは、一般的にはSQLツールに制限されており、複数のプラットフォームでデータが重複するリスクもあるため、限界があります。Cleanroomsでは、一貫したデータプライバシー管理により、任意のクラウド上で簡単に顧客やパートナーと連携し、SQLと、Python、R、Scalaなどのデータサイエンスベースのツールの両方を使って複雑な計算やワークロードを柔軟に実行することができます。

MLflow 2.0による大規模な機械学習運用の効率化と加速
データブリックスは、MLflow 2.0の導入によってMLOps（機械学習オペレーション）のイノベーションをリードし続けています。機械学習パイプラインを運用するには、コードの記述だけではなく、インフラストラクチャのセットアップが必要です。この作業は新規ユーザーにとって難しく、規模が大きくなると誰にとっても面倒なことです。MLflow 2.0によって利用可能になったMLflow Pipelinesは、ユーザーのために操作の詳細を処理するようになりました。ユーザーはノートブックのオーケストレーションを設定する代わりに構成ファイルでパイプラインのエレメントを定義するだけで、MLflow Pipelinesが自動的に実行を管理します。また、データブリックスは MLflowをさらに進化させ、運用モデルのホスティングを直接サポートするServerless Model Endpointsと、実際のモデルのパフォーマンスの分析を支援する、組み込み型Model Monitoringダッシュボードを追加しました。

Delta Live Tablesで業界初のデータエンジニアリングパイプライン向けパフォーマンスオプティマイザを導入
Delta Live Tables（DLT）は、信頼性の高いデータパイプライン構築のための、シンプルかつ宣言型のアプローチを用いた初のETLフレームワークです。今年初めのリリース(*9)以降、データブリックスでは、実行の高速化やETLのコスト削減を目的として設計した新しいパフォーマンス最適化レイヤーの導入など、新しい機能によってDLTの強化を続けています。さらに、新しいEnhanced Autoscalingは、ストリーミングワークロードの変動に応じて自動的にリソースのスケーリングを行うために設計されており、Change Data Capture (CDC) for Slowly Changing Dimensions – Type 2は、コンプライアンスと機械学習実験の両方の目的で、ソースデータのあらゆる変更を簡単に追跡します。
*9) https://databricks.com/company/newsroom/press-releases/databricks-announces-general-availability-of-delta-live-tables

データブリックスのレイクハウス・プラットフォームの詳細は、https://databricks.com/product/data-lakehouse をご覧ください。より詳しいData + AI Summitのキーノートをバーチャルでご覧になるには、こちらからご登録(*10)ください（無料）。没入感のあるオンライン体験が可能です。
*10) https://databricks.com/dataaisummit/

データブリックスについて
データブリックスは、グローバルで唯一のデータ＆AI企業です。Comcast、Condé Nast、H&M、そしてFortune 500の40%以上を含む7,000以上の世界のリーディング企業が、データブリックスのレイクハウス・プラットフォームを活用し、データ、アナリティクス、AIなどのデータプロジェクトに取り組んでいます。データブリックスは米国サンフランシスコに本社を構え、世界中に営業拠点を有しているグローバル企業です。Apache Spark(TM)、Delta Lake、MLflowのクリエーターによって創立され、企業のデータチームが抱える、世界の最も困難な課題を解決するサポートをしています。その他のデータブリックスの詳細に関しては、Twitter、LinkedIn、Facebookをフォローしてください。
Twitter： https://twitter.com/databricksjp
LinkedIn： https://www.linkedin.com/company/databricks
Facebook： https://www.facebook.com/databricksinc

データブリックス・ジャパン株式会社についての詳細:
ホームページ: https://databricks.com/jp/
所在地：東京都港区六本木1丁目4-5 アークヒルズサウスタワー16階
事業内容：データ&AI向け統合データ分析プラットフォームの提供
代表者：データブリックス・ジャパン株式会社社長グレック・テイラー

セーフハーバーステートメント
この情報は、Databricksの一般的な製品の方向性を示すものであり、情報提供のみを目的としたものです。Databricksのサービスを購入するお客様は、現在利用可能なサービス、特徴および機能のみに基づいて購入を決定してください。将来予測に関する記述に記載されている未発表の機能または特徴は、Databricksの裁量で変更されることがあり、計画通りに、または全く提供されない可能性があります。