APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Mercedes-Benzが実践するクロスクラウドData Mesh:Delta SharingとUniFormで実現するコスト効率とデータ連携

※本記事は、Data + AI Summit のセッションを現地で視聴したエンジニアが、内容をできる限り客観的に共有することを目的に、生成AIを活用して作成したものです。 ― エーピーコミュニケーションズ Lakehouse部

現代のエンタープライズ環境において、複数のクラウドを併用するマルチクラウド戦略はもはや珍しいものではありません。しかし、その利便性の裏側で、多くの企業が「クラウド間のデータ共有」という大きな課題に直面しています。特に、クラウドプロバイダーをまたぐデータの転送コスト、いわゆる「エグレスコスト」は、データ活用の規模が拡大するにつれて無視できない負担となります。

今回ご紹介するのは、Data+AI SummitでMercedes-BenzとDatabricksの担当者によって発表されたセッション「Cross-Cloud Data Mesh with Delta Sharing and UniForm in Mercedes-Benz」です。本セッションでは、Mercedes-BenzがAWSとAzureという2大クラウドプラットフォーム間で、いかにして効率的かつコストを抑えたデータ共有を実現したかが具体的に語られました。本記事では、その先進的なアーキテクチャと実践的なノウハウを紹介していきます。

Data Meshとそれを支える技術要素

Mercedes-Benzの事例を理解する上で、まず押さえておきたいのが「Data Mesh」というコンセプトと、それを技術的に実現する「Delta Sharing」および「UniForm」です。

Data Meshの基本コンセプト

Data Meshは、中央集権的なデータ管理から脱却し、データの所有権と管理責任を各事業ドメイン(業務部門)に分散させるアーキテクチャ思想です。これにより、各ドメインは自律的にデータを「データプロダクト」として管理・提供し、組織全体のデータ活用のアジリティとスケーラビリティを向上させることを目指します。講演で示されたMercedes-Benzの取り組みは、このData Meshの考え方をマルチクラウド環境でいかに実践するか、という課題に対する一つの答えと言えるでしょう。

Data Meshを実現するためには、以下の4つの原則が重要とされています。

  1. ドメイン指向の分散したデータ所有権とアーキテクチャ: データを生成する業務ドメインが、データに対する責任を持ちます。
  2. データ・アズ・ア・プロダクト: データを単なる資産ではなく、利用者が容易に発見し、理解し、信頼して使える「製品」として扱います。
  3. セルフサービスなデータ基盤: 各ドメインがデータプロダクトを自律的に開発・運用できるような、中央集権的で使いやすいプラットフォームを提供します。
  4. フェデレーション型の計算ガバナンス: 標準化やセキュリティ、コンプライアンスといった横断的なルールは中央で管理しつつ、各ドメインの自律性を尊重するガバナンス体制を構築します。

Delta SharingとUniFormの役割

このData Meshの思想を、特にクラウドをまたいで実現する上で中核的な役割を担ったのが、Databricksが提供するDelta SharingとUniFormです。

Delta Sharingは、組織やクラウドの壁を越えて安全にデータを共有するためのオープンプロトコルです。物理的なデータをコピー&ペーストするのではなく、共有したいデータへのアクセス権をセキュアに付与する仕組みを提供します。これにより、データの受信者(Recipient)は、使い慣れたツール(Pandas、Spark、Tableauなど)から直接データにアクセスできます。

UniForm (Universal Format)は、このデータ共有をさらに強力にサポートする技術です。Delta Lakeフォーマットで管理されているデータを、Apache Icebergなどの他のオープンなテーブルフォーマットとしても利用可能にします。これにより、異なるクラウドやストレージ上で異なるデータフォーマットが使われていても、データ変換の手間なくシームレスな連携が実現します。

Mercedes-Benzの事例では、これら2つの技術を組み合わせることで、クラウド間のデータフォーマットの差異を吸収し、安全かつオープンなデータ共有の基盤を構築しました。

Mercedes-Benzのクロスクラウドアーキテクチャ

Mercedes-Benzが直面していた具体的な課題は、AWS上に存在するデータプロダクトを、Azure上のデータ利用者が活用する際に発生する高額なエグレスコストでした。講演によれば、ある人気のデータセットでは、データ転送だけで週に約5,000ドル、月換算で60,000ドル以上ものコストが発生していたとのことです。これはデータ活用を推進する上で大きな障壁となります。

この課題を解決するために彼らが考案したのが、「ローカルレプリカ+差分同期」というアーキテクチャです。

このアーキテクチャのポイントは、データを毎回クラウド間で転送するのではなく、Azure側にAWS上のデータプロダクトの「レプリカ(複製)」を保持しておく点にあります。そして、データの更新は、Delta Sharingを通じて変更があった差分データのみを同期することで、転送量を最小限に抑えるのです。

具体的には、以下のような流れでデータ連携が行われます。

  1. 初回同期: データ提供者(AWS側)は、Delta Sharingを用いてデータプロダクトを共有します。データ利用者(Azure側)は、その共有データにアクセスし、自身のストレージ上にデータの完全なレプリカを作成します。この初回同期ではある程度のデータ転送が発生しますが、これは一度きりのコストです。
  2. 差分同期: データ提供者側でデータが更新されると、その変更差分(Delta)が記録されます。
  3. 差分適応: Azure側で定期的に実行される同期ジョブが、Delta Sharingを通じてこの差分データのみを取得し、ローカルレプリカにマージ(MERGE)処理を適用します。

この仕組みにより、巨大なデータセット全体を毎回転送する必要がなくなり、ネットワークを流れるデータ量は劇的に削減されます。講演者によれば、このアーキテクチャを導入した結果、週5,000ドルかかっていたエグレスコストは、わずか150ドルにまで削減できたと報告されており、その効果の大きさがうかがえます。

運用自動化とガバナンス

優れたアーキテクチャも、その運用が煩雑ではスケールしません。Mercedes-Benzは、このクロスクラウドデータ同期の仕組みを、CI/CDの考え方を取り入れて高度に自動化しています。

その中心的な役割を担っているのが、Azure DevOpsのAPIを活用した自動化パイプラインです。データプロダクトの定義や同期ジョブのスケジュール、必要な権限設定などをコードとして管理し、Azure DevOpsのパイプラインテンプレートを通じて自動的にデプロイする体制を構築しています。これにより、新しいデータプロダクトの共有や既存プロダクトの更新作業が、人手を介さず、迅速かつ一貫性を持って行われます。

さらに、この自動化パイプラインにはコスト管理の仕組みも組み込まれています。各パイプラインにタグを付与することで、どのデータプロダクトの同期にどれだけのコスト(コンピューティングリソース、エグレスコストなど)がかかっているかを正確に追跡・可視化できるのです。これにより、コスト意識を持ったデータプロダクトの運用が可能になります。

ガバナンスの観点では、データマーケットプレイスというコンセプトが重要です。これは、組織内に存在するデータプロダクトを一覧化し、利用者がセルフサービスでデータを発見、アクセス申請、利用できるポータルのようなものです。Mercedes-Benzでは、このマーケットプレイスを通じてデータプロダクトの登録から権限管理までを一元的に行い、Data Meshにおけるデータの発見性とアクセシビリティを確保しています。

成果とコスト最適化の効果

この取り組みがもたらした成果は、単なるコスト削減にとどまりません。

最も直接的な成果は、やはりエグレスコストの大幅な削減です。週5,000ドルが150ドルになったという事例は、マルチクラウド環境におけるデータ転送コストがいかに大きな課題であり、アーキテクチャの工夫によって劇的に改善できるかを示しています。

しかし、より本質的な成果は、スケーラブルなデータマーケットプレイスを構築できたことにあると私は考えます。自動化されたパイプラインと統一されたガバナンス基盤の上で、各ドメインは自律的にデータプロダクトを公開し、利用者は安全かつ容易にそれを活用できる。これはまさにData Meshが目指す世界です。コストという障壁を取り除いたことで、組織全体のデータ活用が加速し、新たな価値創造へと繋がる道筋が示されました。

ベストプラクティスと今後の展望

このMercedes-Benzの事例から、他社がマルチクラウドデータ戦略を推進する上で参考にできるベストプラクティスがいくつか見えてきます。

  • コストインパクトの大きいユースケースから着手する: 全てのデータを一度に移行するのではなく、まずはエグレスコストが特に問題となっているデータプロダクトから着手することで、ROI(投資対効果)を明確に示すことができます。
  • 自動化への投資を惜しまない: Azure DevOpsなどのCI/CDツールを活用し、プロビジョニングや同期プロセスを徹底的に自動化することが、スケーラビリティと運用安定性の鍵となります。
  • オープンな技術標準を採用する: Delta SharingやUniFormのようなオープンなプロトコルやフォーマットを採用することで、特定のベンダーやクラウドにロックインされるリスクを低減し、将来的な技術選択の柔軟性を確保できます。

今後の展望として、このようなクロスクラウドでのデータ共有アーキテクチャはさらに洗練されていくでしょう。Delta SharingやUniFormの機能が拡充され、より多くのデータフォーマットやクエリエンジンがサポートされることで、クラウド間の垣根はさらに低くなっていくと予想されます。

まとめ

Mercedes-Benzによるこの講演は、マルチクラウド時代のデータ共有における現実的な課題と、それをテクノロジーとアーキテクチャの力でいかにエレガントに解決できるかを示した、非常に示唆に富む内容でした。

高額なエグレスコストという直接的な課題に対し、「ローカルレプリカ+差分同期」というアーキテクチャを採用し、Delta SharingとUniFormというオープン技術でそれを支える。さらに、その運用をAzure DevOpsで自動化し、データマーケットプレイスという形でガバナンスを効かせる。この一連の流れは、Data Meshの思想を具現化する上での優れた実践例と言えるでしょう。

この記事を読んでいる皆さんも、自社のデータ基盤においてクラウド間のデータ転送コストやフォーマットの非互換性に頭を悩ませているかもしれません。Mercedes-Benzの事例は、そうした課題を解決するための具体的なヒントと、データ活用を次のステージに進めるための勇気を与えてくれるのではないでしょうか。