APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Databricks Unity Catalog 最新アップデート解説:ライブデモから紐解く次世代データ&AIガバナンスの全貌

※本記事は、Data + AI Summit のセッションを現地で視聴したエンジニアが、内容をできる限り客観的に共有することを目的に、生成AIを活用して作成したものです。 ― エーピーコミュニケーションズ Lakehouse部

Databricksが開催したセッション「What’s New in Unity Catalog With Live Demos」では、同社のプロダクトチームに所属するPaul Roome氏とMert Neemuchwala氏が登壇し、Unity Catalogの最新機能と今後のロードマップについて、数多くのライブデモを交えながら解説しました。本記事では、このセッションの内容を基に、現代のデータプラットフォームが直面する課題から、Unity Catalogが提供する解決策、そして具体的な活用事例までを、テックブロガーの視点から客観的かつ詳細に掘り下げていきます。

データガバナンスの課題と「カタログ」という抽象化レイヤの重要性

セッションの冒頭でPaul氏は、データガバナンスの歴史的な課題について触れました。かつてのデータ環境では、データソースごとにアクセス方法が異なり、管理がサイロ化していました。例えば、データレイク上のファイルにはクラウドのIAMポリシーを、データウェアハウスにはSQLのGRANT文を、といった具合に、データアナリストやエンジニアは個別のシステムを意識する必要がありました。これは利用者にとって非効率であるだけでなく、ガバナンスチームにとっては、誰がどのデータにアクセスできるのかを統一的に管理・監査することを極めて困難にしていました。

この複雑な問題を解決する鍵として、Paul氏は「もう一段階の間接化(a level of indirection)」というコンピュータサイエンスの格言を引用し、Unity Catalogがその役割を担うと説明します。Unity Catalogは、物理的なデータの保存場所やフォーマット(JSONファイル、データベース、外部テーブルなど)を抽象化し、ユーザーとデータ資産の間に一貫したガバナンスレイヤを提供します。

これにより、ユーザーはデータの物理的な所在を意識することなく、テーブルやビューといった論理的なオブジェクトとしてデータにアクセスできます。一方、ガバナンスチームは、この統一されたカタログレイヤ上で、すべてのデータ資産に対するアクセス制御、監査、リネージ管理を一元的に実施できるようになります。まさに、この抽象化こそが、Databricksが目指す「全ユーザー・全エンジン・全Data/AI資産」に対する統一ガバナンスの基盤となっているのです。

Unity Catalogの最新機能:ガバナンス、相互運用性、そして発見体験の進化

Unity Catalogは、単なるメタデータ管理ツールではありません。「発見(Discovery)」「ガバナンス(Governance)」「資産(Assets)」の3層からなるアーキテクチャを持ち、データとAIのライフサイクル全体をカバーします。今回のセッションでは、特にこの3つの領域における最新の機能強化が紹介されました。

本記事では、特に重要と思われるアップデートを以下の3つのカテゴリに分けて解説していきます。

  1. 強化されたガバナンス機能: 属性ベースのアクセス制御(ABAC)やデータ品質監視の自動化など、より高度でスケーラブルな管理を実現する機能。
  2. 広範なデータ利用と相互運用性: Lakehouse Federationの拡張やオープンフォーマットへの対応強化により、あらゆるデータを統合・活用するための機能。
  3. Discover Hubとセルフサービス強化: AIを活用した新しいUIにより、ユーザーが自ら信頼できるデータを発見し、安全に利用するための機能。

1. 強化されたガバナンス機能と活用メリット

データガバナンスの中核は、適切なユーザーに適切な権限でデータへのアクセスを許可することです。Unity Catalogは、この領域で大きな進化を遂げています。

属性ベースアクセス制御(ABAC)と自動データ分類

従来のロールベースアクセス制御(RBAC)では、ユーザーやグループ単位でテーブルへのアクセス許可を与えるのが一般的です。しかし、テーブル数が膨大になるケースでは、管理負荷が高まることがあります。

ここで登場するのが属性ベースアクセス制御(Attribute-based Access Control, ABAC)です。ABACは、「PII(個人識別情報)タグが付いたカラムは、特権管理者グループ以外にはマスクする」といったポリシーベースのルールを定義できます。一度ポリシーを設定すれば、それがカタログ配下のすべてのテーブルに自動的に適用されます。

Mert氏によるデモでは、このABACの活用フローが具体的に示されました。

  1. 自動データ分類: まず、カタログに対して「Data Classification」機能を有効にします。すると, Unity Catalogが機械学習を用いてカタログ内の全テーブルをスキャンし、氏名、メールアドレス、IPアドレスといった機微情報を自動で検知し、「PII」などのタグを付与します。
  2. マスキング関数の定義: CREATE MASKING FUNCTIONを用いて、文字列をマスクするシンプルなSQL関数を定義します。
  3. ポリシーの適用: 最後に、カタログレベルでABACポリシーを作成します。「piiタグを持つカラムに対して、super_adminsグループ以外の全ユーザーに先ほど定義したマスキング関数を適用する」というルールを設定します。

この3ステップだけで、カタログ内の何千ものテーブルに含まれる個人情報が、一括で保護されます。個々のテーブルオーナーが意図せずポリシーを上書きしてしまう心配もなく、スケーラブルで一貫したセキュリティが実現できます。

排他的RBACアクセスとボリュームパス権限

さらに細かい制御も可能になっています。新機能の「Exclusive Group」は、特定のグループに属するユーザーが、そのグループに与えられた権限のみを排他的に利用できるようにする仕組みです。これにより、例えば複数の臨床試験データを扱う際に、研究者が意図せず異なる試験のデータを結合してしまうといったリスクを防ぐことができます。

また、非構造化データを扱う「ボリューム」においても、これまでのボリューム単位のアクセス制御に加え、フォルダパス単位での権限設定が可能になります。これにより、一つのボリューム内でチームごとにアクセス可能なディレクトリを分けるなど、より柔軟な運用が実現します。

データ品質監視の自動化

データの信頼性は、データ活用の成否を左右します。Unity CatalogのData Quality Monitoringは、AIを活用してこの課題に取り組みます。

スキーマ単位でこの機能を有効にすると、Unity Catalogは配下の全テーブルの更新履歴(コミット履歴)を時系列で分析し、AIモデルを構築します。これにより、「いつもより更新が遅れていないか(Staleness)」や「レコード数が異常に増減していないか(Completeness)」といったデータの品質異常を自動で検知し、アラートを発行します。

さらに、データリネージ情報を活用して、そのデータ品質問題が下流のダッシュボードやAIモデルにどれだけの影響を与えるかを評価し、アラートに優先順位を付けます。これにより、管理者は本当に重要な問題から対処することが可能になります。UI上にもデータの健全性を示すインジケーターが表示され、アナリスト自身がデータの品質を確かめながら分析を進められるようになります。

2. 広範なデータ利用と相互運用性

Unity Catalogの目標は、Databricks内のデータだけでなく、組織内に散在するあらゆるデータを統一的に管理することです。そのための相互運用性が大幅に強化されています。

メトリックビューによるKPI標準化

「先月の売上はいくら?」という単純な問いに対して、部署や担当者によって答えが異なってしまうのは、多くの企業が抱える課題です。これは、「売上」の定義(例:割引や返品を考慮するか)が標準化されていないために起こります。

Metric Viewsは、この問題を解決するための機能です。データスチュワードは、revenue(売上)のようなビジネス上重要な指標(メジャー)や、fiscal_quarter(四半期)のような分析軸(ディメンション)を、ビジネスロジックを含めてYAML形式で中央集権的に定義します。

Mert氏のデモでは、「売上」を「revenue_amountからリベートを引いた額」としてMetric Viewで定義しました。利用者は、このcertified_revenueというMetric Viewを通常のテーブルのようにクエリするだけで、誰でも一貫した正しい計算結果を得ることができます。これにより、AIアシスタントがクエリを生成する場合でも、解釈の齟齬なく信頼できる数値を導き出せます。

Lakehouse Federation & Catalog Federation

Lakehouse Federationは、外部のデータソースをあたかもUnity Catalog内のテーブルであるかのように扱えるようにする機能です。これまでのPostgreSQLやSnowflakeなど、多様な商用データウェアハウスにも対応しています。

さらに強力なのがCatalog Federationです。これは、AWS GlueやApache Hive、Iceberg互換のカタログといった外部の「カタログシステム」そのものをUnity Catalogに統合する機能です。これにより、既存のデータレイク資産をそのままの場所で維持しつつ、Unity Catalogの統一ガバナンス(アクセス制御、リネージ、監査など)の傘下に入れることができます。これは、既存システムからの段階的な移行を計画する企業にとって、非常に現実的で効果的なアプローチと言えるでしょう。

マネージドテーブル最適化とIcebergサポート

Unity Catalogでは、テーブルのメタデータと実データをDatabricksが管理する「マネージドテーブル」の利用が推奨されています。その最大の理由は、Unity Catalogがテーブルへのすべてのクエリを監視し、ファイルのレイアウトを自動で最適化(コンパクションなどの自動メンテナンス操作)してくれるためです。これにより、ユーザーが意識することなく、クエリパフォーマンスの向上とストレージコストの削減が実現します。

一方で、「マネージド」という言葉からベンダーロックインを懸念する声もあります。しかし、DatabricksはオープンソースのAPIを通じて、TrinoやオープンソースのSparkなど外部エンジンからもマネージドテーブルへの読み書きを可能にしています。

さらに、CREATE TABLE ... USING ICEBERG構文をサポートしたことで、オープンなテーブルフォーマットであるApache Iceberg形式でマネージドテーブルを作成することも可能です。これにより、パフォーマンスとオープン性の両立が実現されています。

3. Discover Hubとセルフサービス強化

どんなに優れたデータがあっても、利用者がそれを見つけ、信頼し、利用できなければ価値は生まれません。新しいDiscover Hubは、このデータ発見の体験を根本から変えることを目指します。

AI推薦とドメインベースのキュレーション

Discover Hubは、単なるデータカタログの検索画面ではありません。Unity Catalogが収集したクエリパターンやリネージ情報を基に、AIが各ユーザーにパーソナライズされたデータセットを推薦してくれます。

また、「マーケティングキャンペーン分析」「製品別売上」といったビジネス上の関心事に基づいた「データドメイン」という概念が導入されました。これは、Netflixで映画をジャンル別に探すような体験に似ています。ユーザーは技術的なスキーマ構造を意識することなく、自分の業務目的に沿って整理されたデータやダッシュボードを直感的に見つけることができます。

リネージ機能の拡張(BYOL)

Unity Catalogの自動リネージ機能は非常に強力ですが、データの流れは必ずしもDatabricks内で完結しません。新機能のBring Your Own Lineage (BYOL)は、このギャップを埋めるものです。

Mert氏のデモでは、APIを介してカスタムのリネージ情報を登録する様子が示されました。例えば、「このデータは上流のSalesforceオブジェクトから来ており、下流ではTableauのダッシュボードで利用されている」といった情報をリネージグラフに追加できます。これにより、SalesforceからDatabricksを経由し、最終的なBIツールに至るまで、真にエンドツーエンドのトレーサビリティを可視化できるようになります。

リクエストベースのアクセス申請

Discover Hubで有用なデータセットを見つけても、アクセス権がなければ利用できません。新しいRequest for Access機能は、このプロセスを効率化します。ユーザーはUI上から直接、必要なテーブルへの読み取り権限などをリクエストできます。リクエストは管理者にメールなどで通知され、管理者は数クリックで権限を付与できます。これにより、データ利用までのリードタイムが大幅に短縮され、セルフサービス型のガバナンスが促進されます。

まとめ:すべてのデータとAI資産を統治する未来へ

今回のセッションで紹介された数々のアップデートは、DatabricksがUnity Catalogを単なるアクセス制御ツールではなく、データとAIに関するあらゆる資産を対象とした統合ガバナンスプラットフォームへと進化させようとしている強い意志の表れです。

  • 属性ベースアクセス制御(ABAC)データ品質監視による、スケーラブルでインテリジェントなガバナンス。
  • Lakehouse/Catalog Federationオープンフォーマット対応による、あらゆるデータソースとのシームレスな相互運用性。
  • Discover Hub拡張リネージによる、AIを活用した直感的で信頼性の高いデータ発見体験。

これらの機能が組み合わさることで、企業はサイロ化されたデータを解放し、すべてのユーザーが安全かつ効率的にデータとAIを活用できる環境を構築できます。Unity Catalogは、まさにデータインテリジェンスプラットフォームの「頭脳」として、その中核的な役割を担っていくことになるでしょう。

追加学習リソース

本記事で紹介した機能について、さらに詳しく知りたい方は以下の公式リソースをご参照ください。