APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

What’s New in Unity Catalog—with Live Demos(Unity Catalogの最新情報 - ライブデモ付き)

Unity Catalogの製品チームに参加し、データとAIのガバナンスでの最前線の進歩に身を浸してください。特に Databricks Data Intelligence Platformを導入している企業向けに設計されているUnity Catalogは、データとAIの両方に統一的なガバナンスを提供する唯一のソリューションです。

Unity Catalog: 歴史と主な特徴の追跡

本日のセッションのスピーカーは、Unity Catalogの構築に主責任者として関わったDatabricksの製品チームの重要メンバーであるPaulとMertです。一緒に、我々は過去一年間に開発された機能と、近い将来リリースを楽しみにしている機能について深く掘り下げていきます。

セッションは少し変更される可能性がありますが、業界の成長と進化の歴史的背景から話を始め、それがガバナンスの実践にどのように影響を与えたかについて話していきます。

初期のデータウェアハウスモデルには特に魅力を感じていました。その理由は、頑健なSQLサポート、履歴分析の可能性、そして構造化データの強固なサポートシステムがあるからです。

Unity Catalogチームはこれまでの業界で経験した様々なデータアーキテクチャを徹底的に調査し、それらがガバナンスの実践をどの程度促進または阻害したかを分析しました。彼らは、初期のデータウェアハウスが果たした重要な役割を認識しました。これは強力なSQLサポートを提供し、履歴分析を可能にし、構造化データの高度なサポートを提供しました。この経験と洞察を基盤として、Unity CatalogチームはDatabricksの製品ポートフォリオを強化し、ユーザーに優れた価値を提供することを目指しています。

Unityカタログにおける新たなガバナンス機能とオブジェクトタイプ

最近、Unity Catalog製品チームとの議論において、Unity Catalogを通じて可能になったデータとAIのガバナンスに関する最新のアップデートを深く掘り下げました。データとAIの両方のガバナンスに統一的なアプローチを提供する唯一のソリューションがUnity Catalogで、これはDatabricks Data Intelligence Platformに統合されたものです。今日は、Unityカタログで新たに追加されたガバナンス機能とオブジェクトタイプに特に焦点を当てます。

改善されたガバナンス機能と進化したオブジェクトタイプ

昨年以来、Unityカタログは広範にわたる建築デザインを促進するための多数の個別のオブジェクトタイプを提供しています。これには以下のようなものが含まれます:

  1. エクスターナルロケーション:これは、クラウドストレージへのアクセス権を効率的に管理するために考案されています。
  2. フォーリンカタログ:Postgres、Snowflake、Redshiftなどの外部システムをUnityカタログのスコープ内に統合することを可能にする'Lakehouse Federation'のパイロットです。
  3. 複数のオブジェクトタイプ:これにはテーブル、関数、モデル、ボリュームなどが含まれ、それぞれのアクセス権が便利に管理できます。

以前、私たちはANSIのグラントSQL文を活用して各オブジェクトのアクセス権を管理しました。例えば、特定のテーブルに対する選択権限を付与するなど。"grant select your table to BERT"や"given execute on a model"などのコマンドは、BERTが操作するプラットフォームに関係なく、許可の厳格な遵守を保証します。

このような基盤を基に、Unityカタログは新たなガバナンス機能とオブジェクトタイプの幅広い範囲を追加しました。オブジェクトタイプの能力とポートフォリオの常時強化により、UnityカタログはデータとAIのガバナンスを効率的に管理できます。これらの機能は、多様なデータタイプとAIモデルを管理するために特に有用であり、効果的なデータガバナンス戦略計画にとって重要です。

Unityカタログの初めてのユーザーであれば、または経験豊かなユーザーであれば、より良いデータとAIの管理手法のために、これらの最新のガバナンス機能とオブジェクトタイプを活用することを推奨します。

次のセクションでは、この議論中に紹介された他の革新的な機能について深く掘り下げる予定です。お楽しみに!

Unity CatalogとHive Metastore Federationによる効率的なデータ移行

Unity Catalogとその先進的な機能であるHive Metastore Federationとアクセス制御の詳細な探索へようこそ。これらのツールは、データをUnity Catalogに簡単に移行する方法を求めている人々にとって完璧な答えです。

Hive Metastoreとの統合

UnityとHive Metastoreの接続は非常に効率的なプロセスです。Hive MetastoreをUnityでFederated Catalog、つまりFederated Hive Metastoreとして登録することにより、製品はあなたのHive Metastore全体を自由に移動することができます。その結果、Unity Catalogは自動的にすべてのHive Metastoreアセットをインポートします。

アクセス制御の力を解放する

データをインポートすると、Unityのアクセス制御リスト(ACL)を適用することができます。アクセス制御機能により、データの管理が容易になり、統一されたアクセス制御がもたらされ、データ管理が容易になります。

Hive Metastore Federationを活用した強化されたデータ移行

Hive Metastore Federationのもっともエキサイティングな利用法の1つは、データ移行ツールとしての利用です。Hiveに保存されたデータへのインスタントアクセス能力は、データ移行に必要な労力を劇的に削減します。

相互運用性の確保

Hive Metastore Federationの2つ目のユースケースは、相互運用性の促進で、異なるデータソース間のデータ交換を容易にします。

Hive Metastore Federationとアクセス制御の利便性は、Unity Catalogをデータガバナンスを強化し、移行効率を高める強力なツールに変えます。これにより、一元化されたデータ管理の包括的な目標の達成が可能になります。

"高度なアクセス制御とクラウド統合"Unity Catalogの進展

Unity Catalogの製品チームによる詳細な調査により、最新のデータとAIガバナンスの進歩がスポットライトの当たることになりました。Unity Catalogは、Databricks Data Intelligence Platformとネイティブに統合した統一ガバナンスを提供する画期的なソリューションとしてデビューしました。

このセッションでは、"高度なアクセス制御とクラウド統合"に主に焦点を当て、属性ベースのアクセス制御(ABAC)との協力の具体的な例が共有されました。

ABACとUnity Catalog

Unity Catalogの注目すべき特徴の一つは、Lake House内のすべてのPersonally Identifiable Information(PII)を検出する能力です。このセッションでは、この機能をABACとシナジーを発揮して利用する具体的な例を3つ紹介しました。

最初の例では、典型的なABACのケースで、マスキングはすべての列に適用されますが、PIIとしてタグ付けされたものにのみ適用されます。このマスキングは伝統的には各テーブルごとに個別に行われており、スケーラビリティに欠けていました。

しかし、Unity Catalogであれば、すべてのテーブルに適用できる1つのルールを作成することができます。その結果、このルールはPIIとしてタグ付けされた列にマスキングを適用し、複数のテーブルを同時に保護することが可能になります。

このセッションでは、Unity CatalogがデータとAIガバナンスの世界でどのように進化してきたか、また最新の高度なアクセス制御とクラウド統合の情報を解き明かしました。この開発に目を光らせることは極めて重要です。

AIによる検索と探索の探求

Databricksに精通している場合、Catalog Explorerは馴染みのある光景かもしれません。今年、これには数多くの強化が加えられ、本投稿では、デモ付きで3つの特筆すべき改良点を詳しく見ていきます。

まず最初に取り上げるのは、AIによるコメント生成機能です。この機能を使うと、AIがあなたのテーブルを検査し、メタデータに基づいてコメントを提案します。この実用的な機能のおかげで、もはやテーブルを文書化しない理由はありません。また、この機能は検索可能性を高めています。

次に、少し古めかしいかもしれないエンティティ関係図(ERD)を見てみましょう。ERDを使用すると、異なるデータセットをどのようにリンクするかを理解できます。Deltaを使用すると、主キーと外部キーの関係を視覚化し、それをCatalog Explorerで直接表示できます。この機能は非常に有益です。

これらの機能は微妙なように見えるかもしれませんが、統一データとAIのガバナンスを提供するUnity Catalogの取り組みに大いに貢献しています。また、これらの機能はDatabricks Data Intelligence Platformにネイティブに統合されています。さらなる改良が将来的に予定されており、Unity Catalogをより強力なツールにします。

Unity Catalog最新機能—データ品質と系統のライブデモンストレーション

データとAIチームが調査したUnity Catalogは、統一されたガバナンスソリューションとしての役割を中心に展開するデモンストレーションセッションを通じて、その最新機能について深く解説します。このセッションのハイライトは、データ品質とデータ系統に焦点を当てていることです。

Unity Catalogは、関連するテーブルを自動的に識別し、それらの相互関係をERD図で表すことができます。例えば、'products'、'customers'、'stores'などのテーブルが頻繁に結合されている場合、Unity Catalogはこれらの結合キーを自動的に認識し、それらをERD図に視覚化します。各表の詳細な探査により、どの表を結合すべきか、どのような洞察が得られるか、どのようにコーディングを開始すべきかが容易に理解できます。

しかし、データの選択と理解だけで作業が終わるわけではありません。データ品質の検証は極めて重要で、このセッションではその重要なポイントを探求しています。例えば、ある表がほとんど使われていない場合、その表は更新されずに放置されている可能性があります。では、データの品質をどのように検証すべきでしょうか?

Unity Catalogは、Lakehouse Monitoringによって製作された自動生成ダッシュボードを含む'Quality'タブを備えています。このダッシュボードは、データに基づいてLakehouse Monitoringにより作成されます。ダッシュボードをクリックするだけで、即座にデータ品質のチェックができます。

ここで紹介したUnity Catalogの機能は、Data Intelligence Platformの一部として利用することができます。したがって、Unity CatalogがデータとAIの管理にどのように取り組んでいるか、一体化したガバナンスを可能にしているかを観察することができます。

セッションの要約

このセッションは、Unity Catalogがデータインテリジェンスプラットフォーム内で統合ガバナンスを具体化する方法を見事に例示しました。データ品質と系統に焦点を当てたデモンストレーションは非常に有益で、Unity Catalogのこの分野での強固さを確認しました。これにより、データとAIの管理に向けた一体化したアプローチが可能となり、組織のデータインテリジェンスを強化する新たな道筋が開かれました。


Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。

www.ap-com.co.jp

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp