はじめに
GLB事業部Global Engineering部 ヨハンです。 現地でのData + AI SUMMIT2023(DAIS)に参加している市村の報告をもとに、セッションの内容をまとめた記事を書きました。
今回は「Increasing Trust in Your Data: Enabling a Data Governance Program on Databricks Using Unity Catalog and ML-Driven MDM」という講演を取り上げます。講演のテーマは「データガバナンスプログラムの実現によるデータの信頼性向上」であり、データガバナンスの重要性を強調することが目的です。想定するターゲット視聴者は、データガバナンスに興味があるデータエンジニアやデータアナリスト、データの信頼性を高めたい企業の経営者やマネージャー、データガバナンスの導入を検討している企業の担当者です。 本ブログは全2部構成で、今回は第1部をお届けします。それでは、早速講演の内容を見ていきましょう。
データガバナンスの重要性とビジョン
データガバナンスは、企業がデータを適切に管理し、その価値を最大限に引き出すための重要な要素です。この記事では、データガバナンスの重要性とその実現に向けたビジョンについて、Comcastがデータと分析を活用したデジタルトランスフォーメーションの旅を紹介する講演をもとに解説します。
広告主の潜在的な顧客をターゲットにするビジョン
Comcastは、データとターゲティングを活用して広告主の潜在的な顧客をターゲットにするビジョンを持っています。これにより、広告主は効果的な広告戦略を立てることができ、消費者にとっても関心のある広告が表示されることになります。このビジョンを実現するためには、以下の要素が重要となります。
- データの状態: データが正確で最新であることが求められます。
- 起源のシステム: データがどこから来たのか、どのようなプロセスを経て生成されたのかを把握することが重要です。
- 所有権: データの所有者が明確であることが求められます。
- 責任: データの品質やセキュリティに対する責任が明確であることが求められます。
- データ全体の一般的なユースケース: データがどのように活用されるべきか、どのような目的で使用されるのかを理解することが重要です。
データガバナンスプログラムの実現
データガバナンスプログラムを実現するために、ComcastはDatabricksを活用しています。Databricksは、データエンジニアリング、データサイエンス、機械学習などの分野で幅広く利用されている統合データプラットフォームです。Comcastは、Databricks上でUnity CatalogとML-Driven MDM(マスターデータ管理)を活用して、データガバナンスプログラムを実現しています。
Unity Catalog
Unity Catalogは、Databricks上でデータガバナンスを実現するためのカタログサービスです。Unity Catalogを活用することで、データの起源や所有権、責任などの情報を一元管理し、データの信頼性を向上させることができます。
ML-Driven MDM
ML-Driven MDMは、機械学習を活用したマスターデータ管理のアプローチです。ML-Driven MDMを活用することで、データの品質や一貫性を向上させることができます。また、機械学習を活用することで、データのクレンジングやマッチングなどのプロセスを自動化し、効率的なデータガバナンスを実現することができます。
まとめ
データガバナンスは、企業がデータを適切に管理し、その価値を最大限に引き出すための重要な要素です。Comcastは、データと分析を活用したデジタルトランスフォーメーションの旅を通じて、データガバナンスの重要性を強調しています。Databricksを活用し、Unity CatalogとML-Driven MDMを導入することで、データの信頼性を向上させるデータガバナンスプログラムを実現しています。 次回の第2部では、ComcastがDatabricks Lakehouseアーキテクチャを活用したデータガバナンスの具体的な事例や、データマッチングの手法について解説します。お楽しみに!
おわりに
現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。
引き続きどうぞよろしくお願いします!