セッションの要約
本セッションでは、Databricksを活用したデータ製品の構築とその主要概念について説明されました。エキスパートのKarthikとPomeritがデータアーキテクチャ、セキュリティ、ガバナンスに関する洞察を共有し、信頼性の高いデータ製品の重要性を強調しました。データ製品の発見可能性、セキュリティ、プライバシー、セマンティック一貫性、観察可能性が重要な要素として挙げられています。また、データ契約の概念も紹介され、データの管理と共有のガイドラインを定める重要性が指摘されました。具体的な例として保険請求データのデモンストレーションが行われ、データの認証とガバナンスのプロセスが強調されました。最後に、相互運用性の重要性が述べられ、Delta LakeやIcebergなどの技術が紹介されました。
イントロダクション
このセクションでは、Databricksを使ったデータ製品の構築に関する紹介と主要概念を提供します。エキスパートのKarthikとPomeritが、Databricksでのデータアーキテクチャ、セキュリティ、ガバナンスについての専門的な洞察を共有します。彼らのユニークな視点と経験は、データ製品を構築する上で非常に有益な洞察を提供します。
Karthikは現在、ドイツから参加しているDatabricksの専門アーキテクトです。彼は15年以上Databricksで働いており、ソフトウェアエンジニアリングとアーキテクチャの背景を持ち、10年以上にわたってビッグデータとAIの分野で活躍してきました。Databricksでのデータアーキテクチャ、セキュリティ、ガバナンスに焦点を当てることで、効果的なデータソリューション戦略を実行する大きな助けとなります。
共同プレゼンターのPomeritはDatabricksのシニアソリューションアーキテクトです。彼は戦略的なクライアントと密接に協力して、データウェアハウジングからデータサイエンスまでのさまざまなイニシアチブを推進しています。これに先立ち、彼はデータ製品を消費し、データセットの品質と信頼性を判断する挑戦を探求していました。彼が直面した問題は、データ製品の構築に関与する多くの人々と共感できるかもしれません。
Databricksでの彼らの仕事を通じて、KarthikとPomeritは、高品質で信頼性の高いデータ製品を構築するための戦略を解読し、その知識を共有することに熱心です。彼らの専門知識は貴重な洞察を提供し、利用可能なデータの最大限の活用と貴重な洞察の発見の方法を示しています。
データ製品の基礎的な原則
データ製品の基礎的な原則を理解し実装することは、Databricksを使用して高品質で信頼性のあるデータ製品を構築するためには不可欠です。このセクションでは、これらの原則について深く掘り下げます。
データ製品とは何か?
まず第一に、データ製品とはビジネスの文脈と使用ケースを理解した所有者が所有して管理するデータを指します。データ製品の所有者は通常、個々のビジネスユニットに近い人々であり、これらのデータ製品の使用方法に精通しています。
必然的に、データ製品にはライフサイクルがあります。新しいものを導入するためのプロセスが必要であり、既存のものを変更し、最終的には時代遅れのものを交換する必要があります。
データ製品を扱う上で重要な概念として、データ契約というバズワードが過去12ヶ月で流行していて、その意味については後ほど詳しく説明します。
何よりも、企業でデータ製品を使用する際には頑健なガバナンスの実践が重要です。
データ製品が満たすべきキー要素
次に、データ製品が満たすべきキー要素について見ていきましょう。
発見可能性:データ製品は、そのデータ製品を人々が見つけることができるときに初めて有用になります。アナリスト、データサイエンティスト、またはデータエンジニアに関わらず、それがDatabricksとしてエンドユーザーにシームレスな発見体験を提供しようとする理由です。
セキュリティ:データレイクへの適切なメカニズムとアクセス制御が含まれます。Unity CatalogとDatabricksが再びここで重要な役割を果たします。
プライバシー:行レベルのフィルタリング、個人を特定する情報(PII)の列マスキング、およびセンシティブデータの取り扱いに関するポリシーを考慮してください。
セマンティック一貫性:データ製品に記述されている内容が組織内で一般に受け入れられている定義を持つことを確認してください。たとえば、収益指標の定義が異なると混乱を招く可能性があります。
観察可能性:高品質なデータ製品の構築には、データ品質とSLA(Service Level Agreement)の良好な監視が必要です。
企業は大規模なソースシステム(ERPやCRMシステムなど)を所有している古い構造から、ビジネスユニットに近いデータ製品を所有して管理する新しい構造へと移行する必要があります。この遷移は、データ製品の使用と管理をはるかに効果的にすることで、組織全体でのデータの使用を進めます。
データ製品の認証とガバナンス:Databricksを使用した高品質で信頼性のあるデータ製品の構築
このセクションでは、高品質で信頼性のあるデータ製品を作るための集成部分であるデータ製品の認証に焦点を当てます。この問題は、多くのチームが存在し、大量のデータを生み出すことができる大規模な組織で広く認識されています。その結果、信頼できない表と資産の発生が増え、何を使用しているのか、それがどれほど信頼できるのかについて混乱が生じます。
データ製品の認証はこれらの問題に対する解決策を提供します。認証は、単なる一連の技術や機能以上のものであり、Databricksの技術能力と一致するプロセスであることを理解することが重要です。
このプロセスには、信頼性のある権威からの承認の一種が含まれます。通常、この役割は、データ資産が満たすべきある定義や基準を設定する中央のデータガバナンスチームによって果たされます。
このプロセスの一部として、ビジネスドメインは自分たちの製品を作ります。その後、データ製品の認証とガバナンスに関連する詳細を調査します。
このセクションを通じて、Databricksを使用した高品質で信頼性のあるデータ製品の構築に関する理解を深めることを目指します。データ製品の認証とガバナンスの観点から、これを達成するための最も重要なステップと概念について学びます。
Databricksを用いた高品質で信頼性のあるデータ製品の構築:デモンストレーションと実用的な応用
デモンストレーションと実用的な応用
このセッションでは、保険会社からの保険請求データを例に、Databricksを使用してデータ製品を作成し、それを内部ユーザーと外部組織と共有する方法について詳しく学びました。
「データ製品」とは何か?
「データ製品」とは、処理されたデータセットを指し、これは原始データから整理され、後続のアプリケーションで簡単に利用できるようになっています。さらに、これらのデータ製品は、他の部門や外部組織と共有することで新たな洞察や意思決定を支援することができます。
「データ契約」とは何か?
「データ契約」とは、このデータがどのように作成、整理、共有されるかを規定するガイドラインと規則を指します。例えば、データを内部ユーザーと共有する際には、提供されるデータとその権限は、データを共有する部門やユーザーによって異なる場合があります。
データの公開
Databricksを使用してデータ製品を作成した後、データを公開する主要な方法は基本的に2つあります。1つ目は、外部組織や子会社とデータを共有するためのプライベートエクスチェンジ形式です。2つ目の方法は、内部ユーザーにデータ使用の権限を付与する方法です。どちらの方法も、データが正確で信頼性があり、適切に認証されていることを要求します。
機械学習モデルの活用
Databricksで作成した機械学習モデルの使用について、例えば、車両損傷画像から損傷レベルを予測する機械学習モデルを作成した場合、その結果を出力するデータ製品を作成することができます。また、このデータ製品を他の事例に活用することも可能です。
相互運用性
重要な顧客は、中央支払い管理システムの利用によって、データガバナンスを大幅に簡素化できることから大いに恩恵を受けています。これにより、データレイク内のデータとSnowflakeやPostgres上のデータを意味のある、有価値な方法で結びつけることが可能になりました。
Databricksを導入すると、REST APIのような進んだ機能が利用可能になります(特にDatabricks SQL statement execution REST API)。これらのAPIは、データ製品をより簡単に利用できるようにする大きな助けとなります。
セッション後半部では、相互運用性が追加で重要な要素として強調されました。Delta LakeやIcebergのような湖岸式データ形式が徐々に主流となり、これらの異なるエンジンが互いに相互利用可能であることが求められていると強調されました。
まとめ
このセッションで、Databricksを活用したデータ製品の構築方法とその利点を理解することができました。これにより、データガバナンスの簡略化、大量のデータの組み合わせ、そして、「相互運用性」の重要性といった、高品質で信頼性のあるデータ製品を作るための要素を学びました。これらの要素を適切に扱うことにより、企業は自身のデータ利用の効率と価値を最大限に引き出せることでしょう。
Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。
私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。
また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。