APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Build Your Data Lakehouse with a Modern Data Stack on Databricks(Databricksにおけるモダンデータスタックでデータレイクハウスを構築する)

はじめに

GLB事業部Lakehouse部の阿部です。 現地でのData + AI SUMMIT2023(DAIS)に参加している金丸の報告をもとに、セッションの内容をまとめた記事を書きました。

DAISでのセッションに関する記事は、以下の特設サイトにまとめています。

https://www.ap-com.co.jp/data_ai_summit-2023/

Lakehouseテクノロジーでデータレイクハウスを構築

今回は、「Build Your Data Lakehouse with a Modern Data Stack on Databricks」についてお話しします。この講演では、DatabricksのProvost兼Head of EvangelismであるAri Kaplan氏と、デモをリードするPearl Luber氏が登壇しました。彼らは、DatabricksとLake Houseテクノロジーを活用して、データレイクハウスを構築するためのモダンデータスタックについて解説しました。

データ&AIに関心のある技術者やデータレイクハウスの構築に興味のある企業のデータアーキテクト、データ分析や機械学習に関わるビジネスユーザーに向けて、DatabricksのLake Houseテクノロジーを活用したデータレイクハウスの構築方法を解説しました。

DatabricksとLake Houseテクノロジーの概要

まずはじめに、DatabricksとLakehouseテクノロジーについて簡単に説明します。Databricksは、オープンソース技術にコミットしており、Apache Spark、MLflow、Delta Lakeなどのツールを共同開発しています。これらの技術を活用することで、データレイクハウスを構築するためのモダンデータスタックが提供されます。

データレイクハウスは、データレイクとデータウェアハウスの機能を組み合わせた新しいデータ管理システムです。データレイクは、大量のデータを格納・処理することができる一方で、データウェアハウスは、高速なクエリ実行や分析が可能です。データレイクハウスは、これらの両方の機能を提供することで、スケーラビリティ、柔軟性、パフォーマンスのメリットがあります。

デモ: Databricksを活用したデータレイクハウスの構築

次に、Pearl Luber氏がデモを行い、Databricksを活用してデータレイクハウスを構築する方法を紹介しました。デモでは、以下のような手順が説明されました。

  1. Databricksワークスペースの作成
  2. データのインポートと前処理
  3. Delta Lakeを活用したデータの統合
  4. Apache Sparkを用いたデータの分析
  5. MLflowを利用した機械学習モデルの管理

このデモを通じて、DatabricksとLakehouseテクノロジーを活用することで、効率的なデータ管理と分析が可能であることが示されました。

Databricksの製品とソリューションでデータレイクハウスを構築

Databricksは、Databricks SQL、サーバーレスSQL、LLMIテーブル、RPファイルなどの製品やソリューションを提供しており、データエンジニアリングのワークフロー、ゲームのライブストリーミング、機械学習の運用などに活用できます。これらの製品やソリューションを活用することで、特定のニーズに合ったデータレイクハウスを構築できます。

おわりに

現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!