はじめに
GLB事業部Lakehouse部の陳(チェン)です。サンフランシスコで開催されているData + AI SUMMIT2023(DAIS2023)に参加している永里の報告をもとに、「What's New in Databricks SQL -- With Live Demos(Databricks SQLの新機能 - ライブデモ付き)」という講演の概要をご紹介します。
本講演は、Databricks SQLを使用したデータインジェスチョン、ガバナンス、変換、探索のプラットフォームを紹介するもので、発表者はスタッフプロジェクトマネージャーのCan Efeogluさんです。 講演は、データ&AIに興味がある技術者やデータ分析やデータエンジニアリングに携わるエンジニア、データプラットフォームの導入を検討している企業の担当者に向けて開催されました。中には、データインジェスチョンの方法やストリーミングテーブルの設定方法、Firebaseからのデータ取り込み方法、統合ナビゲーションバーとデータエクスプローラーの統合など、視聴者の関心度が高いポイントを中心に解説していきます。
データインジェスチョンとストリーミングテーブルの設定
Databricks SQLを使用することで、データインジェスチョン、ガバナンス、変換、探索のプロセスを効率化し、リアルタイムでデータを取り込むことができます。データインジェスチョンの方法として、パートナー連携、ストリーミングテーブル、オブジェクトストアやストリーミングソースからのインクリメンタルインジェスチョンが紹介されました。また、Databricks SQLでストリーミングテーブルを設定する方法や、Partner Connectを使ってFirebaseからデータを取り込むパートナー連携もデモで示されました。
データインジェスチョンの方法
データインジェスチョンは、データを取り込むプロセスであり、Databricks SQLでは以下の方法が提供されています。
- パートナー連携: Partner Connectを使用して、Firebaseなどの外部データソースからデータを取り込む
- ストリーミングテーブル: Databricks SQLでストリーミングテーブルを設定し、リアルタイムでデータを取り込む
- オブジェクトストア: Amazon S3やAzure Blob Storageなどのオブジェクトストアからデータを取り込む
- ストリーミングソース: KafkaやKinesisなどのストリーミングソースからインクリメンタルインジェスチョンを行う
ストリーミングテーブルの設定方法
Databricks SQLでは、ストリーミングテーブルを設定することで、リアルタイムでデータを取り込むことができます。デモでは、以下の手順でストリーミングテーブルを設定する方法が紹介されました。
- Databricks SQLのワークスペースに移動し、
Create Table
をクリックします。 Stream
タブを選択し、ストリーミングソースを選択します。- ソースの詳細を入力し、
Create Table
をクリックしてストリーミングテーブルを作成します。
これにより、リアルタイムでデータが取り込まれるストリーミングテーブルが作成されます。
Partner Connectを使ったFirebaseからのデータ取り込み
Partner Connectを使用することで、Firebaseなどの外部データソースからデータを取り込むことができます。デモでは、以下の手順でFirebaseからデータを取り込む方法が紹介されました。
- Databricks SQLのワークスペースに移動し、
Data
タブをクリック Add Data
をクリックし、Partner Connect
を選択- Firebaseを選択し、必要な情報を入力して
Connect
をクリックします。
これにより、Firebaseからデータが取り込まれ、Databricks SQLで利用できるようになります。
データエクスプローラーと統合ナビゲーションバーでのデータ操作
データエクスプローラーでは、SQLテーブルやスキーマを使用し、ジョブをスケジュールする方法が説明されました。また、新しいタスクタイプ「sql」が導入され、クエリ、アラート、ダッシュボード、ファイルがjquery-sql内で統合されていることが紹介されました。
データエクスプローラーでのデータ操作
データエクスプローラーでは、以下のような操作が可能です。
- SQLテーブルやスキーマの閲覧
- ジョブのスケジュール設定
- クエリの実行
これにより、データ分析やデータ加工の作業が効率化されます。
統合ナビゲーションバーでのタスク管理
統合ナビゲーションバーでは、新しいタスクタイプ「sql」を利用して、以下のタスクを一元管理できます。
- クエリ
- アラート
- ダッシュボード
- ファイル
これにより、データ分析やデータ加工の作業が効率化されます。
マテリアライズドビューとノートブックの活用
講演では、マテリアライズドビューの使用方法や、PDCツール内の他のツールについても言及されました。また、ノートブックをSQLウェアハウスの上に使用することで、ユーザーのワークフローを簡素化する利点が強調されました。
マテリアライズドビューの活用
マテリアライズドビューは、以下のような利点があります。
- クエリの実行速度の向上
- データの整合性の確保
- データの可視化の容易化
これにより、データ分析やデータ加工の作業が効率化されます。
ノートブックの活用
ノートブックをSQLウェアハウスの上に使用することで、以下のような利点があります。
- ワークフローの簡素化
- コードの再利用性の向上
- データの可視化の容易化
これにより、データ分析やデータ加工の作業が効率化されます。
まとめ
Databricks SQLを使用したデータインジェスチョン、ガバナンス、変換、探索のプラットフォームは、データエクスプローラーと統合ナビゲーションバーでのデータ操作や、マテリアライズドビューとノートブックの活用により、データ分析やデータ加工の作業を効率化することができます。これにより、データ分析やデータ加工の作業が効率化されます。今後のDatabricks SQLの進化にも注目していきたいです。
おわりに
現地でのDAIS2023に参加しているメンバーからの報告をもとに、セッションの内容をご紹介しました。 セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。