APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Introduction to Data Engineering on the Lakehouse (Lakehouse でのデータ エンジニアリングの紹介)

はじめに

GLB事業部Lakehouse部のメイです。

現地でのData + AI SUMMIT2023(DAIS)に参加しているメンバーの報告をもとに、データエンジニアリングとAIの統合によってデータ駆動型企業を実現する方法についての 「Introduction to Data Engineering on the Lakehouse」を共有します。 このセッションでは、Databricksが提案する新しいカテゴリー「Lakehouse」を用いたデータエンジニアリングとAIの統合プラットフォームについて解説されています。ターゲット視聴者は、データエンジニア、データサイエンティスト、データアナリスト、そしてデータ駆動型企業を目指す企業経営者の方々です。

データ駆動型企業への課題とデータエンジニアリングの複雑さ

データ駆動型企業になるためには、データエンジニアリングとAIの活用が不可欠です。しかし、これらの技術を統合し、効果的に活用することは容易ではありません。このセッションでは、企業がデータ駆動型になるための課題とデータエンジニアリングの複雑さについて説明し、Databricksが提案するLakehouseという新しいカテゴリーによるデータエンジニアリングとAIの二重構造の解消について解説します。

企業がデータ駆動型になるための課題

データ駆動型企業になるためには、以下のような課題があります。

  1. データの収集と整理: 企業は、さまざまなデータソースからデータを収集し、それを整理する必要があります。
  2. データの分析と活用: 収集されたデータを分析し、ビジネスに活用するための手法を開発する必要があります。
  3. データのセキュリティとプライバシー: 企業は、データのセキュリティとプライバシーを確保するための対策を講じる必要があります。

これらの課題に対処するためには、データエンジニアリングとAIの技術が必要ですが、それらを統合することは容易ではありません。

Lakehouseの導入によるデータエンジニアリングとAIの二重構造の解消

Databricksが提案するLakehouseは、データエンジニアリングとAIの二重構造を解消するための新しいカテゴリーです。Lakehouseは、以下のような特徴を持っています。

  1. データエンジニアリングとAIの統合: データエンジニアリングとAIの技術を統合し、効果的に活用することができます。
  2. データの収集と整理の効率化: さまざまなデータソースからデータを収集し、それを効率的に整理することができます。
  3. データの分析と活用の高速化:収集されたデータを高速に分析し、ビジネスに活用することができます。
  4. データのセキュリティとプライバシーの強化:データのセキュリティとプライバシーを確保するための対策を提供します。

Lakehouseの導入により、企業はデータ駆動型になるための課題に対処し、データエンジニアリングとAIの二重構造を解消することができます。これにより、企業はデータを効果的に活用し、ビジネスの成長を加速させることができるでしょう。

LakehouseとDelta Live Tableの活用

データ品質の確保とテーブル管理の簡素化

LakehouseのソリューションであるDelta Live Table(以下、DLT)は、データエンジニアリングとAIの二重構造を統合したプラットフォームを提供します。これにより、企業がデータ駆動型になるための課題に対処することが可能になります。DLTを活用することで、テーブル管理が簡素化され、データ品質が確保されることが期待されます。

DLTの主な特徴は以下の通りです。

  1. データのバージョニング: DLTは、データの変更履歴を追跡し、バージョン管理を行うことができます。これにより、過去のデータを参照したり、データの変更を容易に行うことができます。
  2. スキーマの進化: DLTは、データのスキーマを柔軟に変更することができます。これにより、データの構造が変わっても、システム全体の変更を最小限に抑えることができます。
  3. データ品質の向上: DLTは、データの品質を向上させるための機能を提供します。例えば、データの検証やクレンジングを行うことができます。

HoneywellのIoTデータ処理事例

DLTを用いたデータ処理と管理の例として、Honeywellが取り組んでいるIoTデータ処理が紹介されました。Honeywellは、IoTデバイスから収集される大量のデータを効率的に処理し、ビジネスインサイトを得るためにDLTを活用しています。

具体的には、以下のようなプロセスが行われています。

  1. IoTデバイスからのデータ収集: Honeywellは、さまざまなIoTデバイスからデータを収集し、DLTに格納します

おわりに

現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!