APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Project Aqueduct: Simplify Making Delta Lake Tributaries (Project Aqueduct: デルタレイクの支流の作成を簡素化)

はじめに

​​GLB事業部Global Engineering部 ヨハンです。

​ 今回は、Project Aqueductに関する講演の情報をお届けします。この講演では、DeltaカーネルとDeltaプロトコルを使用したコネクタの構築の簡素化について説明されました。講演のテーマと目的は、複数のエンジンと言語で動作するLakehouse形式を実現することを目指すことです。想定するターゲット視聴者は、データエンジニア、データアーキテクト、データサイエンティストの皆さんです。 ​ 本ブログは全1部構成で、今回が第1部となります。 ​ それでは、早速講演の内容を見ていきましょう! ​

Deltaカーネルとコネクタの構築の簡素化

​ この講演では、DeltaカーネルとDeltaプロトコルを使用したコネクタの構築の簡素化について説明されました。複数のエンジンと言語で動作するLakehouse形式を実現することを目指しています。 ​

複数の実装が存在するDeltaプロトコルの課題

​ Deltaプロトコルは、データの読み書きや管理を効率化するためのプロトコルですが、複数の実装が存在するため、以下のような課題があります。 ​

  1. 各実装間での互換性が低い

  2. 新しい機能や修正がすぐに反映されない

  3. 異なるエンジンや言語でのサポートが限定的

​ これらの課題を解決するために、Project Aqueductが提案されました。 ​

Project Aqueductの取り組み

​ Project Aqueductは、DeltaカーネルとDeltaプロトコルを使用したコネクタの構築を簡素化することを目指しています。具体的には以下のような取り組みが行われています。 ​

  1. Deltaカーネルの開発: Deltaプロトコルの共通部分を抽出し、複数のエンジンや言語で利用できるようにする

  2. コネクタの構築: Deltaカーネルを利用して、各エンジンや言語向けのコネクタを簡単に構築できるようにする

  3. コミュニティの支援: 開発者が簡単にコネクタを開発・メンテナンスできるように、ドキュメントやサンプルコードを提供する

​ これにより、複数のエンジンや言語で動作するLakehouse形式が実現され、データの読み書きや管理が効率化されることが期待されています。 ​

最新の概念や機能

​ Project Aqueductでは、最新の概念や機能が随時取り入れられています。例えば、以下のような機能が提案されています。 ​

  • スキーマの進化: データのスキーマが変更された場合でも、古いデータと新しいデータを同時に扱えるようにする

  • バージョン管理: データのバージョンを管理し、特定のバージョンのデータを簡単に取得できるようにする

  • トランザクション: データの更新や削除をトランザクションとして扱い、一貫性を保つ

​ これらの機能を実現することで、データの取り扱いがより柔軟で効率的になることが期待されています。 ​ まとめると、Project Aqueductは、DeltaカーネルとDeltaプロトコルを使用したコネクタの構築を簡素化し、複数のエンジンや言語で動作するLakehouse形式を実現することを目指しています。これにより、データの読み書きや管理が効率化され、最新の概念や機能が取り入れられることが期待されています。 ​

まとめ

​ 今回の講演では、DeltaカーネルとDeltaプロトコルを使用したコネクタの構築の簡素化について学びました。Project Aqueductの取り組みにより、複数のエンジンや言語で動作するLakehouse形式が実現され、データの読み書きや管理が効率化されることが期待されています。最新の概念や機能も随時取り入れられており、データエンジニアリングやデータサイエンスの分野で活躍する皆さんにとって、非常に興味深い内容でした。 ​ これからも、Project Aqueductの進展に注目していきましょう!

おわりに

現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!