APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Embracing the Future of Data Engineering: The Serverless, Real-Time Lakehouse in Action(サーバーレスとストリーミングデータを活用したデータエンジニアリングの未来)

はじめに

GLB事業部Lakehouse部のメイです。

現地でのData + AI SUMMIT2023(DAIS)に参加しているメンバーの報告をもとに、データエンジニアリングの未来を切り開くサーバーレス技術とストリーミングデータについての「Embracing the Future of Data Engineering: The Serverless, Real-Time Lakehouse in Action」を共有します。このセッションでは、Data&AI専門の技術系記者であり、技術マーケティングエンジニアとして働いているFrank Munzさんによって行われました。

このセッションの目的は、サーバーレスとストリーミングデータを活用したデータエンジニアリングの未来を紹介することです。対象となる視聴者は、データエンジニアリングに興味がある技術者や、サーバーレスやストリーミングデータに関心があるエンジニア、そしてビッグデータ処理に携わるデータサイエンティストです。

スマートフォンのデータ分析デモによるDatabricksの活用

Frankさんは、Googleが解決した問題をDatabricksで再現し、スマートフォンのデータを分析する方法を紹介しました。Databricksは、ビッグデータやAIを活用したデータエンジニアリングのプラットフォームで、データの収集、分析、可視化を効率的に行うことができます。

サーバーレス技術の利点とAWS Lambdaの説明

サーバーレス技術は、データエンジニアリングの未来を拓く重要な要素です。サーバーレス技術の利点は以下の通りです。

  1. インフラ管理の簡素化: サーバーやネットワークなどのインフラ管理が不要になり、開発者はアプリケーション開発に集中できます。
  2. スケーラビリティ: サーバーレスアーキテクチャは、リクエスト数に応じて自動的にスケールするため、急激なトラフィック増加にも対応できます。
  3. コスト削減: サーバーレスでは、実際に使用したリソースに対してのみ課金されるため、コストを削減できます。

AWS Lambdaは、サーバーレス技術の代表的なサービスで、以下の特徴があります。

  • イベント駆動型: Lambdaは、S3バケットやDynamoDBなどのAWSサービスからのイベントをトリガーにして実行されます。
  • 言語対応: Python, Node.js, Java, Goなど、複数のプログラミング言語に対応しています。
  • 短時間実行: Lambdaは、短時間で実行されることが前提のため、長時間実行が必要な処理には向いていません。

サーバーレスとストリーミングデータの活用

サーバーレス技術とストリーミングデータを組み合わせることで、リアルタイムなデータ分析や処理が可能になります。これにより、以下のようなユースケースが実現できます。

  • リアルタイムダッシュボード: ストリーミングデータをリアルタイムで可視化し、ビジネスの状況を随時把握できます。
  • アラート通知: 特定の条件を満たすデータがストリームに現れた場合に、自動的に通知を行うことができます。
  • データの前処理: ストリーミングデータをリアルタイムで加工・整形し、後続の分析処理に適した形式に変換できます。

このようなリアルタイムなデータ処理を実現するためには、以下のような技術やサービスが活用できます。

  • Apache Kafka: 分散ストリーミングプラットフォームで、大量のデータをリアルタイムで処理することができます。
  • AWS Kinesis: AWSが提供するストリーミングデータプラットフォームで、リアルタイムデータの収集・処理・分析が可能です。
  • Apache Flink: ストリーミングデータ処理のためのオープンソースフレームワークで、高速かつスケーラブルなデータ処理が実現できます。

サーバーレス技術とストリーミングデータを活用することで、データエンジニアリングの効率化やリアルタイム性の向上が期待できます。今後のデータエンジニアリングの未来に向けて、これらの技術やサービスの活用がますます重要になっていくでしょう。

まとめ

今回の講演では、サーバーレス技術とストリーミングデータを活用したデータエンジニアリングの未来が紹介されました。これらの技術を活用することで、データエンジニアリングの効率化やリアルタイム性の向上が期待できます。データエンジニアリングの世界は、これらの技術の進化により、ますます効率化され、新たな価値を生み出すことが期待されます。今後も、このような技術の進化に注目していきたいと思います。

おわりに

現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!