APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Databricks Streaming Project Lightspeed Goes Hyperspeed(Databricksのストリーミング・プロジェクトLightspeedがハイパースピードに)

リアルタイムデータ処理の紹介

皆さん、こんにちは。私は最近、50 Cent Mediaのデータリードで、製品マネージャーであり、開発マネージャーでもあるGordon Benderによる興奮したセッション"Databricks Streaming – Project Lightspeed Goes Hyperspeed"に参加しました。彼は一定期間開発してきたリアルタイムデータ処理技術、Project Lightspeedにフォーカスを当てていました。

GordonからProject Lightspeedについて明らかにされることに対する予感と興奮が感じられ、その興奮は彼のセッション中にも確かに感じられました。彼はこっそりと進行中だったこのプロジェクトの一部がついに公になりつつあることを明かしました。

詳細に入る前に、Gordonは観客に忍耐を求めました。プレゼンテーションは深い理解を得るために時間と配慮を要する多くの新しい方法と情報で満たされていました。彼は私たちに、彼に質問を投げつける前にプレゼンテーションされた詳細情報を吸収するよう促しました。

主要な焦点に従って、Project LightspeedはSpark Structured Streamingに基づく次世代のストリーミングデータ処理を目指し、今年は超低遅延処理の分野で劇的な進歩を遂げています。

Gordonは私たちに、彼と一緒にこの旅を始めるようにと招きました。セッションを通じて、最新のAIツールとその応用、そして何よりも、Project Lightspeedの進化について学びます。

リアルタイムデータ処理の最新のAIツールと進歩に興味のある方々には、Project Lightspeedとその革新的な進歩に精通することを強く推奨します。セッションで提供された情報は深遠で、最初に求められた忍耐は大いに報われました。Project Lightspeedを通して探求するリアルタイムデータ処理の魅力的な世界が待っています。

Project Lightspeedの進展と特徴

私たちはまだストリーミングデータ処理の採用初期段階にあり、多くの組織が最初のいくつかの重要なユースケースを実装し始めたところです。しかし、Databricksの取り組みであるProject Lightspeedにより、その風景は進化することになります。Databricksによれば、組織が文字通り何百ものストリーミングユースケースを持つ未来を予想できます - これはおそらく5〜10年後の標準になるでしょう。

ストリーミングの世界では、Databricksの位置は顕著です。最近のIDC Marketによるストリーム処理のリポートでは、Databricksは、そのプラットフォーム上でストリーミングデータを簡単に扱うことができるため、リーダーとして強調されました。このレポートでは、私たちのプラットフォームでの開発体験が直感的であり、ローコードからノーコードへのシームレスな移行を可能にし、適切なオーケストレーションとデプロイメント設定を提供していると述べられています。

さらに、Databricksが提供する統合体験は、他のプロバイダと比較して明らかに独立しています。データストリーミングは、Databricksの全体に存在し、統合されているため、保存されたデータがプラットフォーム内に保持され、統一された管理環境が生まれています。

この記事は、DatabricksがProject Lightspeedで達成した進歩を探求し、新機能を探るためのものです。この分野で成されている進歩を目の当たりにすることは魅力的であり、未来が何をもたらすかを予測することはエキサイティングです。コンピューティングは、光速に到達する、または既に到達している可能性があります!

この記事で使用されている用語、セッションタイトル、セクション名、固有名詞、技術用語は、一貫性と正確さを保つため、英語のままにしていますので、ご了承ください。

DatabricksストリーミングプロジェクトLightspeedのパフォーマンスとベンチマーク

ベンチマークデータとテスト手法の理解

Project Lightspeedのパフォーマンス、特に最先端のストリーミングデータ処理であるSpark Structured Streamingに焦点を当て、特定のベンチマーク技術を使って測定しました。この技術は、データを迅速にDeltaプラットフォームにロードすることで、超高速のストリーミングデータ処理を可能にするよう設計されています。

ストリーミングデータ処理における重要な操作と変換

興味深いことに、プロセス全体では、Deltaの変換と永続化が最も重要な操作として注目されます。これには、受信ストリーミングデータを互換性のあるDelta形式に変換し、それを永続ストレージに保存する、否応なく重要な変換プロセスが含まれます。

パフォーマンス測定戦略

私たちの測定戦略は3つの主要指標に関与しています。まず、データをどれだけ早くDeltaプラットフォームにロードできるかを測定しました。2つ目の観点は、データをどれだけ迅速にDelta形式に変換できるかということでした。最後に、Deltaテーブルへのクエリを実行するのに必要な時間を評価するための試行を行いました。

これら包括的なテスト方法により、特に大量のリアルタイムストリーミングデータを処理する際に、印象的なパフォーマンスの向上を観察することができました。このベンチマーキング活動の結果は、ストリーミングデータ処理におけるProject Lightspeedの絶大な力を証明しています。

実際、このプロジェクトの超低遅延機能を活用することで、大量のリアルタイムストリーミングデータを迅速に処理し、変換することが可能となります。この変換はDeltaプラットフォーム自体上で直接行われ、ハイハイパースピードでの操作を可能にします。この特性は、ビジネスが定期的に遭遇し、処理しなければならないデータ量を考えると、非常に有利です。

要約すれば、上述したDatabricksストリーミングプロジェクトLightspeedに対するパフォーマンスとベンチマーキングの研究は、この新しいデータ処理ツールの力と可能性を鮮明に示しています。リアルタイムデータの変換およびDeltaのようなプラットフォームへのロードに焦点を当てることは、高速データ操作の未来を示しています。大量のリアルタイムデータに依存し、このようなライトスピードレベルで操作できる効果的な処理ツールが必要なビジネスにとって、非常にエキサイティングな時期であることは間違いありません。

ユースケースと業界への応用

ユースケースは主に「運用」と「リアルタイム」のユースケースとして分類され、いくつかの形で現れる可能性があります。

「運用」のユースケースは、イベント処理、ルーティング、データフィルタリング、および配信に向けています。これらすべての運用ユースケースは、即時のデータ応答の共有ニーズによって相互にリンクされています。例えば、イベント処理のユースケースでは、新しいビジネスルールの活性化がルールの更新によりトリガーされます。

一方、「リアルタイム」のユースケースは、テクノロジーチームの仕様に大きく依存し、非常にタイムセンシティブな操作をもたらします。

これらの運用ユースケースの本質は、そのアクション指向のアプローチにあり、リアルタイムで重要な行動を要求するシナリオでは極めて重要になります。それらは「ユーザーをプラットフォームから一晩で追い出す」ことではなく、技術が常に警戒し、必要に応じて行動を起こすことについてです。

したがって、運用ユースケースの真の力は行動を起こすことから生じます。これは企業にとって非常に有益です。しかし、これを実現するには、これらの技術とその適切な実装についての深い理解が必要です。

Databricksストリーミング:Project Lightspeedがハイパースピードへシフト

"未来の開発と柔軟性"のテーマを見ていくと、Project Lightspeedの注目すべき特徴の一つとして、カスタムPythonデータソースの実装が見えてきます。

カスタムPythonデータソース

Project Lightspeedは、Spark構造化ストリーミングを通じた次世代のストリーミングデータ処理の活用において専門知識を持っており、過去2年間で成果を上げています。今年は特に、Custom Python Data Sourcesと呼ばれる機能の導入により、超低遅延処理で顕著な成果を達成しました。この機能は、Spark 4.0のリリースに合わせて準備が整い、既にOSSプラットフォームに含まれています。

Custom Python Data Sourcesは、Pythonでのデータ作成と同期化プロセスの開発を促進します。以前は、この機構はScalaとJavaでのみ動作し、データソーシング機能の固有部分でした。これは、4-Hバッチと4-Hとのユニークなユーザー同期化などの状況で明らかでした。

しかし、すべてのデータが容易に操作できるわけではなく、Custom Python Data Sourcesの登場により、より高いデータ処理能力を保証し、処理速度を向上させることが可能になるでしょう。これは、Project Lightspeedの根本的な目標の一つです。チームは、これらの改善を導入しながら、既存の機能を維持するために巧妙に操作しています。

この戦略的な飛躍は、Project Lightspeedにとって重要なマイルストーンを意味し、その潜在能力に対する興奮を煽ります。Databricksは、この機能の洗練と開発にさらなるリソースを投入することで、コミュニティへの揺るぎないサポートを示しています。

Project Lightspeedの最新の進歩を追いかけたい方々にとって、Databricksの公式ブログやドキュメンテーションは常に最新の情報源となります。データ処理世界を活気づける新しい機能が待ち受けていますので、乞うご期待!

状態管理処理とAPIの強化 - Databricks社のプロジェクトライトスピード

Databricks社のプロジェクトライトスピードは、状態管理データ処理およびAPI強化の領域で大きな進展を遂げています。現行のシステムは、クエリーの状態に列を追加する困難さなど、いくつかの課題に直面しています。ここで必要となるのが、柔軟で拡張性のある状態管理オペレーターです。プロジェクトライトスピードでは、複合タイプ、状態時点ノード、状態メタデータを利用した状態処理APIというレイヤー化されたアプローチを導入しています。

柔軟で拡張可能な状態管理オペレーター

既存のシステムでは、flatmapGroupsWithStateを使用して状態に新しい列を追加することは許されていません。しかし、新たに実装された状態処理APIにより、複合タイプ、状態時点のタイムライン、状態メタデータといった基本要素の適切な使用が可能となる柔軟で拡張性のある状態管理オペレーターを取得できます。さらに、この新APIはレイヤー構造を持っているため、将来的に新しい状態管理オペレーターを追加することが容易になります。

例えば、クレジットカード取引における不正検出のようなユースケースを考えると、この新APIがどのように利用できるかがより理解しやすくなります。

これらの技術の潜在的なアプリケーションと柔軟性は無限であり、開発中であるにもかかわらず、私たちが直面する課題を解決する新たな道筋を示しています。処理速度の向上、リアルタイムデータ処理、スケーラビリティの改善が約束されています。Databricks社とプロジェクトライトスピードからのこれらの進歩が、私たちの日々のタスクにどのような目立つ変化をもたらすか、楽しみにしています。

結論

Databricks社のプロジェクトライトスピードは、状態管理データ処理とAPI拡張性のパラダイムシフトをもたらしています。新たに導入された状態処理APIを通じて適応性と拡張性を持つ状態管理オペレーターを実現し、リアルタイムデータ処理とスケーラビリティの強化が期待されています。これらの進歩は、クレジットカードの不正検出のようなリアルタイムデータ分析のユースケースに特に適しています。今後、プロジェクトライトスピードによる革新的な進歩に注目しましょう。


Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。

www.ap-com.co.jp

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp