APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Maximizing Value From Your Data with Lakehouse AI(Lakehouse AIでデータから価値を最大化する)

はじめに

GLB事業部Lakehouse部の阿部です。 Data + AI SUMMIT2023(DAIS)にバーチャルで参加したセッションの内容をまとめた記事を書きました。

DAISでのセッションに関する記事は、以下の特設サイトにまとめています。 こちらも見ていただけると幸いです。

https://www.ap-com.co.jp/data_ai_summit-2023/

Lakehouse AIがもたらすデータ活用の最適化

今回は、講演「Maximizing Value From Your Data with Lakehouse AI」について、解説します。この講演では、DatabricksのCraig Wiley氏とComcastのJan Neumann氏が登壇し、AIプラットフォームとデータレイヤーを統合することで、データに基づいたよりインテリジェントなアクションを可能にするLakehouse AIについて説明しています。

それでは、早速Lakehouse AIについて見ていきましょう!

現状のAIプラットフォームの課題

現在のAIプラットフォームは、分離された状態で壊れており、データは通常、システムからBlobstoreにエクスポートされて処理されるため、効率が悪いという問題があります。具体的には以下のような課題が挙げられます。

  1. データの移動が多く、時間がかかる
  2. データの整合性が保たれにくい
  3. セキュリティやプライバシーの問題が発生しやすい

Lakehouse AI

Lakehouse AIは、AIプラットフォームをデータレイヤーに直接組み込むことで、古典的なAIプラットフォームの機能を再利用し、一体化したデータとAIのプラットフォームを作り出します。Databricksの核心に位置するCatalogは、データレイヤーでのアクションを自動検出する観察カタログとして作用し、手動登録を必要とせず、プロセスを簡略化します。Lakehouse AIは、全アクションを追跡し、ラインナップグラフを作成、これによりデータへの独自の接続を可能にします。

Lakehouse AIにはLLM開発のためのvector DBやAuto MLが新しく組み込まれており、注目度が高いです。プライベートプレビューのためまだ使えませんが、多くは4〜 6週間以内に使えるとのことです。

AIプラットフォームの組み込みは、データ収集と準備から始まり、機械学習の準備やデータ取得のベストプラクティスとしてフィーチャーストアが推奨されます。Databricksのフィーチャーストアはデータを整理・管理し、高性能なトレーニングや推論システムへのデータ供給、リアルタイムのフィーチャー計算を可能にします。しかし、データの整合性やラインナップの問題を解決するため、フィーチャーストアはUnity Catalogに統合されました。これにより、フィーチャーストアはUnity Catalogとして機能し、データを容易に探すことができ、学習に必要なシステム数が減少し、生産性が向上しました。

最新の概念や機能

MLflowはMLOpsの主要フレームワークであり、これは大規模な言語モデルに重点を置く投資によるもので、APIやモデルゲートウェイ、モデルのモニタリング、結果比較などの機能を提供しています。とくに、SAS APIをラップすることでOpenAIやAnthropic、CohereなどのモデルをMLflowに組み込むことが可能であり、その中にはOpenAIのGPT35も含まれます。

また、Databricks CLIへの大きな投資により、MLOpsのインフラをコード化し、CICDパイプラインとの深い統合を実現しています。これにより、MLエンジニアリングチームは高付加価値の機能に集中でき、データ、モデル、MLOpsが同じデータレイヤー内に存在する利点を享受できます。

昨年リリースされた低レイテンシーでオートスケーリング可能なモデルサービング製品は、フィーチャーサービング機能との組み合わせが可能です。これにより、Unity Catalogのフィーチャー機能を使用したモデルの提供が可能となり、データパイプラインの必要性を排除します。この機能を利用することで、時間を大幅に節約できると報告されています。

一方、レイクハウスモニタリングはデータレイヤーにAIプラットフォームを組み込むことで、モデルだけでなくモデル作成に使用された特徴量の監視も可能になります。この統合により、モデル全体が期待通りに機能していない可能性を検出し、問題解決に必要な情報を提供できます。

ComcastにおけるLakehouse AIの利用

Comcastはエンターテインメント、パーソナライズされた推薦システム、ビデオAI製品、スマートカメラ、会話型スマートインテリジェンスアシスタントなど、AIを多岐にわたり活用しています。これらは全てデータとAIプラットフォームに依存し、これまで個別に開発されてきましたが、重複と開発・展開の困難さが問題となりました。

その解決策として、Comcastは革新と標準化のバランスを重視したAIプラットフォームを設計しました。データ収集から推論までの一連の過程を効率化するための様々な抽象化が行われ、特にフィーチャーストアによってデータ準備とモデルトレーニングがリンクされ、別々のトレーニングと推論が可能になりました。

プラットフォームは、Delta Lakeをデータプラットフォーム、フィーチャーストア、モデル開発のためのノートブックとワークフローに、MLflowをモデルレジストリに、Unity Catalogを共通のガバナンスとメタデータレイヤーに使用しています。

プラットフォームを利用することで、様々なユースケースが実現可能になり、特にXfinityシステムは、顧客に次の最適な行動を提案する目的で使用されています。このプラットフォームは、特徴キャッシュとしてRedisを、PyTorch推薦モデルの解決にはNVIDIA Tritonを活用しています。

Comcastの目指す一つの重要な目標は、AIへのアクセスを民主化し、ドメインエキスパートがデータ準備段階を処理し、特徴として知識を注入できるようにすることです。

まとめ

Lakehouse AIは、AIプラットフォームとデータレイヤーを統合することで、データに基づいたよりインテリジェントなアクションを可能にする革新的なプラットフォームです。現在のAIプラットフォームの課題を解決し、データ活用の効率化を図ることができるため、今後のビジネスにおいて大きなインパクトをもたらすことが期待されます。

おわりに

現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!