APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

DatabricksのMosaic AIが拓く、本番AIシステムの構築とスケーリングの未来

※本記事は、Data + AI Summit のセッションを現地で視聴したエンジニアが、内容をできる限り客観的に共有することを目的に、生成AIを活用して作成したものです。 ― エーピーコミュニケーションズ Lakehouse部

エンタープライズ環境で生成AIを本格的に導入しようとするとき、多くの組織が共通の課題に直面します。データのサイロ化、AIモデルの品質管理、スケーラビリティの確保、そして何よりも厳格なガバナンスとセキュリティの維持です。これらの課題を乗り越え、プロダクションレベルのAIシステムをいかに構築し、スケールさせていくか。これは現代のテクノロジーリーダーにとって重要なテーマの一つと言えるでしょう。

先日開催されたDatabricksのセッション「Building and Scaling Production AI Systems With Mosaic AI」では、この問いに対する具体的なソリューションが示されました。本セッションでは、Databricksの担当者が、同社のData Intelligence Platform上で提供される統合AI開発フレームワーク「Mosaic AI」の強力な機能群を解説しました。

本記事では、このセッションの内容を基に、Mosaic AIがエンタープライズAIの構築をどのように変革するのか、その核心的な機能と具体的なユースケースをご紹介します。

Mosaic AI Platformとは: 4つの主要機能の全体像

Mosaic AIは、Databricks Data Intelligence Platform上に構築された、本番品質のAIシステム開発をエンドツーエンドで支援する包括的なフレームワークです。セッションでは、その能力を支える4つの主要な機能領域が紹介されました。これらは相互に連携し、データの準備からAIエージェントの構築、運用、ガバナンスまでを一気通貫で実現します。

講演で強調された4つの柱は以下の通りです。

  • AI Functions & LLM Data Enrichment: 既存のデータに対して、SQLやノーコードでAIを適用し、データを豊かにエンリッチする機能。
  • Agent Bricks & Vector Search: 構造化・非構造化データを横断して情報を取得・活用する、高度なAIエージェントを構築・カスタマイズする仕組み。
  • AI Gateway & MLflow 3.0: 複数のAIモデルの利用状況を監視・制御し、組織全体のガバナンスと観測可能性を確保する基盤。
  • Serverless GPUs: AIモデルのファインチューニングや独自のAIワークロードを、インフラ管理の手間なく効率的に実行するコンピューティング環境。

以下、それぞれの機能を詳しく見ていきましょう。

AI Functions & LLM Data Enrichment

企業が持つデータの多くは、AIが直接理解できる形ではありません。Mosaic AIの出発点は、このデータを「AI対応」に変えることです。中核をなすのがAI Functionsで、Databricksプラットフォーム内の関数を通じて、大規模言語モデル(LLM)の能力を呼び出し、既存のテーブルに新しい分析結果や要約結果を追加できます。

セッションではAI_QUERY()という関数を使ったデモがあり、任意のベースLLMにプロンプトを送信し、その応答をテーブルの列として取り込むワークフローが紹介されました。これにより、顧客レビューの感情分析や文書要約、エンティティ抽出といったLLMデータエンリッチメントを、既存のデータパイプラインにシームレスに組み込める点が特長です。

データをエンリッチした先には、自律的にタスクを実行するAIエージェントの構築があります。Mosaic AIはAgent Bricksと呼ばれるソリューションで、汎用的な関数やエージェントを自社データに最適化して利用可能です。これにより、特定の業務要件に即した高精度なエージェントが低コストで構築できます。 エージェントが外部知識を活用するにはVector Searchが不可欠です。テキストや画像などの非構造化データをベクトル化し、意味的な類似性に基づく高速検索を実現し、Retrieval-Augmented Generation (RAG) システムの基盤を担います。 今回パブリックプレビューで公開された「ストレージ最適化エンドポイント」は、従来の大規模インデックス運用をさらにコスト効率良くすることを目指した機能です。大規模ベクトルインデックスの構築・管理が容易になり、多くの企業でRAG導入のハードルを下げる可能性があります。

また、Vector Searchのインデックスをエージェントの「ツール」として扱えるため、複雑な検索ロジックを自前で構築することなく、エージェントに知識検索能力を付与できる点も大きなメリットです。

AI Gateway & MLflow 3.0

AIの利用が広がるほど、ガバナンスの重要性は増します。どの部署がどのモデルをどれだけ使っているか、PII(個人情報)が外部プロバイダーへ漏れていないか、を一元管理するのがAI Gatewayです。 OpenAIやAzure OpenAI、Anthropic、Databricks提供モデルなど、多数のLLMアクセスを統制するプロキシレイヤーとして機能し、APIキー管理、コスト追跡、レート制限、監査ログ取得などのエンタープライズ要件を満たします。これにより、無秩序なAI利用によるコスト超過やセキュリティリスクを防ぎながら、組織全体の利用状況を可視化できます。

Serverless GPUs

汎用モデルだけでなく、特定タスクに最適化したモデル開発にも対応するのがServerless GPUsです。ユーザーはGPUクラスターのプロビジョニングや管理を意識せず、オンデマンドで計算リソースを利用できます。 データサイエンティストやMLエンジニアは、モデルファインチューニングやディープラーニング実験など、高負荷ワークロードを迅速・効率的に実行可能。インフラ管理の手間を省くことで、モデル開発に集中できる環境が整備されています。

各機能の連携方法: ワークフロー例とシステムアーキテクチャ

Mosaic AIの真価は、これらの機能が有機的に連携する点にあります。典型的なワークフロー例を見てみましょう。

  1. データ取り込みとエンリッチメント 社内のPDFやExcelなど非構造化データをAI関数でDeltaテーブルに変換・統合します。

  2. 知識ベースの構築 変換済みデータや既存ドキュメントをVector Searchに取り込み、検索可能なベクトルインデックスを生成。

  3. エージェントの構築 RAGエージェントを作成し、Vector Searchを「ツール」として活用。自然言語問い合わせに対し根拠とともに回答します。
  4. デプロイと運用 完成したエージェントをServerless GPU上でエンドポイントとして稼働させます。
  5. ガバナンス 全リクエストはAI Gateway経由でログ・コスト管理・アクセス制御を一元化。安全かつ効率的に運用します。

このように、Mosaic AIはデータソースから最終的なAIアプリケーション、そしてその運用・管理までを一貫したプラットフォーム上で提供します。

具体的なユースケース: Excel処理から大規模RAGまで

セッションで紹介された実用ユースケースをいくつか挙げます。

  • Excelファイルの自動テーブル化 大量のExcelをDeltaテーブルへ自動変換。PDFの表抽出機能と併せ、データ準備工数を大幅に削減します。

  • 大規模RAGエージェント 全社ドキュメント数百万件を横断検索する社内アシスタントの構築。社内ナレッジへのアクセス性が飛躍的に向上します。

運用とガバナンス: AI Gatewayによる監視・制御

本番稼働後は、AI Gatewayが運用とガバナンスを支えます。リクエスト/レスポンスのロギング、キャッシュによるパフォーマンス改善、モデル別レート制限設定など、エンタープライズ級の運用機能を提供します。特定サービスのAPIリミット枯渇によるサービス停止リスクを回避します。

また、複数プロバイダーを統一的に扱うことで、モデルロックインを防ぎ、タスクに応じて最適モデルへシームレスに切り替えられる「モデルの民主化」を推進します。

まとめと今後の展望 本セッションで示されたのは、DatabricksがMosaic AIを通じて、エンタープライズAIシステム開発のライフサイクル全体を統合し、簡素化しようとする強い意志です。

解説した4つの柱――データへのAI適用、インテリジェントなエージェント構築、堅牢なガバナンス、柔軟なカスタムAI基盤――は、企業がAIを実験から本番へスケールさせる際の主要課題に応えます。

特にVector Searchの大規模インデックス対応強化や、AI Gatewayによる包括的ガバナンスは、エンタープライズAIの実運用を支える重要機能です。データとAIを同一プラットフォームで扱うことで相乗効果を生み、あらゆる企業が自社データから真の「データインテリジェンス」を引き出す基盤となる可能性を感じます。

今後の進化にも引き続き注目していきたいと思います。