データとAIの民主化がもたらす未来 - Data + AI Summit Keynote Day 1
GLB事業部Global Engineering部 ヨハンです。 現地でのData + AI SUMMIT2023(DAIS)に参加している市村の報告をもとに、セッションの内容をまとめた記事を書きました。
今回は、Data + AI Summit Keynote Day 1の講演を取り上げます。この講演では、データとAIを民主化し、組織内の誰でもデータに対して質問できるようにすることがテーマとして取り上げられました。今後5~10年で、すべての企業がデータとAIの企業になり、独自の機械学習モデルや生成AIモデル、LLMを持つことが競争力を向上させるというビジョンが語られました。
最新の概念や機能、サービスについての話題
サミットでは、最新の概念や機能、サービスについての話題が多数取り上げられました。これらの話題は、データとAIの分野で最先端の技術やサービスを知ることができる貴重な情報源となっています。この記事では、それらの概要とその機能について紹介します。
- データとAIの民主化がもたらす未来 - Data + AI Summit Keynote Day 1
- 最新の概念や機能、サービスについての話題
- 【新発表】LakehouseIQとその機能の紹介
- Lakehouse AIプラットフォーム、生成AIに対応へ
- Unity Catalogの新機能
- 【新発表】Lakehouse Collaboration Platformの紹介
- まとめ
【新発表】LakehouseIQとその機能の紹介
データ使用状況の収集とモデル構築
LakehouseIQは、組織内でデータがどのように使用されているかに関する情報を収集し、その使用状況に基づいてモデルを構築するデータ管理プラットフォームです。これにより、データの利用状況を可視化し、効果的なデータ活用を促進できます。
強化された検索バージョンの開発
LakehouseIQは、内部用語を認識し、人気度、頻繁なユーザー、更新時間、上流の品質問題などのシグナルを提供する強化された検索バージョンを開発しました。これにより、組織内でのデータの検索が容易になり、データ活用の効率が向上します。
講演では、デモによるLakehouseIQの機能紹介が行われました。
以下の画像の例は、実装予定と思われるアシスタント機能にて入力した質問に対しての回答とSQLクエリが自動で生成されて実行した結果になります。
LakehouseIQがオフの状態では、質問の内容を適切に解釈出来ないためSQLクエリの出力結果がNULL
になってしまっています。
対して、LakehouseIQがオンの状態では、質問の内容に対応するテーブルとカラムを把握して、適切なクエリを生成して質問の意図に沿った結果を返しています。
また、外部連携のためのAPIも提供予定についての発表もありました。 画像は、LangChainにてLakehouseIQ APIをAgentとしての利用を想定した例です。
データの探索と分析を支援するツール
LakehouseIQは、データの探索と分析を支援し、企業内のデータセットと個人との関係を理解するツールです。これにより、データの価値を最大限に引き出すことができます。画像の例によると、社内用語を含めた質問に対して適切に理解して回答できるようになるようです。
まとめると、LakehouseIQは、データ使用状況の収集とモデル構築、強化された検索バージョンの開発、データの探索と分析を支援するツール、最新の概念や機能を提供するデータ管理プラットフォームです。これにより、組織はデータとAIを活用して未来を形作ることができます。
Lakehouse AIプラットフォーム、生成AIに対応へ
続いてDatabricksのLakehouse AIプラットフォームのアップデートについての発表です。生成AIに対応するようにアップデートされたプラットフォームと、新しく提供されるコンポーネントについての発表がありました。
生成AI対応のLakehouse AIプラットフォームの構成
DatabricksのLakehouse AIプラットフォームは、以下の3つのコアコンポーネントで構成されています。
- Datasets - 機械学習用のデータの準備
- Models - 効果的なモデルの検索とチューニング
- Applications - アプリケーションのデプロイとリリース
これらのコンポーネントを活用することで、エンドツーエンドのアプリケーション用の言語モデルを見つけ、チューニング、カスタマイズするのに役立ちます。今回の講演では、それぞのコンポーネントでのアップデートについての発表がありました。
【新発表】機械学習用のデータの準備
Vector Search: ベクトル検索機能を活用し、ドキュメントスタイルのデータをベクトル空間に埋め込んで言語モデルで使用できるようにします。関連する文書を高速に検索できます。
Feature Serving: 構造化データのオンライン特徴量サービングをサポートします。アプリケーションで明示的に派生させた構造化データを取り上げ、リアルタイムで使用できるようにします。
Chat BotにVector SearchとFeature Servingを組み合わせる ことで、顧客の質問に対して正確な回答を提供し、パーソナライズされたサポートを提供できます。顧客の問題解決や情報提供の効率性が向上し、カスタマーサポートの品質が向上します。
【新発表】効果的なモデルの検索とチューニング
- Curated AI Models: カスタマーサポートなどのさまざまなユースケースに最適化されたプロプライエタリなモデルを提供します。Databricksとの提携により、組み込みサポートも提供されます。
- AutoML for LLM training: 大規模言語モデル(LLM)のトレーニングを自動化するAutoML機能を提供します。モデルのトレーニングを効率化し、最適なパフォーマンスを達成するのに役立ちます。
- MLflow Evaluation: MLflow Evaluation APIを活用し、カスタムモデルと一般的なモデルを比較し、質問に対する適切な回答を提供する最適なモデルを決定します。
【新発表】アプリケーションのデプロイとリリース
- MLflow AI Gateway: AIユースケースの集中管理を可能にするMLflow AI Gatewayを提供します。資格情報、レート制限、キャッシュなどを管理し、モデルのデプロイやA-Bテストをサポートします。
- Model Serving optimized for LLMs: LLMに最適化されたモデルサービング機能を提供します。GPUサポートを含む最新リリースモデルをDatabricksモデルエンドポイントに展開し、高パフォーマンスで低レイテンシーなモデルサービスを実現します。
- Lakehouse Monitoring: データやAIアプリケーションの品質監視を支援する機能です。
メトリクスの自動生成: データの品質メトリクスを自動的に生成し、ダッシュボード上で視覚化します。レイテンシーや毒性などのメトリクスを監視できます。
データのキャプチャと分析: 推論テーブルに基づいて、モデルへの入力リクエストと出力レスポンスをキャプチャし、デバッグやインタラクティブなクエリングに使用できます。
PII検出のサポート: 機密情報(PII)の検出をサポートします。機密情報の漏洩を防ぐために、機密情報を含む顧客の質問に対して適切なセキュリティ対策を提供します。
Unity Catalogの新機能
簡単なアクセスを提供するUnity Catalog
Unity Catalogは、AIモデル、メタデータ、およびそれらをトレーニングするために使用されるデータへの簡単なアクセスを提供します。これにより、データサイエンティストやエンジニアが効率的にデータを扱い、AIモデルの開発を進めることができます。
【新発表】Lakehouse Federationを活用した外部システムへのアクセス
Unity Catalogでは、Lakehouse Federationという機能を利用して、Data Explorer内でMySQLやPostgres、Snowflakeなどの外部システムにアクセスできます。これにより、異なるデータソース間でのデータ連携が容易になり、より柔軟なデータ分析が可能になります。
ガバナンスポータルでの資産とユーザーの監視
Unity Catalogガバナンスポータルは、すべての資産とユーザーを監視し、ガバナンスするための全データエステートのハイレベルなヘルスチェックを提供します。これにより、データの品質やセキュリティを維持しながら、データ活用を推進できます。
Unity Catalogは、データとAIを活用する上で非常に便利な機能を提供しています。簡単なアクセス、外部システムへのアクセス、ガバナンスポータルなど、データ活用を加速させる機能が揃っており、今後のデータとAI企業にとって大きなメリットとなることでしょう。
【新発表】Lakehouse Collaboration Platformの紹介
Lakehouse Collaboration Platformは、Databricksが提供するデータとAIのコラボレーションを可能にするプラットフォームです。このプラットフォームは、データとAIで安全にコラボレーションするための包括的なツールセットを提供します。ユーザーは、プラットフォームとクラウドを横断してデータとAIアセットを共有できます。これにより、組織はデータを簡単に取得し、すばやく価値を得ることができます。
Lakehouse Collaboration Platformは、以下の主要な構成要素から成り立っています。
Lakehouse Collaboration Platformの構成要素
Delta Sharing: Delta Sharingを使用すると、データプロバイダーはデータの複製を作成せずに、ライブデータセットを簡単に共有できます。これは、Databricks MarketplaceやLakehouse Appsなどのサービスでデータを共有する際の基盤となります。
Unity Catalog: データのガバナンス、セキュリティ、プライバシーを強化し、データの信頼性を確保します。また、Unity Catalogは、LakehouseIQなどのナレッジエンジンと統合されており、データの意味を理解しより知的な支援を提供できます。
Databricks Marketplace: データとAIに関連する製品やサービスを提供するオープンなマーケットプレイスです。ユーザーは、データセット、AIモデル、ノートブックなどを共有し、収益化できます。また、Databricks Marketplaceは、データ製品の評価を迅速に行うことができるため、消費者にとっても有用です。
Databricksの顧客でなくても、誰でもマーケットプレイスを利用できます。Databricks Marketplaceは今回の発表でGAになりました。
*【新発表】Lakehouse Apps: Databricksプラットフォーム上でアプリケーションを構築、展開、管理する新しい方法を提供します。これにより、スタートアップやソフトウェアベンダーは、重要なユースケースを解決する事前に構築されたアプリケーションを提供し、潜在的な顧客を見つける方法を提供します。
Lakehouse Appsを使用すると、データは常に顧客のDatabricksインスタンス内に残り、長いレビュープロセスは必要ありません。アプリ開発者は、好きな言語やプラットフォームを使用できます。
*【新発表】Databricks Clean Rooms: データプライバシーを維持しながら、既存のデータを共有し、任意の言語でデータ上でワークロードを実行できる環境を提供します。パートナーの統合とソリューションはClean Roomsの体験を向上させ、Databricksとシームレスに連携します。
LakehouseのClean Roomsにより、シンプルなデータ共有から安全な共同コンピューティングに進化しています。
これらのサービスは、DatabricksのLakehouse Collaboration Platformの一部として機能し、組織がデータとAIを効果的に活用するための基盤を提供します。
Delta SharingとUnity Catalogは、データの共有と管理を容易にし、Databricks MarketplaceとLakehouse Appsは、データとAIの製品やサービスを提供するプラットフォームを提供します。
そして、Databricks Clean Roomsは、データプライバシーを保護しながらデータを共有し、データ上で作業を行うための安全な環境を提供します。
まとめ
今回のブログでは、Databricks Data and AI Summit 2023 Day1の講演を取り上げ、最新の概念や機能、サービスについての話題を紹介しました。データとAIの分野は日々進化しており、今後もさまざまなイベントや情報が登場することが期待されます。引き続き、Day2に関する最新情報の紹介もさせて頂きます。お楽しみに!