APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Building Your First GenAI App using Databricks, MosiacML and MLRun (Databricks、MosaicML、MLRunを使用して初めての生成AIアプリを構築する)

セッションの要約

このセッションでは、Aaron(Mosaic)とBruce Philp(マッキンゼー・アンド・カンパニー)が、GenAIアプリケーションのプロトタイプから完全なデプロイメントへの移行時に直面する課題について議論しました。具体的な課題として、スケーラビリティ、セキュリティとプライバシー、運用上の障壁、規制への適応が挙げられました。これらの課題に対処するため、Databricks、MosaicAI、MLRunのツールを活用する方法が示されました。セッションでは、GenAIアプリケーションパイプラインの構築と改善についても説明され、データの収集、モデルチューニング、検証とテスト、デプロイメントの各ステップが強調されました。また、リアルタイムの書き起こしとコンテキストの充実、ユーザー認証とセッション管理、複数アプリケーションの取り扱いについても議論されました。さらに、服装選択アプリの事例を通じて、データベースとベクター検索の統合、製品機能と状況に応じた適合性の評価、合う靴の選択など、実際のアプリケーションの構築方法が示されました。

イントロダクション

このセッションでは、MosaicのAaronと、マッキンゼー・アンド・カンパニーの技術フェローであるBruce Philpが登壇しました。彼らはGenAIアプリケーションの商品化に焦点を当て、プロトタイプから完全なデプロイメントへの移行時に遭遇するさまざまな障壁について議論を展開しました。

このプロセスで主に直面する課題は以下の通りです:

  1. スケーラビリティ:プロトタイプが成功を収めたとしても、大規模な環境でのスケーリングは別の課題を提起します。リソースの管理、処理能力の拡張、コスト最適化が必要です。

  2. セキュリティとプライバシー:実装の段階では、データの安全性とプライバシーがさらに重要になります。特に高度に機密性の高いデータを扱う際には、注意が必要です。

  3. 運用上の障壁:サービス提供を継続するためには、効率的な運用と障害への対応準備が重要です。日々の運用管理が鍵となります。

  4. 規制への適応:地域によって異なる法規制に適応することも欠かせません。特にデータ保護規制は、最初から製品設計に影響を与えます。

これらの課題に対処することが、GenAIアプリケーションを次の段階へ進めるための鍵となります。Databricks、MosaicAI、MLRunのようなツールは、この実現に大いに役立ちます。これらのツールを活用することで、実際の生産環境でのGenAIアプリケーションの効率的かつ効果的な展開が可能になります。

このセッションから得られた、これらの障壁を克服するための洞察は非常に価値があります。次のセッションに移る前に、これらの点を十分に理解し、具体的な事例から学ぶことが重要です。

GenAIアプリケーションパイプラインの構築と改善

セッション「Databricks、MosaicML、およびMLRunを使用した最初のGenAIアプリの構築」では、最初のGenAIアプリの作成から企業全体のユースケースのスケーリングまで、組織におけるGenAIの実装が示されました。特にこのセクションでは、GenAIアプリケーションパイプラインを構築し、顕著に強化する方法について深く焦点を当てています。

Gen AIリファレンスアーキテクチャの4つのコンポーネント

Gen AIリファレンスアーキテクチャには、多くのGen AIソリューションに共通する4つの主要なコンポーネントが通常含まれています:

  1. データ

    • 最初のステップは、アプリケーションに不可欠な基本データの収集、その高品質の確保、適切な準備を行うことです。データの品質は、GenAIアプリケーションパイプラインにおいて極めて重要であり、モデルの性能を大幅に向上させます。
  2. モデルチューニング

    • 手にしている具体的な問題に応じて、モデルのチューニングが必要になる場合があります。既存のモデルを使用する場合でも、特定の用途に合わせて変更が必要になるかもしれません。
  3. 検証とテスト

    • モデルの入力が予想通りに機能していることを保証し、アプリケーションが予期せぬ挙動やエラーなく正しく動作することを確認するために、徹底的な検証とテストを行うことが不可欠です。
  4. デプロイメント

    • 最終段階では、洗練されたモデルをライブ環境にデプロイします。これには、シームレスなデプロイメントプロセスの確立と、継続的なサポートおよびメンテナンスのためのシステムを作成することが必要です。

継続的な改善の重要性

GenAIアプリケーションの初期設定後、その運用から収集されたテレメトリデータを活用して継続的な強化を図ることが重要です。このデータには、ユーザーのインタラクションとアプリケーションの有効性に関する洞察が含まれており、これを分析することで、より効率的でユーザー中心のソリューションへとアプリを進化させることができます。

データエンジニアリングとパイプラインオーケストレーション

Databricks、MosiacML、およびMLRunを使用して初めてのGenAIアプリを構築する際に、データエンジニアリングとパイプラインオーケストレーションの重要な役割に重点を置いていました。最初に、多くの組織が文書セットをベクトルストアにアップロードする際に直面する課題は、出力品質または応答の正確さが期待に適合しないことが一般的です。この問題は、熟練したデータエンジニアリングの重要性を強調しています。

構造化データの場合、フィルタリングやグルーピングなどの簡単な変換技術が一般的に適用されます。しかし、テキストベースの情報に移行するにつれて、より専門的な変換の必要性が明らかになります。ここでは、自然言語処理(NLP)用にカスタマイズされた技術が有効にデータをクリーニング、修復、索引付け、そしてその後ベクトルストアに格納するために使用されます。

オーケストレーションは、これらの複雑なプロセスを管理するために不可欠となります。それは、データ変換のシームレスな流れと協力的な管理を保証し、GenAIアプリケーション設定全体の効率と効果を向上させます。セッションは、慎重なデータエンジニアリングとパイプラインオーケストレーションの戦略的実装の広範な影響を詳述しており、これらはGenAI技術の展開を成功させるために重要です。

効果的なオーケストレーションは、データの管理を最適化するだけでなく、高品質のGenAIソリューションの開発と運用を保証し、GenAI実装の領域においてその役割を基石として強調しています。

リアルタイム書き起こしとコンテキストの充実

リアルタイムの書き起こしとコンテキストの充実は、会話データから即時に価値を引き出すために先進技術を活用します。このセッション中、このプロセスを示す実用例が提示されました。関連する逸話として、旅行の2日目にリスボン空港で発生した手荷物の紛失の問題がリアルタイムで書き起こされ、文脈化された事例が共有されました。

リアルタイム書き起こしとコンテキストの充実の主要な側面には以下のものが含まれます:

  1. リアルタイムの対応性: システムが提供された情報を瞬時に書き起こし、データに変換する能力。
  2. 詳細な文脈理解: 会話の書き起こし内容から重要な文脈と背景を抽出し、この情報をデータセットに統合する能力。

これらの技術は、顧客サービスの向上、会議管理の効率化、イベントのリアルタイム監視と分析を容易にするなど、さまざまなセクターの組織にとって莫大な価値を持っています。AI技術が進歩するにつれて、これらのリアルタイム処理タスクにおいてさらに大きな精度と効率を期待することができます。

このセッションのデモンストレーションは理論的な議論を超え、実際のアプリケーションの構築プロセスを含む実践的なプロセスも含まれていました。これにより、参加者には実用的で具体的な学習体験が提供されました。

高度なパイプライン構築と微調整

ユーザー認証とセッション管理

高度なパイプラインを構築する際の初期段階で強調されるステップの一つがユーザー認証です。アプリケーションは、各インタラクションでユーザーを正確に識別し、応答の文脈を正しく理解して設定することが不可欠です。成功した認証は効率的なセッション管理につながり、「質問と回答」のシーケンスで会話の流れを維持します。このメカニズムは、新しいリクエストごとにユーザーのインタラクションの完全な履歴を取得する上で重要です。

精緻化の実現

ユーザークエリの開始に続き、次の重要なステップはクエリの精緻化であり、パイプラインを微調整する上で不可欠な側面です。この段階では、前のインタラクションと現在のクエリを徹底的に調査して、質問をより明確で正確な形式に精緻化することが行われます。そのような精緻化された入力により、LLM(Large Language Models)はより効果的で正確な応答を生成することができ、全体的なユーザーエクスペリエンスを向上させます。

複数アプリケーションの取り扱い

さまざまなユーザー問い合わせを管理できるパイプラインを設計することも、別の基本的な側面です。例えば、ユーザーの問い合わせは銀行の残高問い合わせからクレジット取引に関する文書の要求までさまざまです。この段階で、分類器やオーケストレーターの展開が重要になります。これらのメカニズムは、クエリの性質に基づいて各クエリを適切な処理機能にカテゴリー分けし、クエリが効率的かつ正確に処理されるようにします。

このセクションでは、パイプライン構築と微調整における洗練された技術を広範囲に探求し、最先端のテクノロジーを活用することが企業内のGenAIアプリケーションのスケーラビリティと有効性を著しく向上させる方法を示しました。説明された各ステップは、ユーザーインタラクションを豊かにし、リアルタイムシナリオでのアプリケーションパフォーマンスを最適化するための重要な構成要素です。

実用的な応用とコスト効果的な戦略

このセッションでは、組織内でのGenAIの実装を観察し、初期アプリケーションの構築から企業全体でのGenAIユースケースのスケーリングに移行しました。これは、Databricks、MosiacML、オープンソースのMLOpsオーケストレーションフレームワークであるMLRunを戦略的に利用します。このセクションでは、クライアント向けに特別に開発された実際のアプリケーション、服装選択アプリについて説明します。

データベースと組み合わせたベクター検索

まず、ユーザーが「シャツ」とリクエストすると、アプリはベクターデータベースを使用して画像検索を実行します。ユーザーがグレイのシャツを求める場合、アプリは最初に白いシャツを表示する結果を返すかもしれませんが、これはベクター検索の動的な性質を示しています。また、価格詳細と他のオプションも提供され、ユーザーの好みや予算に基づいてユーザーが決定を下しやすくなります。

製品機能と状況に応じた適合性

さらに、このアプリケーションは、アイテムの視覚的な属性を考慮するだけでなく、結婚式やジョギングセッションなど、さまざまなシナリオに適しているかも評価されています。この機能は、表形式およびベクターデータベースの統合から利益を得ており、ユーザーに最も関連性が高く詳細な情報を提供します。

合う靴の選択

アプリは、シャツに合う靴を選択する機能を拡張します。ユーザーが「スニーカー」をリクエストすると、適切なアスレチックオプションが再び表示され、包括的な価格情報が提供されます。これは、アプリがさまざまなリクエストを処理しながら、ユーザーの仕様と予算の制約に焦点を当てる能力を示しています。

この実装は、特定のクライアントのニーズに対処するために作成されたテーラーメイドのソリューションにGenAIを使用する優れた例を示しており、GenAIが多様な環境内でリアルタイムの課題を解決する上でいかに重要であるかを示しています。このような技術を組織全体に包括的に展開することで、運用効率の大幅な向上とコスト削減が期待されます。

まとめ

Databricks、MosiacML、MLRunなどの最先端ツールをサポートするGenAIソリューション(例:服装選択アプリ)の展開は、セクター全体での合理化されたプロセスと改善された意思決定を促進します。これにより技術的な進歩だけでなく、コスト効率とリソース管理の大幅な改善がもたらされます。GenAIアプリケーションの戦略的な使用により、企業は競争力を維持しながら運用フレームワークを最適化することができます。


Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。

www.ap-com.co.jp

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp