APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Building a Production Scale, Totally Private, OSS RAG Pipeline with DBRX, Spark, and LanceDB(DBRX、Spark、LanceDBによる、プロダクション・スケール、完全プライベートなOSS RAGパイプラインの構築)

導入と初期の利点

本セッションでは、データに特化した組織であるNCDのCEOが、データサイエンスとAIプロジェクトのためのツール開発に関する広範な経験を語りました。彼らが完全プライベートでオープンソースのRAGパイプラインをプロダクション規模で構築する過程を中心に、HyperBase、Dataverse、DPRXなどのツールを活用しました。このプロセスは、AIアプリケーションでのデータ処理中の完全なセキュリティを確保します。

30年以上にわたるデータサイエンスプロジェクト向けのツール開発の歴史をもつこのCEOは、現在のIT状況におけるコーディングとデータサイエンスの重要性を強調しました。標準ライブラリの開発からスタートし、次第にデータサイエンスプロジェクトを支援するツールの作成に焦点が移ってきています。CEOの経歴については、chipwalkers.comで詳しく見ることができます。

セッションは、HyperBase、Dataverse、DPRXの使用を通じて、安全なAIデータパイプラインを確立する利点を説明することで始まりました。また、これらのツールがリアルタイムでどのように実装されるかも実演しました。

HyperBaseは、データの埋め込み、モデルの学習、予測の作成のためのツールとして機能します。このツールにより、予測結果をデータベースに安全に保存し、必要に応じて以前の結果を安全に取得できます。

一方、Dataverseは、さまざまなデータソースへの無制限の接続性と柔軟なデータモデルを提供します。このツールを使用すると、ユーザーは必要なデータに簡単にアクセスでき、予測モデルの構築を促進します。

DPRXは、データの埋め込みとモデルの学習を行う上で重要な役割を果たします。大量のデータを扱う際に特に際立ち、迅速かつ正確な予測が可能となります。

要するに、これらの技術的に先進的でユーザーフレンドリーなツールはそれぞれにユニークな利点があります。AIを使用して、大規模なプライベートでオープンソースのRAGパイプラインを作成するためのさまざまな方法で使用できます。本セッションは、これらのツールの活用によって、データセキュリティの課題に対する効果的な解決策がもたらされる方法について解説しました。

実用的なデモンストレーションとプライバシーの問題

このセクションでは、コミュニティ管理のハリーポッターテーマのビデオサイトを例に、RAGパイプラインの構築の実演を提供します。目的は、関連するアプリを通じてユーザービヘイビア分析(UBA)を行うことです。コミュニティには、UBAを定義したりパスワードを設定したりといった、運用の機能を維持するために必要な重要な情報を決定する責務があります。

このプロセスに続いて、提供された情報に基づいて関連するURI(Uniform Resource Identifier)が作成されます。このアプローチは新規参入者にとっての突破口となり、簡単でユーザーフレンドリーな介入を提供します。

ユーザーの反応のインタラクティブな視覚表現も提供されます。これらは、「フィードバックを構成するものは何か?」や「価値はどのように現れるのか?」といった問いに対する答えを詳細に説明します。この情報への視覚的なアプローチは、どのような行動を取るべきか、そしてこれらのタスクをどのように最も効率的に行うべきかについて導くものです。

これらの反復プロセスを通じて、我々は基本的に「ビジョン」を創り出します。つまり、将来の展望やアイデアを生成するためのロードマップを創り出します。

しかしながら、上記の説明は、このセッションで実装された商品規模で完全にプライベートなRAGパイプラインを構築するというより広範な目的の一部に過ぎません。このパイプラインはDBRX、Spark、およびLanceDBのようなオープンソースツールを用いて構築され、運用されます。これらは企業がAIを生産ストリームに統合する際に発生するデータセキュリティに関連する問題を上手く取り扱います。

これらの実践から得られる最大の利点は、プライバシー保護の約束です。この成果は、商品規模での人工知能の導入について話す際には基本的なものです。DBRX、Spark、LanceDBを用いて完全にプライベートなRAGパイプラインを構築することによる統合使用は、この考えを大いに強調します。

次のセクションでは、このRAGパイプラインの構築に関わる技術的な面や使用される技術を探求します。実装されたセキュリティ対策、遭遇した技術的な課題、そしてこのプロセス全体で導き出された解決策についても詳細に説明します。

プロダクションスケールのAIパイプラインでのベンダーロックインの回避とデータの移植性を確保する方法

ベンダーロックインの問題は、企業がAIを実験的な設定から本番環境への採用へと移行しようとする際の主要な障害となっています。この問題に寄与する要因の一つは、ホストが担当する言語モデル(LLM)や埋め込みモデルへの依存で、これがデータ管理の柔軟性を失い、データの完全な制御を奪う結果となることがよくあります。

これらの問題を回避するためには、企業はデータ移動性を主張しなければなりません。データ移動性とは、組織が制約なく自身のデータの移動や抽出を管理する力を指します。この能力は、競争力を保つため、そしてデータをホスト側の制約なく適切に扱うために非常に重要です。

頑丈なデータストレージシステムがここで重要な役割を果たします。メタデータのストレージを単なるPCに限定すべきではありません。代わりに、それらは自身のシステムに組み込むか、データレーンにリダイレクトする能力が求められます。これにより、様々な重要なレコードの効率的な管理が可能となり、すべてのデータへのアクセスを容易にします。

データの景色が変化しても、データセットに対して大幅な変形を必要とするべきではありません。小さな修正が必要な場合もあるかもしれませんが、データの全体的な連続性は維持されるべきです。データ管理の柔軟性は、データセットに対する深刻な変更を必要とすべきではなく、むしろ変化する条件の下でデータを扱うことを促進すべきであり、その精度や完全性に悪影響を及ぼすことなく行うことが重要です。

結論として、ベンダーロックインを防ぐこととデータの移植性を促進することは、企業がAIの実装中に生じる複雑さをナビゲートするのに役立ちます。この積極的なアプローチは、組織により細かな制御とデータを扱う上での柔軟性を提供します。それにより、組織は変化するシナリオに適応し、対応することができ、企業の見通しを拡大し、彼らが自身のデータの潜在能力をより効率的に活用することを可能にします。

DBRX、Spark、および LanceDBを使用した完全プライベートな公開規模のOSS RAGパイプラインの構築

AIを本番環境に導入する際、企業が直面する問題の1つはデータセキュリティです。通常、データはホストされた言語モデル(LLM)とホストされた埋め込みモデルに送信され、次いで生成されたベクトルがホストされたベクトルデータベースに保存されます。この議論では、スケーラブルなデータストレージと分散システムの構築に焦点を当てます。

まず第一に、データはさまざまな形式で存在します。これには、ストリーム、ネットワークデータ、ビデオコンテンツ、これらから生成された値などが含まれます。これらのデータを使用してさまざまな操作を行うことができ、メタデータに基づいて特定のコンテンツを検索したり、データから直接学習したり、Androidの通話ログで広範なデータ検索を実行したりすることができます。これらすべての操作は、メモリ内に保存されたデータ上で行われます。

このプロセスの鍵は、Change Data Capture(CDC)の利用です。CDCを使用すると、データハンドリングが大幅に改善します。このプロセスの動作方法を詳しく見てみましょう。

Thorneのフレームワークとデカップリングストレージ

AIを生産に導入しようとする企業は、データセキュリティに関連した課題に直面しています。Thorneのフレームワークは、この問題を軽減するために設計されました。

フレームワークの開発

Thorneのフレームワークは、AIの成功を実現するための不可欠な要素として設計されました。開発プロセスでは、「ランドフォール」と呼ばれる深刻な問題を解決することが最初のステップでした。ThorneのフレームワークがLandfall問題を解決する一部として機能するべきであるという考えに基づき、多数のバックエンド投資が行われました。

アプリケーションとデプロイメント

ランドフォール問題は、アプリケーションが使用中のときに顕著になります。新機能を試すユーザーや新たなバックエンドを追加するビジネスでは、データの複製や移転が必要なく変更を加えることができます。

デカップリングデータストレージ

ただし、バックエンドの問題が解決した後でも、データの取り扱いは常に注意を要します。これがまさに、Thorneのフレームワークがデータからストレージを分離した理由です。これにより、企業はAIの導入に対する自信を持つことができました。

Thorneのフレームワーク導入により、データセキュリティに関連する課題が減少し、AI技術のさらなる進歩が加速します。このフレームワークにより、データの段階的な使用と企業の成長が可能となります。このフレームワークの進化への期待が続いています。

実用的な利用と参加者との対話: DBRX, Spark, LanceDBを用いて全規模のプライベートOSS RAGパイプラインを作る

AIを本番環境に導入しようとする企業はデータセキュリティに関する課題に直面しやすいです。通常、企業は非常に大規模なモデル(LLM)やホストされた埋め込みモデルにデータを送出する必要があり、生成されたベクトルは通常、ベクトルデータベースでホストされることになります。しかしながら、一部の企業は全てを内部で管理したいと考えています。今回のセッション、「DBRX、 Spark, LanceDBを用いて全規模のプライベートOSS RAG (Retrieval-Augmented Generation) パイプラインを作る」がここで役立ちます。

実世界での応用

DBRX, Spark, そして LanceDB を用いることで、企業が内部でプライベートRAGパイプラインを構築そして維持することを助けます。これは、AIを安全にデータを管理しながら本番環境に導入したい企業にとって役立つ、実用的なケースシナリオを提供します。このプロセスは外部へデータを送出することに関連するリスクを軽減し、パフォーマンスと利便性を担保します。

これらのツールを使用することはデータのプライバシーを保持するだけでなく、必要なデータへの常時アクセスも提供します。結果として、企業はホスティング環境に依存することなく自社の全てのデータをコントロールすることができます。

参加者との対話

セッション中、アクティブな参加者との間で詳細な設定手順やデータ管理の最善方法についての問いに対する対話型の議論が行われました。大部分の質問はDBRXの設定とSparkおよびLanceDBとの統合について関連していました。これらの会話を通じて、企業は自社のニーズに最適な解決策を見つけるための洞察を得ることができました。

結論

短く言えば、このセッションは、データのプライバシー、セキュリティ、パフォーマンスの一貫性を損なうことなくAIを効率的に本番環境にデプロイするための貴重な洞察を提示しました。

全員がDBRX、Spark、LanceDBを使用してプライベートRAGパイプラインを構築、維持するための実践的な、現実世界の手順を学びました。

対話的なセッションは、この技術を完全に活用するためのベストプラクティスと詳細な手順を提供しました。自社組織内でAIを導入することを検討している方々にとって、このセッションは非常に有益でしょう。


Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。

www.ap-com.co.jp

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp