APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

The MLOps Platform at WGU: Solutions to Production ML with Databricks (Western Governors UniversityにおけるMLOps:Databricksを用いた運用MLへの解決策)

セッションの概要

WGU (Western Governors University)のMLOpsチームがDatabricksを用いたMLOpsプラットフォームの初期設計と課題について発表しました。設計段階では標準化プロセスの確立、ソースコントロールメカニズム、堅牢なモニタリングシステムの実装などが主要な課題でした。これらを解決するために、問題の優先順位付けと継続的な改善を行いました。MLOpsの実装は技術的な課題を超え、組織全体の戦略的協力を必要とするものです。MLflowやCI/CDを活用してプロセスの効率化を図り、セキュリティと自動化に注力しています。

セッションの詳細

設計フェーズと初期の課題

WGU(Western Governors University)は、アメリカ合衆国で最大のオンライン大学であり、約19万人の学生を収容しており、大規模なMLおよびMLOpsの適用に最適な環境です。このセッションでは、オンライン大学として膨大なデータ量を扱うWGUでのMLOps(マシンラーニングオペレーション)実装プロセスの初期段階と、設計フェーズで直面した課題に焦点を当てました。

セッションの中で、設計段階が数多くの困難を内包していたことが強調されました。これらの課題の中で顕著だったのは、標準化されたプロセスの確立、効果的なソースコントロールメカニズムの設置、そして堅牢なモニタリングシステムの実装です。これらの実装は、プロジェクトの成功にとって非常に重要であり、プロジェクトチームからはそれらに対処するための広範な努力が必要でした。

重要な問題を識別し、影響の大きさに基づいてそれらを優先順位付けし、必要なツールやプロセスを適切に適用し、方法論の継続的な改善を追求することが、WGUのMLOpsチームが採用したアプローチでした。

さらに、MLOpsの実装が単なる技術的な課題を超えること、包括的な組織戦略を必要とし、多様なステークホルダー間の強固な協力を促進して大規模システムの実装を成功させることが、必要であると本セッションで強調されました。

WGUがDatabricksを使用してMLOpsで遭遇した初期の課題について詳細な説明がなされ、これらの課題を乗り越えるために実施したソリューションについて紹介されました。

Databricksを使用して大規模にMLモデルを展開する複雑さに対処するための戦略

WGUが直面している主要な課題の1つは、モデルの追跡可能性と監査可能性を確保することです。「すべてをコードとして」という方針の下で、ワークフロー、計算設定、および権限管理を含むすべての側面がコードを通じて入念に取り扱われます。これにより、MLプロジェクトに関連するすべてのデータ、ワークフロー、実験、モデル、および権限の追跡可能性が保証されます。

ここでMLflowが重要な役割を果たします。MLflowの使用により、モデルの開発から展開までのシームレスな追跡が可能になり、本番モデルから元に戻す追跡可能性が実現し、ギャップを埋めることができます。

次に、生産プロセスの簡素化と標準化を探求しました。WGUはCI/CDを通じて自動化を促進し、開発、ステージング、および本番環境用の別々のフォルダを設定します。この構造により、生産プロセスが再現可能で標準化されることが保証されます。

さらに、展開後のモデルパフォーマンスの維持に向けて調整する容易さが強調されました。継続的な監視とタイムリーな更新が非常に重要であり、MARVIN platform (WGU's MLOps platform, MARVIN)はこれらのタスクを効率的に処理するために特別に設計されています。

これらの努力を通じて、WGUはMLモデルのための効率的で効果的な運用フレームワークを確立し、約17万人の学生の人口にサービスを提供する製品でMLの利点を最大限に活用しています。

WGUのMLOpsプラットフォームであるMARVINは、Databricksを使用して教育用MLモデルを効率的に展開し、厳格なセキュリティ対策と自動化されたプロジェクトプロセスに焦点を当てています。

厳格なセキュリティ管理

MARVINの設計の核心には、運用環境を保護するための強固なセキュリティ層があります。このプラットフォームは、すべての関連アクセストークンを監視するDatabricksのサービスプリンシパルを採用しています。この注意深いトークン管理は、不正アクセスと潜在的なデータ漏洩を抑制し、システムの全体的なセキュリティを大幅に向上させるのに重要です。

Databricks内の権限は厳格にグループベースで管理されています。プロジェクトの開始時のプロトコルには、そのプロジェクトに専念する新しいグループを形成し、関連するチームメンバーを含めています。この組織方法は、ワークスペース、実験、モデル、およびデータアクセスの厳格な管理を保証し、安全で整理された運用フレームワークを確立します。

自動化されたプロジェクトの開始

MARVIN内の任意のプロジェクトの展開は、3つの主要なパイプラインを触発し、シームレスで自動化されたプロジェクト実行を保証します。プロジェクトの開始は、運用の開始を示すユニークなシングルプロジェクトインスタンスをアクティブ化します。プロジェクトが進化するにつれて、参加者はDatabricksの自動化機能のダイナミックな性質を反映して、さまざまなコンポーネントの更新を求めることがあります。

これらのシステムは、MARVINによって構成され、WGUの広範な学生体に効率的に対応するための洗練されたセキュリティと自動化を活用して、安全な運用と教育モデルの迅速な展開を支援します。

ワークフローの管理と開発プロセス

MARVINプラットフォームでは、リリーストリガーを使用してコード更新のプロセスが管理されています。テンプレートリポジトリが絶えず更新されるため、アップデートテンプレートワークフローが設置されています。新機能が追加されたり、新しいモデルタイプや監視技術がサポートされるようになるたびに、ユーザー自身またはプラットフォーム管理者がこのワークフローを実行することが求められます。

具体的には、ワークフローが実行されると、Lambdaがディスパッチされ、その結果としてプルリクエストが生成されます。次に、メインにあるコードをステージ環境で実行し、ステージングが開始されます。このプロセスには、新しい機能へのアクセスやコードの変更をワンクリックで行うことが可能な大規模な自動化が含まれています。

データサイエンティストの関与

この自動化された環境では、データサイエンティストは直接的に多くのプロセスに関与することは減っています。彼らの主な役割は、より戦略的な意思決定や分析に集中し、日々の運用やモデル更新プロセスは自動化に任せる形です。これにより、データサイエンティストは自分の専門知識をより効果的に活用できます。

リリース管理のカスタマイズ

セッション中に焦点を当てた重要な側面の一つは、製品リリース中のモデル更新プロセスでした。MARVIN内では、定義の更新とスケジュールの追加によってリリース管理が合理化されています。このプロセスにより、開発者は同じワークフローを頻繁に再実行することを避け、定義の更新のみに集中することができます。この方法は、リリースプロセスを扱う際の効率と柔軟性を大幅に向上させます。

データサイエンティストのワークフローをサポート

MARVINが特殊なノートブック環境を通じてデータサイエンティストのワークフローをどのようにサポートするかも焦点にされました。各ノートブックにはinitオブジェクトが含まれており、多くの基礎プロセスを自動化します。これらのノートブックはプロジェクトのパラメータを捉え、実行環境に応じて異なる動作をするように設計されており、特定の環境に合わせたカスタムモデルの実行を可能にします。

まとめ

このセッションから得られた洞察は、MARVIN上での運用効率を高めるために、合理化されたリリース管理と強固な実験が果たす重要な役割を強調しています。これらのプロセスを日常的なワークフローに統合することで、WGUは機械学習モデルが正確に管理されるだけでなく、継続的に改善され、広大な学生体に効果的に対応することを保証しています。WGUにおけるMLOpsの戦略的アプローチは、教育設定で高度なAI能力を統合することの積極的な影響を示すものであり、革新的でデータ駆動型の教育フレームワークに向けた重要な進歩を示しています。


Databricks Data + AI Summit(DAIS)2024の会場からセッション内容や様子をお伝えする特設サイトをご用意しました!DAIS2024期間中は毎日更新予定ですので、ぜひご覧ください。

www.ap-com.co.jp

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp