APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

ヘルスケア大手Intermountain Healthに学ぶ、責任あるLLM運用の実践的アプローチ

※本記事は、Data + AI Summit のセッションを現地で視聴したエンジニアが、内容をできる限り客観的に共有することを目的に、生成AIを活用して作成したものです。 ― エーピーコミュニケーションズ Lakehouse部

生成AI、特に大規模言語モデル(LLM)の活用が急速に進む中、その運用をいかに安全かつ効率的に行うかという「LLMOps」が、多くの企業にとって喫緊の課題となっています。特に、患者の命に関わる情報を扱うヘルスケア分野では、その重要性は計り知れません。

本記事では、Data + AI Summitで発表されたIntermountain HealthcareのリードMLOpsエンジニア、Mark Nielsen氏による講演「LLMOps at Intermountain Health: A Case Study on AI Inventory Agents」の内容を基に、彼らがどのようにして責任あるLLM運用基盤を構築しているのか、その具体的な取り組みを深掘りします。

Intermountain Healthの挑戦:エンタープライズAIの現実

Intermountain Healthは、米国中西部と西部にまたがる33の病院と100万人以上の保険プラン加入者を抱える、巨大な非営利統合ヘルスシステムです。彼らのAIへの取り組みは新しくなく、1960年代のルールベース診断支援システムや、1970年代の米国初となる電子カルテ(EMR)開発にまで遡ります。

近年は組織内に「エンタープライズAIセンター」とガバナンス体制を設立。現在開発中のユースケースの約8割が生成AI関連だといいます。しかし、この急速なAIシフトは、「技術の進歩に人材が追いつくのが難しい」という、多くの企業が直面する課題を生み出しました。この課題を解決するために、彼らはLLMOps基盤の整備に着手したのです。

AIの「目録」を作る:AI Inventory Agentsプロジェクト

Intermountain Healthが取り組むユニークなプロジェクトが「AI Inventory Agents」です。これは、組織内で利用されているAIプロダクトを網羅的に管理・文書化するためのLLMエージェントです。

Nielsen氏は、AIプロダクトの利用状況やモデルの監視状態をドキュメント化し、責任あるAI運用を支援することを強調しました。具体的には、このエージェントは以下のような機能を持つことを目指しています。

  • AIプロダクト情報の集約: 内製モデルかサードパーティ製かを問わず、すべてのAIプロダクトの情報を一元管理します。これには、GitHubリポジトリ、調達ソフトウェア、サイバーセキュリティツールなど、散在する情報源からのデータ集約も含まれます。
  • モデルカードの自動生成と管理: 各AIプロダクトについて、ビジネスオーナー、責任者、期待される価値、ソリューションの概要などをまとめた「モデルカード」を作成・維持します。
  • 工数とインパクトの推定: 新規プロジェクトのアイデアが出た際に、その開発工数やビジネスインパクトをエージェントが推定し、投資判断を支援します。
  • モニタリング状況の可視化: 各モデルの稼働状況やパフォーマンスを「緑・黄・赤」のようなステータスで表示し、ビジネスリーダーが一目で健全性を把握できるようにします。

このエージェントは、AI開発のライフサイクル全体にわたって透明性と説明責任を確保し、組織レベルでの「責任あるAI(Responsible AI)」を実践する強力なツールと言えるでしょう。

Databricksで構築するLLMOps基盤の全体像

Intermountain HealthのLLMOps基盤は、DatabricksのMLOpsレイクハウス上で構築されており、Databricks Workflowsを用いて開発からデプロイまでのプロセスを自動化しています。Nielsen氏は、この基盤が「インフラだけでなく、正しいプロセスを組織に根付かせること」に重点を置いていると語ります。これにより、開発者はインフラの管理に煩わされることなく、価値創造に集中できる環境が整えられています。

セキュリティを最優先する開発ライフサイクル

ヘルスケア分野で最も重要なのはセキュリティです。Nielsen氏は、開発の初期段階でサイバーセキュリティチームと連携し、AIソフトウェア開発ライフサイクルを構築したことが、プロジェクトの成功に寄与したと述べました。

まず、Hugging Faceなどから入手するオープンソースモデルに対しては、Protect AI Model Scanner を利用しています。外部ネットワークから隔離された仮想マシン上でモデルをスキャンし、安全性が確認されたものだけを組織内のプライベートクラウド(Databricks環境)にダウンロードするプロセスを確立。この一連の流れはGitHub Actionsで自動化され、承認済みモデルのリポジトリが維持されています。

次に、認証における画期的な取り組みとして、Azure Managed Identities の全面採用が挙げられます。従来、CI/CDパイプラインではサービスプリンシパルのクライアントIDやシークレットキーをGitHubリポジトリなどに保管する必要があり、漏洩リスクが大きな負担でした。Nielsen氏は「マネージドIDの採用により、シークレット管理の負担を大幅に軽減できた」と述べています。

CI/CDパイプライン:開発から本番までを自動化

Intermountain HealthのCI/CDプロセスは、Databricksが提供するテンプレートをベースに、dev(開発)、test(テスト)、prod(本番)の3つのワークスペースへのデプロイを自動化しています。

開発者がdev環境で開発したコードをプルリクエストすると、自動的にtest環境にデプロイされ、単体テストや結合テストが実行されます。すべてのテストに合格して初めてmainブランチにマージされ、その後リリースブランチが作成されて本番環境へデプロイされるという流れです。

Nielsen氏が示した興味深い点は、従来の機械学習モデルとLLMエージェントでパイプラインの構成を柔軟に変えていることです。エージェントの場合、「モデルのトレーニング」というステップは、「エージェントの作成、検証、デプロイ」というワークフローに置き換えられます。このカスタマイズにより、エージェント特有のライフサイクルにもシームレスに対応しています。

評価とモニタリング:「カスタムベンチマーク」の重要性

講演の中でNielsen氏が最も力を込めて語ったのが、カスタムベンチマークデータセットの重要性です。

「あるプロンプトを修正して性能が上がったとしても、それが他の95%のプロンプトに悪影響を与えていないとどうやって分かりますか?」と彼は問いかけます。一般的なベンチマークでは、特定のユースケースにおける微妙な性能変化やリグレッション(意図しない性能劣化)を捉えることはできません。そのため、自分たちのユースケースに特化した評価データセットを作成し、CI/CDプロセスに組み込むことが「絶対に必要」だと断言しました。

彼らは MLflow を活用してこの評価プロセスを自動化しています。mlflow.genai.evaluate のような機能を用い、リクエストと期待されるレスポンスをペアにしたデータセットでエージェントを評価。単なる正解率だけでなく、「reasoning(推論の妥当性)」といったカスタムメトリクスも定義し、多角的な品質評価を行っています。

本番環境では、Lakehouse Monitoring を活用してレイテンシなどのパフォーマンスを継続的に監視し、異常があればSQLアラートで通知する仕組みを構築。将来的には、Databricksが発表した新しいエージェントフレームワークの自動モニタリング機能を活用し、さらに高度な監視体制を目指しています。

Responsible AIガバナンスとの統合

これらのLLMOpsの取り組みは、最終的に「AI Inventory Agents」で紹介したAIガバナンスアプリケーションと統合されます。

モニタリングで得られたパフォーマンスデータやアラート情報は、AIガバナンスアプリケーションにフィードバックされ、ビジネスリーダーがダッシュボード上でリアルタイムに状況を把握できるようになります。これは、HIPAAのような厳しい規制への対応や、リスク管理の観点からも極めて重要な機能です。

今後の展望とまとめ

Intermountain Healthの挑戦はまだ道半ばです。今後は、MLflow 3の新機能への対応や、新しいエージェントフレームワークの導入を進め、パフォーマンスアラートとガバナンスシステムとの連携をさらに強化していく計画です。

彼らの事例から学べる、責任あるLLM運用を実現するためのベストプラクティスは以下の通りです。

  1. セキュリティチームとの早期連携:開発の初期段階からサイバーセキュリティ要件を組み込む。
  2. シークレットレス認証の徹底:Azure Managed Identitiesなどを活用し、漏洩リスクと管理負担を削減する。
  3. カスタムベンチマークの作成と自動化:ユースケースに特化した評価セットを作成し、CI/CDパイプラインに組み込む。
  4. 継続的なモニタリングとフィードバックループ:本番環境でのパフォーマンスを監視し、その結果を開発プロセスとガバナンスに反映させる。
  5. ガバナンスツールとの統合:技術的な運用とビジネスレベルのガバナンスを連携させ、組織全体の透明性を確保する。

Intermountain Healthの取り組みは、LLMOpsが単なる技術的な自動化ではなく、AIを組織全体で責任を持って活用するための経営基盤そのものであることを示しています。特にヘルスケアのような規制が厳しく、高い倫理性が求められる分野において、彼らの実践的なアプローチは、多くの企業にとって貴重な道しるべとなるでしょう。