フィリピンの大手通信会社Globe Telecomが、乱立するツール群をDatabricksに統合し、MLOpsの生産性を劇的に向上させた事例が、Data + AI Summitで発表されました。本セッション「Databricks as the Backbone of MLOps: From Orchestration to Inference」では、同社のMLOpsシニアエキスパートであるCyd Kristoff Redelosa氏と、MLOps担当アシスタントディレクターのReinier Veral氏が登壇。技術的な挑戦から目覚ましいビジネスインパクトまで、その変革の道のりを詳細に語りました。
本記事では、彼らの講演内容を基に、分散したMLOps環境が抱える課題、それを解決するための統合プラットフォームの選定理由、そして驚異的な成果を上げた具体的な実装アプローチを、テックブロガーの視点から深掘りしていきます。
乱立するツール群と、統合プラットフォームへの渇望
多くの企業がそうであるように、Globe TelecomのMLOps環境もまた、テクノロジーの進化と共に変遷を遂げてきました。当初はオンプレミスのSaaSから始まり、ビッグデータ時代の到来と共にCloudera CDSWへ移行。その後、クラウドの柔軟性を求めてAWS SageMakerとAirflow、そしてデータウェアハウスとしてSnowflakeを組み合わせた、いわゆる「ベスト・オブ・ブリード」な構成を採用していました。
しかし、この分散した環境は新たな課題を生み出します。Veral氏は、「柔軟性は得られたものの、プロセスが複数のプラットフォームにまたがることで断片化(fragmentation)が起きていた」と振り返ります。具体的には、Airflowの運用オーバーヘッドやパッケージ管理の制約、SageMakerと他ツール間の連携の煩雑さなどが、開発のボトルネックとなっていたのです。データサイエンティストとMLエンジニアは、ツール間の「接着剤」としての役割に多くの時間を費やさざるを得ませんでした。
この経験から、彼らはデータエンジニアリングからモデル開発、推論、オーケストレーションまでを一気通貫で実行できる、統合されたプラットフォームの必要性を痛感します。そして、その答えとして選ばれたのがDatabricksでした。
なぜDatabricksだったのか? 驚異的なPOC結果が証明した価値
Databricks選定の決め手は、概念的な優位性だけではありませんでした。同社は実際の生産ワークロードを用いた厳密なPoC(概念実証)を実施し、その効果を数値で証明しました。
最も象徴的だったのが、3,000万人のプリペイド契約者の顧客生涯価値(CLV)を予測するパイプラインです。
この処理は、従来の環境では完了までに16時間を要していました。Redelosa氏は「もし処理の途中で失敗すれば、さらに16時間待たなければならず、大きな手間でした」と語ります。
このパイプラインをDatabricksに移行し、処理ロジックをApache SparkのUDF(ユーザー定義関数)で書き換えたところ、処理時間はわずか35分に短縮されました。これは実に28倍の高速化です。さらに驚くべきはコスト削減効果で、1回の実行あたり200ドルかかっていたコストが、わずか6ドルにまで激減。実に97%ものコスト削減を達成したのです。
このPoCで得られた主な改善点は以下の通りです。
- 圧倒的な処理性能: Apache Sparkの分散コンピューティング能力を最大限に活用し、大規模な並列処理を実現。3,000万件のモデル計算を数十分で完了させました。
- 劇的なコスト削減: 必要な時に必要なだけリソースを確保し、処理が終われば即座に解放するDatabricksのアーキテクチャにより、コンピューティングコストを最適化しました。
- 開発体験の向上: 従来は複数のツールをまたいでいた作業が、Databricksの統合されたノートブック環境とMLflowによる実験管理で完結。開発者は本来のモデル開発に集中できるようになりました。
この他にも、複数のSIMカードを利用するユーザーを特定する「マルチSIMモデル」のパイプラインでは、1時間かかっていた処理を17分に短縮するなど、Databricksへの移行はあらゆる側面で目覚ましい成果を上げました。この成功体験が、全社的なプラットフォーム移行への強力な後押しとなったことは言うまでもありません。
四半期700万ドルのROIを生み出す、実践的なAIユースケース
技術的な効率化は、それ自体が目的ではありません。Globe Telecomの取り組みが素晴らしいのは、その成果が明確なビジネス価値に結びついている点です。講演では、実際に運用されている3つのAIユースケースが紹介されました。
- Interest AI: ユーザーのウェブサイト閲覧履歴などから興味関心を分析し、パーソナライズされたマーケティング施策に活用。Universal Sentence Encodingやマルコフ連鎖といったモデルを用いて、顧客理解を深めています。
- Next Best Offer: どのユーザーにどのプロモーションを提示すれば最も効果的かを予測するレコメンデーションエンジン。強化学習の一種であるコンテキストバンディットアルゴリズムを採用し、従来のルールベースの手法から脱却。このモデルだけで四半期あたり700万ドルものROIを創出しているというから驚きです。
- Airtime Loans Propensity: プリペイドユーザー向けの少額ローン(Airtime Loan)において、返済可能性を予測するモデル。これにより、貸し倒れリスクを管理しながら融資対象者を拡大し、月間10万ドルの収益向上に貢献しています。
これらのユースケースは、Databricksという強力な基盤の上で、データからいかにしてビジネスインパクトを生み出すかという問いに対する、優れた回答と言えるでしょう。
Icebergで実現する、モダンなMLOpsアーキテクチャ
Globe Telecomの現在のアーキテクチャは、過去の課題を克服するための洗練された設計になっています。その中心的な役割を担っているのが、Databricks WorkflowsとオープンなテーブルフォーマットであるApache Icebergです。
以前のアーキテクチャでは、Snowflakeで生成した学習用データをCSVファイルとしてS3に出力し、それを推論プラットフォームが読み込む、という手動の連携プロセスが存在していました。これにより、データの鮮度の低下や手作業によるミスといった問題が発生していました。
新しいアーキテクチャでは、このデータの受け渡し部分をIcebergテーブルに置き換えました。Snowflakeで処理されたデータはIceberg形式でS3に保存され、Databricksはそれを直接参照して推論を実行します。推論結果も同様にIcebergテーブルとして書き出されるため、Snowflake側からは外部テーブルとして即座に参照可能です。
この変更により、CSVファイルを介したデータのコピーが不要になり、パイプライン全体が自動化され、データは常に最新の状態に保たれます。Icebergのバージョン管理機能により、出力結果へのアクセスや履歴の追跡が容易になります。オーケストレーションはDatabricks Workflowsに一元化され、バッチ処理からリアルタイム処理、さらには後述する生成AIのユースケースまで、あらゆるワークロードを単一のプラットフォームで管理しています。
開発チームの変革と、その先の展望
プラットフォームの移行は、技術的な変化だけでなく、チームの文化にも大きな影響を与えました。講演で紹介された開発者の声からは、そのポジティブな変化が伝わってきます。
「Databricksは単に速いだけではありません。開発をより協調的で、効率的で、本番環境に対応できるものにしてくれました。」(Titus氏、モデル開発者) 「以前はデータ探索、モデル構築、トラッキング、デプロイのために様々なツールを組み合わせる必要があり、非効率でした。Databricksではすべてが統合されています。」(Unray氏、モデル開発者)
サイロ化が解消され、コラボレーションが促進されたことで、チーム全体の生産性が向上しました。現在、Globe TelecomはCI/CDパイプラインの完全自動化、再利用可能な特徴量を管理するFeature Storeの構築、そして生成AIの活用へと、さらなる高みを目指しています。
特に興味深いのが、RAG(Retrieval-Augmented Generation)を用いた社内ナレッジベース「Edith」の開発構想です。過去の膨大なPowerPoint資料や研究レポートをベクトル化してデータベースに格納し、自然言語で質問するだけで関連情報を要約して回答してくれるというものです。これにより、組織に埋もれた知見を誰もが活用できるようになり、意思決定の迅速化や重複作業の削減が期待されます。
まとめ:統合プラットフォームがもたらす技術と文化の変革
Globe Telecomの事例は、MLOps基盤を統合することが、いかに大きな技術的・経済的メリットをもたらすかを雄弁に物語っています。16時間の処理を35分に短縮し、コストを97%削減したという数字は、単なるツール刷新の結果ではありません。それは、データとAIのライフサイクル全体を俯瞰し、ボトルネックを特定し、最適なアーキテクチャを選択した戦略的な取り組みの賜物です。
彼らの学びは、多くの組織にとって示唆に富んでいます。 - プラットフォームの選択は重要: 統合されたプラットフォームは、パフォーマンスを向上させ、コストを削減し、ワークフローを統一する。 - モダンなデータフォーマットの活用: Apache Icebergのようなオープンなテーブルフォーマットは、スケーラビリティとバージョン管理を両立し、データ連携の柔軟性を高める。 - 標準化がコラボレーションを促進: CI/CDやMLflowのようなツールを標準化することで、チーム間の連携がスムーズになる。 - ビジネスインパクトこそが北極星: すべての技術的判断は、最終的にビジネス価値にどう貢献するかという視点で行われるべきである。
Globe Telecomの挑戦は、Databricksというプラットフォームを「背骨(Backbone)」として、データ活用を次のステージへと引き上げるための、力強い一歩と言えるでしょう。あなたの組織のMLOps環境は、未来の要求に応えられる準備ができているでしょうか?この事例が、その問いを考えるきっかけになれば幸いです。