Labcorp Data Platform Journey: From Selection to Go-Live in Six Months(Labcorp社　データプラットフォームの旅: 選択から稼働まで 6 か月で実現)

はじめに

GLB事業部Global Engineering部ヨハンです。現地でのData + AI SUMMIT2023（DAIS）に参加している市村の報告をもとに、セッションの内容をまとめた記事を書きました。

今回取材した講演のタイトルは、「Labcorp Data Platform Journey: From Selection to Go-Live in Six Months」です。発表者は、LabCorpのエンタープライズアナリティクスプラットフォームのディレクターであるMohan Kohli氏、データレイクとデータウェアハウジングのプラットフォームアーキテクト兼テクニカルマネージャーであるSree氏、そして実装パートナーであるMSR CosmosのSVP of Sales and DeliveryであるMalati Ukula氏です。講演のテーマは、LabCorpがHadoopから次世代プラットフォームに移行する過程を紹介することで、目的は、LabCorpが将来の需要に対応し、顧客をサポートするためのスケーラブルなアーキテクチャを構築する方法を示すことです。想定するターゲット視聴者は、データ&AIに関心のある技術者、データプラットフォームの構築に興味のある企業の経営者、データプラットフォームの運用に携わるエンジニアです。それでは、講演の内容を順を追って解説していきます。

世界最大の参照検査室LabCorpのデータプラットフォームへの挑戦

LabCorpは世界最大の参照検査室であり、100か国以上で80,000人以上の従業員が働いています。彼らは、Hadoopから次世代プラットフォームへの移行を計画しており、今後10年間のニーズに対応できるサーバーレスアーキテクチャを構築することを目指しています。

Hadoopから次世代プラットフォームへの移行

LabCorpは、以下のような要素を考慮して、Hadoopから次世代プラットフォームへの移行を進めています。

スケーラブルなアーキテクチャ: 今後の需要に対応できるよう、スケーラブルなアーキテクチャを構築することが重要です。
サーバーレス: サーバーレスアーキテクチャを採用することで、インフラストラクチャの管理や運用の負担を軽減できます。
データの統合: 異なるデータソースからのデータを統合し、一元的に管理することが求められます。

これらの要素を満たすために、LabCorpはDatabricksを選択しました。Databricksは、Apache Sparkをベースにしたデータプラットフォームで、大規模なデータ処理や機械学習に対応しています。

6ヶ月でのGo-Liveを実現

LabCorpは、Databricksを導入することで、以下のような成果を上げることができました。

高速なデータ処理: Databricksを利用することで、従来のHadoopに比べてデータ処理速度が大幅に向上しました。
シームレスなデータ連携: Databricksと他のデータソースとの連携が容易になり、データの統合がスムーズに行えるようになりました。
柔軟なスケーリング: Databricksのクラウドベースのアーキテクチャにより、リソースのスケーリングが容易になりました。

これらの成果を受けて、LabCorpはわずか6ヶ月でDatabricksを本番環境に導入することができました。

まとめ

LabCorpのデータプラットフォームの旅は、HadoopからDatabricksへの移行を通じて、スケーラブルでサーバーレスなアーキテクチャを構築することに成功しました。これにより、LabCorpは今後のデータ需要に対応し、顧客をサポートすることができるでしょう。今後も、データ&AI分野での最新情報や事例を追い求め、日本の読者にわかりやすい記事を提供していきたいと思います。次回の記事もお楽しみに！