はじめに
GLB事業部Global Engineering部 佐々木です。 現地でのData + AI SUMMIT2023(DAIS)に参加している金丸の報告をもとに、セッションの内容をまとめた記事を書きました。
今回は、リアルタイム機械学習インフラストラクチャの重要性と構築方法について解説する講演「Real-Time ML in Marketplace at Lyft」を取り上げます。この講演では、リアルタイム機械学習インフラストラクチャの重要性や、需要と供給の予測、詐欺検出などのリアルタイムシステムのユースケースについて説明されています。ターゲット視聴者は、データサイエンティスト、MLエンジニア、データエンジニア、ビジネスリーダーなどです。
リアルタイム機械学習インフラストラクチャの重要性
リアルタイム機械学習インフラストラクチャは、需要と供給の予測や詐欺検出において重要である。インフラストラクチャは特徴、モデルトレーニング、モデル推論またはサービングの3つのコア要素から構成される。リアルタイムインフラでは、リアルタイムで特徴を生成することに焦点が当てられる。
リアルタイム機械学習インフラストラクチャの構成要素
リアルタイム機械学習インフラストラクチャは、以下の3つのコア要素から構成されています。
- 特徴
- モデルトレーニング
- モデル推論またはサービング
特にリアルタイムインフラでは、リアルタイムで特徴を生成することに焦点が当てられています。これにより、需要と供給の予測や詐欺検出などのリアルタイムシステムのユースケースが実現されます。
リアルタイム機械学習インフラストラクチャのユースケース
リアルタイム機械学習インフラストラクチャは、以下のようなユースケースで活用されています。
- 需要と供給の予測
- 詐欺検出
需要と供給の予測では、リアルタイムで特徴を生成することで、適切なタイミングでサービスを提供することが可能になります。また、詐欺検出では、リアルタイムで不正な取引を検出し、被害を最小限に抑えることができます。
リアルタイムインフラの構築方法
リアルタイム機械学習インフラストラクチャの構築方法について詳しく解説された講演がありました。その中で、インジェスションパイプラインと集計パイプラインの2つのパイプラインが必要であることが説明されました。
モデルトレーニングパイプライン
リアルタイムトレーニングが必要なモデルのために特化したモデルトレーニングパイプラインが紹介されました。スマートトリガーによってデータ依存性が満たされたときにトレーニングが開始される仕組みです。また、モデル推論パイプラインもリアルタイムで動作することが強調されました。
同期モデル推論の重要性
乗客に提供するオファーを決定するなどのユースケースで同期モデル推論が重要であることが説明されました。DAG(Directed Acyclic Graph)は価格設定モデルの重要なコンポーネントであり、より正確で効率的なダイナミックプライシングを実現するために活用されています。
エコシステムの構成要素
リアルタイムインフラのエコシステムには、以下の要素が含まれています。
- Kinesisソース
- 特徴パイプライン
- モデル実行パイプライン
- ダウンストリームサービス
- データ可視化レイヤー
これらの要素が連携して、リアルタイムでの機械学習の実現をサポートしています。
リアルタイム設定管理とDevEx
リアルタイム設定管理は一部のユースケースで重要であり、DevEx(Developer Experience)はインフラ構築の重要な要素であることが説明されました。YAML設定ファイルを使用することで、MLエンジニアやデータサイエンス専門家が設定ファイルを簡単に作成できるという利点があります。 この講演を通じて、リアルタイム機械学習インフラストラクチャの構築方法やその重要性について理解を深めることができました。今後も最新の概念や機能、サービスについての話題を追いかけていきたいと思います。
おわりに
現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。
引き続きどうぞよろしくお願いします!