APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Advancements in Open Source LLM Tooling, Including MLflow(MLflow を含むオープンソース LLM ツールの進歩)

はじめに

GLB事業部Global Engineering部 佐々木です。 現地でのData + AI SUMMIT2023(DAIS)に参加している永里の報告をもとに、セッションの内容をまとめた記事を書きました。

DAISでのセッションに関する記事は、以下の特設サイトにまとめています。

https://www.ap-com.co.jp/data_ai_summit-2023/

今回は、最近視聴した講演「Advancements in Open Source LLM Tooling, Including MLflow」について、わかりやすくまとめていきたいと思います。この講演では、オープンソースの機械学習プラットフォームであるMLflowを中心に、機械学習のトレーニングの進化とLLMアプリケーションにおけるコンテキスト問題の解決方法について説明されました。想定するターゲット視聴者は、機械学習に興味がある技術者や、機械学習のトレーニングやデプロイメントに携わるエンジニア、LLMアプリケーションの開発者です。 ​​

機械学習のトレーニングの進化とコンテキスト検索の重要性

​ 近年、機械学習のトレーニングの定義が変化し、コンテキスト検索が重要になってきています。これは、機械学習アプリケーションがより複雑になり、多様なデータソースやアルゴリズムを扱うようになったためです。この変化に対応するために、オープンソースの機械学習プラットフォームであるMLflowが開発されました。 ​

MLflowの概要と機能

​ MLflowは、機械学習の実験管理やモデルのパッケージングとデプロイメントなどの機能を提供するオープンソースのプラットフォームです。具体的には以下のような機能があります。 ​

  1. 実験管理: 機械学習の実験を一元管理し、結果を比較・分析できるようにする機能です。
  2. モデルのパッケージング: 機械学習モデルを再利用可能な形式でパッケージ化する機能です。
  3. モデルのデプロイメント: パッケージ化されたモデルを本番環境にデプロイする機能です。

​ これらの機能により、機械学習の開発プロセスが効率化され、より迅速に高品質なアプリケーションを開発できるようになります。 ​

最新の概念や機能

​ MLflowは、最新の概念や機能を随時取り入れています。例えば、以下のような機能が最近追加されました。 ​

  • 自動機械学習(AutoML): 機械学習モデルの選択やハイパーパラメータの最適化を自動化する機能です。
  • モデルのバージョニング: モデルのバージョン管理を行い、過去のバージョンとの比較やロールバックが可能になる機能です。

​ これらの機能により、機械学習の開発プロセスがさらに効率化され、より迅速に高品質なアプリケーションを開発できるようになります。 ​

LLMアプリケーションのデータ特徴とコンテキスト問題

​ LLMアプリケーションでは、データは非構造化データであり、コンテキストが重要であることが強調されました。非構造化データとは、テキストや画像、音声など、定型化されていないデータのことを指します。これらのデータは、構造化データ(数値やカテゴリなど)と比べて、情報の抽出や解析が難しいとされています。 ​ LLMアプリケーションで扱う非構造化データの特徴は以下の通りです。 ​

  1. データ量が多い
  2. データの形式が多様
  3. データの品質が一定でない

​ これらの特徴から、LLMアプリケーションでは、データのコンテキストが非常に重要であることがわかります。 ​

追加のコンテキストを提供することで、ドメインに合わせた出力を調整することができる

​ 講演では、追加のコンテキストを提供することで、ドメインに合わせた出力を調整することができると説明されました。具体的には、以下のような方法が挙げられました。 ​

  1. ドメイン固有の知識を利用する
  2. データの前処理や特徴量エンジニアリングを行う
  3. モデルのアーキテクチャやハイパーパラメータを調整する

​ これらの方法を用いることで、LLMアプリケーションは、より適切な出力を生成することができるようになります。 ​

まとめ

今回の講演では、オープンソースの機械学習プラットフォームであるMLflowを中心に、機械学習のトレーニングの進化とLLMアプリケーションにおけるコンテキスト問題の解決方法について説明されました。これらの知見を活用することで、機械学習の開発や運用が効率化され、より高品質なアプリケーションを実現することができます。今後もMLflowをはじめとするオープンソースの機械学習プラットフォームの進化に注目していきたいと思います。

​## おわりに 現地でのDAISに参加しているメンバーからの報告をもとに、セッションの内容を解説しました。 DAIS期間中では、セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

www.ap-com.co.jp

引き続きどうぞよろしくお願いします!