APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Anomalo | Data Archaeology: How to Quickly Understand an (Unfamiliar) Dataset Using Machine Learning(Anomalo|データ考古学:機械学習を使って(見慣れない)データセットを素早く理解する方法)

はじめに

GLB事業部Lakehouse部の阿部です。現地でのData + AI SUMMIT2023(DAIS)に参加した永里の報告をもとに、セッションの内容をまとめた記事を書きました。

今回は、講演「Anomalo | Data Archaeology: How to Quickly Understand an (Unfamiliar) Dataset Using Machine Learning」についてお話しします。この講演では、Anomalo社のVicky Andonova氏とElliot Shmukler氏がデータ考古学について解説しています!

DAISでのセッションに関する記事は、以下の特設サイトにまとめています。 こちらも見ていただけると幸いです。

https://www.ap-com.co.jp/data_ai_summit-2023/

データ考古学とは?

データ考古学とは、未知のデータセットを理解して効果的に使用するための基礎知識を得るプロセスです。簡単にいうと、データセットの特徴を理解してデータ分析やモデル構築に活かすことです。

データセットの理解と探索の重要性

データセットを理解して探索することは、データ分析や機械学習のプロジェクトにおいて非常に重要です。データセットの理解が不十分な場合、誤った仮説やモデルを構築するリスクが高まります。データ考古学を行うことで、データセットの特徴や構造を把握し、効果的な分析やモデル構築が可能になります。

データ考古学を行うためのヒント

データ考古学を行う際には、以下のヒントが役立ちます。

  1. データセットの概要を把握する: データセットのサイズやカラム数、欠損値の有無などを確認する。
  2. データの分布を調べる: データの分布や外れ値を確認し、データの特徴を理解する。
  3. 相関関係を調べる: 各カラム間の相関関係を調べ、重要な特徴量を特定する。
  4. 機械学習を活用する: 機械学習アルゴリズムを用いて、データセットの特徴を抽出し、理解を深める。

上記に挙げたことを実践することで、データセットの特徴を理解できると思います。

機械学習を活用したデータ考古学

機械学習を活用することで、データセットの特徴をより効果的に抽出して理解を深められます。たとえば、次元削減技術(PCAやt-SNEなど)を用いて、データセットの構造を可視化できます。また、クラスタリングアルゴリズム(K-meansやDBSCANなど)を用いて、データセット内のグループを特定できます。

最新の概念や機能、サービスについて

データ考古学の分野では、最新の概念や機能、サービスが次々と登場しています。たとえば、AutoMLを活用することで、データセットの特徴を自動的に抽出し、最適なモデルを構築できます。また、データセットの可視化や探索を支援するツールやサービスも多数存在し、データ考古学のプロセスを効率化できます。

データ考古学を行うことで、未知のデータセットを効果的に理解し、活用できます。そのため、機械学習を活用して最新の概念や機能、サービスを取り入れることで、データ分析や機械学習のプロジェクトをより効果的に進めることができると考えます。

まとめ

データ考古学を用いて未知のデータセットを迅速に理解する方法を学ぶことができました。データセットの理解と探索の重要性や、データ考古学を行うためのヒント、機械学習を活用したデータ考古学の方法など、さまざまな知見が得られました。これらの手法を活用することで、データ&AIの分野で新たな価値を創出できるでしょう。

おわりに

現地でのDAIS参加メンバーからの報告をもとに、セッションの内容を解説しました。セッションに関する記事を以下の特設サイトに順次上げていきますので、見ていただけると幸いです。

https://www.ap-com.co.jp/data_ai_summit-2023/

引き続きどうぞよろしくお願いします!