入門KDB.AI（4）- 楽曲の推薦（Recommendation Systems）

はじめに

こんにちは、GLB事業部Lakehouse部の陳（チェン）です。
Lakehouse部では、Databricksプラットフォーム上でKDB.AIを利用した検証を行っています。弊社の鄭（ジョン）の記事で、KDB.AIの紹介や利用開始の登録法が紹介されています。
ご興味のある方は鄭の記事をご覧になってください。

techblog.ap-com.co.jp

本記事では、Databricks上でコーティングを行って、音楽推奨システムの構築から利用までのご紹介です。 Kaggleからのデータ取得（前作業）とDatabricks上でのコーティング（本作業）に分けて、順番に紹介しています。より詳しい内容はKDB.AIのlearning hubをご参照してください。 kdb.ai

前作業

Kaggleからの楽曲データ取得についてのご紹介です。

楽曲データ取得

Kaggleというデータ系のプラットフォームから取得できる、Sportifyが提供している楽曲のデータセットを使用します。取得先は「 Spotify dataset | Kaggle 」になります。取得するために、Kaggleのユーザ登録が必要となります。詳細は割愛とさせていただきます。幾つかのファイルがデータセットに含まれており、本デモでは「data.csv」のみ使用します。事前に、「data.csv」をDatabricksのDBFSにアップロードしておきます。

data.csvの中に様々な情報が入っており、本デモで使われるカラムについて紹介します。文字列として保存され、楽曲の情報に関するカラムはartists（アーティスト名）、name（楽曲名）を使用します。解析の中にこれらのカラムに含まれている文字列がベクトル化されます。曲調に関するカラムはvalence、acousticness、danceability、energy、instrumentalness、liveness、loudness mode、popularity、speechiness、tempoであり、こちらの情報は数値化として保存されて、解析の中でそれぞれのカラムを正規化（標準化）します。

本作業

Databricksのプラットフォーム上でコーティングしていきます。必要なモジュールの読み込み、User Defined Function（UDF）の準備、データの読み込み・整形、Vector Embeddingの作成、KDB.AI上のVector DBの登録、実際利用について紹介します。なお、Databricks上のクラスタは14.0ML以上のものを使用するのがお勧めです。

モジュールの準備

Fig_1では、必要なライブラリ（gemsinとkdbai_client）のインストールとモジュール（pandas、numpy、nltkなど）のインポートを行います。

UDFの作成

作成されるデータフレームやEmbeddingの中身を確認するためのUDFを前もって用意しておきます。「show_df」はデータフレームの形とデータフレームのヘッダーを表示するUDFです。「show_embeddings」は、embeddingsに含まれている総数、カラム数、カラム名を表示するUDFです。

データの読み込み・整形

Fig_3の通り、data.csvをDataFrameとして読み込んだ後に、すべてのカラム名の前に「song_」というプリフィックスを付けます。同時に、不要なカラム「song_id」と「song_release_date」を削除します。

Fig_4ではカラム「song_artists」に含まれている不要な文字「['」と「']」を削除します。同時に、カラム「song_name」と「song_artist」を結合し、カラム「song_description」を作成します。最後に、重複削除を行って、データ整形が終わりました。

Vector Embeddingsの作成

文書(sentence)を意味ある単位を分割します（Cmd19）。英語の場合、ほとんどはスペースを区切りとして文書を単語化することになります。例として、Cmd20のような文書はCmd21の通り、単語毎に分解されました。

次に、Word2Vecを利用し、embedding modelを作成します。このプロセスは、文章に含まれる単語を「数値ベクトル」に変換し、その意味を把握していく自然言語処理の手法です。パラメータの設定により結果が変わりるため、ご興味のある方はパラメータを変更して結果の変化を体感してください。

Fig_7では、Fig_6で作成したembedding modelにtokenised_song_descsを入れ、tokenisedされた単語群をベクトル化します。このベクトル化された単語群をcategorical_embeddingsという配列に入れます。

Fig_8は数値データの標準化・正規化の作業を行います。まず、元テーブルから文字列のカラム（「song_name」、「song_artists」、「song_description」）を除外し、新しいテーブル（numerical_col）を作成します。テーブルnumerical_colの数値を正規化・標準化をし、embedingとしてnumeric_embeddingsに入れます。

これまでに作成された二つのEmbedding、「numeric_embeddings」と「categorical_embeddings」を一つに結合します（Fig_9）。

最後に、「song_name」、「song_artists」、「song_description」の情報をそのまま残しておいて、Embeddingと結合して、Embeddingsのデータベースの準備が完了しました（Fig_10）。

KDB.AI上にVector Databaseを作成

KDB.AI Sessionに接続

Fig_11の通り、EndpointとAPI KEYを利用し、KDB.AIに接続します。セルのコマンド１～３まで入力し、実行することによって、EndpointとAPI KEYの入力をリクエストされます。相応する内容を入力してください。エラーなどが起きなければ、実行完了後にDatabrics上でKDBのEmbedded Databaseに接続することになります。