APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

入門Fivetran(4) - FivetranとDatabricksを連携させる(Part 2)

 

はじめに

GLB事業部Lakehouse部の陳です。先日に弊社の松崎がDatabricksからFivetranへの接続について説明しました(記事はこちら)。今回は、FivetranからDatabricksへの接続方法を説明します。少し手間がかかりますので、松崎の方法がうまくできない場合のもう一つの選択肢として参考になれば幸いです。

目次

前提について

弊社の松崎が説明した手順の別の方法を説明します。

下記の場面が想定されます。

  • DatabricksからFivetransへの接続を作成できない
  • Fivetran上のワークスペースが複数メンバーが共有し、すでにDatabricksへのコネクション(Destinations)が存在

なお、本ブログで提示された作業手順は少し複雑であり、ご注意ください。

設定の流れ

作業はFivetranとDatabricksの画面を往復します。Part1~3に分けて説明いたします。

Part1:作業@Fivetran

Destinationsを表示しているページの右上にある「Add destination」ボタンをクリックして、新しいコネクション(Dsetination Name)を入力します。ここでは、「Fivetran_to_Databricks」と名付けます。

下記の画面に移動して、Destinationとして「Databricks」を選択し、「Continue Setup」に進みます。

ここでは、Databricksの設定に基づいてCatalog/ Server Hostname/ Http Path/ Personal Access Tokenを入力する必要があります。これらの設定はDatabricks側での作業となりますので、こちらのウインドを保持したまま別ウインドでDatabricksを立ち上げて次の作業に移ります。

Part2:作業@Databricks

Databricks上でCatalogを参照するために、対応する計算ノードの作成が必要となります。SQL Warehouseで「FIVETRAN_WAREHOUSE」という計算ノードを作成しておきます。

次に、作成された「FIVETRAN_WAREHOUSE」をクリックして「Connection details」の情報を参照します。表示された「Server hostname」と「HTTP path」の情報をそのままFivetran側に記入します。

最後に、「Personal Access Token」を作成します。Databricksの画面の右上のアカウントをクリックして、「User Settings」をクリックしたあと、「Access tokens」というタグに移ります。

「Generate new token」ボタンを押して、「Generate new token」のポップアップ画面が表示されます。コメント(Comment)と有効期限(Lifetime (days))を設定したうえ「Generate」ボタンを押します。

新しいTokenが表示されます。「Done」ボタンを押して、Tokenの作成が完了します。なお、このTokenは一度しか表示されませんので、別場所にコピーをとって保管しましょう。

Part3:作業@Fivetran

Databricksで作成されたTokenと計算ノード「FIVETRAN_WAREHOUSE/ Connection details」で表示されたServer Hostname/ Http Pathの情報をFivetranの設定画面に記入します。これで設定が完了です。「Save & Test」ボタンを押して、コネクションが作成できたかどうかを確認します。

テストチェックをパスしてコネクションが無事に作成できました。

そして、作成されたコネクションの情報はDestnationsから確認できます。

データをDatabricksに転送

テスト用のgoogle sheetを用意したうえ(作成参考)、次に移ります。 左サイドバーで「Connectors」をクリックして、右上に「Add Connector」ボタンを押した後、Destinationを「Fivetran_to_Databricks」を選択してコネクターを作成します。

data sourceをGoogle Sheetsを選択します。

Google Sheetsに関する情報を入力して、「Save & Test」ボタンを押します。

問題なくテストをパスしました。

「Start Initial Sync」を押して、データ転送を開始します。

データ転送中です。この作業はDatabricks側にデータ転送する際に計算ノードを起動するため時間がかかる場合があります。

データ転送完了です。

Databricksでの確認

Data Explorerの配下で、hive_metastore/google_sheets/fivetran_databricks_test_20230516が無事に転送されています。

おわりに

本記事は以上となります。いかがでしたか?少し手間がかかりますが、弊社松崎が提示したFivetranとDatabricksの接続が何らかの要因で作成できない場合に、もう一つの参考になることができれば幸いです。

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。 ご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

そして、一緒に働いていただける仲間も募集中です! APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp