はじめに
GLB事業部Lakehouse部の松崎です。この記事では、弊部門がパートナー契約を結んでおります、ELTツール、Fivetran(ファイブトラン)の概要を解説します。
目次
ELTとは?
Fivetranの説明に入る前にELTプロセスについて簡単に触れておきます。
ELTはExtract、Load、Transformの略で、データを抽出して別のストレージシステムにロードしてから変換する処理方法です。ETLとの主な違いはLoadの実行タイミングにあります。ETLはロード前にデータを変換しますが、ELTはロード後にデータを変換します。
ETLと比較した目線でのELTプロセスの利点は、2点あります。
- データの取り込み開始から、実際にデータアナリストがデータを操作できるようになるまでのリードタイムが短い
- DWHにTransform前のRaw Dataが保存されるため、Transform処理が想定通りにいかず、望んでいない形式のデータが作られてしまったときのデバッグや再処理が実施しやすい
図の出典:The ultimate guide to ELT @ Fivetran Blog
Fivetranの概要
Fivetranは、クラウドベースのELT(Extract, Load, Transform)ツールです。各種データソースから、DWHやSaaS型のデータストアへのデータの取り込みを簡単かつ迅速に行うために開発されました。
主要な機能として、以下が存在します。
1.多様なデータソースに対応:コネクタと呼ばれるプラグインを使ったデータの取り込み設定の半自動化などの機能を備えており、データソースからのデータの取得やスキーマの適用などの手間を省くことができます。
2.自動スキーマ設定:データの自動同期とともに、データのスキーマ設定を自動的に行うことができます。これにより、データの品質を維持し、データエンジニアリングの負担を軽減することができます。*1
3.リアルタイムデータ同期:API経由でのデータ抽出や、リアルタイムデータ同期をサポートしており、データの最新状態を保持することができます。
Fivetranが必要とされる背景
データ連携は、企業や組織がビジネス上の意思決定やマーケティング活動を行うために不可欠な要素です。そして、そのような目的でデータ基盤を構築する際に、データソースやデータの形式、ストレージなどにバラバラのツールが使用されていると、ELTパイプラインの設定に大きな手間や時間がかかってしまいます。Fivetranは、そのような問題を解決することで、ビジネス上の意思決定をより迅速かつ正確にしたり、データ分析のスピードと効率を大幅に向上させることができます。
また、Fivetranは導入が容易でコスト効率に優れているため、中小企業から大企業まで幅広い規模の企業や組織に利用されています。
プラグインで対応可能なデータソース
Fivetranのコネクタは、多数のデータソースに対応しています。以下に代表的なデータソースを例示します。上記以外の利用可能なコネクターについてはこちらのページを参照ください。
データベース
- MariaDB , MySQL
- PostgreSQL
- MongoDB
- Oracle
- SQL Server
SaaSツール
- Salesforce
- Hubspot
- Zendesk
- Shopify
- Google Analytics
- Intercom
- Stripe
ストレージ
- Amazon S3
- Google Cloud Storage
- Microsoft Azure Blob Storage
おわりに
本記事は以上となります。いかがでしたでしょか?次の記事では、FivetranをDatabricksと連携させる方法について解説をする予定です。よろしくお願いします。
私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。
また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。
*1:データ型の割当・推論機能の詳細は以下をご覧ください。 -> core-concepts : datatypehierarchy , core-concepts : typeinference