APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Databricksに出会って3ヶ月で認定試験に合格しました。

はじめに

Databricks Certified Data Engineer Associate (Version 3)に合格しました!

credentials.databricks.com

GLB事業部Lakehouse部の阿部です。
いつもはDatabricks周りの検証について発信しておりますが、今回は上記試験に合格するまでの勉強・姿勢についてお話ししたいと思います。
まずは自己紹介を踏まえて、試験までのイベントを振り返ってみました。

  • 2023年1月 APCに入社
  • 1月下旬 Lakehouse部に配属
    Databricks Academyの教材を用いてDatabrickについて学び始めるが、RDBMSによって異なるSQLのクエリーと知識がないインフラ関連の知識習得に苦労する。
    → 4日間を想定した教材だが2週間くらいかかる。
  • 2月上旬 Udemyの模擬試験講座を購入するが、問題が全然解けず心折れそうになり放置気味になる。
  • 2月下旬 資格試験の勉強を本格的に開始。
    UdemyとAzure Databricksのドキュメントを主に活用して学習する。
  • 3月 技術ブログにDatabricksの検証に関する記事を投稿(Lakehouse部での初投稿)する。
    Udemyの講座をひととおり走り切り、模擬試験の2週目まで終了。
    Databricksの案件に参加する。
  • 4月 Udemyの模擬試験を解き直し、3周目が終了する。
    模擬試験を繰り返すと選択肢の答えがわかるようになり過学習しているように感じるため、答えの選択肢以外にもよく目を通して不安な分野はドキュメントを見直す。
  • 4月23日 試験合格

長々と書いてしまいましたが、試験合格までにはDatabricksをさわりはじめて3か月、試験勉強開始から合格まで2か月かかりました。

試験範囲から見るDatabricks Certified Data Engineer Associate

試験合格には、まずは相手を知ることが重要です。
Databricks公式のページから本試験の概要を確認しますが、一言で言うとユースケースに合わせてDatabricks Lakehouse Platformの各コンポーネントやSQL、Pythonを使用して比較的単純な課題を解決できるかテストしていると私は考えております。

以下、出題範囲と出題率についてホームページから抜粋して私なりに要約しました。

Databricks Certified Data Engineer Associate

  1. Databricks Lakehouse Platform – 24% (11/45)
    Databricks Lakehouse Platformの各コンポーネントやアーキテクチャ、Delta Lake、テーブル操作について

  2. ELT with Spark SQL and Python – 29% (13/45)
    SQLやPythonを使用したデータベース、テーブル、ビューに対するELTについて

  3. Incremental Data Processing – 22% (10/45)
    Auto Loaderによるバッチやストリーミング処理、メダリオンアーキテクチャにおけるレイヤーごとの違い、Delta Live Tableについて

  4. Production Pipelines – 16% (7/45) ジョブの構築、Databricks SQLのダッシュボード作成時の設定について

  5. Data Governance – 9% (4/45) Unity Catalog、チームやユーザーに対するテーブルやビューへの権限付与について

単元ごとの出題数を見ると、spark SQLとPythonによるELTについてもっとも出題されていることがわかります。
そのため、PythonやSQLの基本的な文法は抑える必要があります。

具体的な勉強方法

具体的な勉強方法をお話しする前に、Databricks環境にふれることから始めることをオススメします。
Databricksでは、ハンズオン形式の集中トレーニングを不定期で開催しており、参加することで一連の機能について理解できると思います。

集中トレーニング

また、お好みのクラウドプロバイダーでDatabricksのワークスペースを作成後、githubにある集中トレーニングのコードで勉強することをオススメします。

techblog.ap-com.co.jp

github.com

以下、勉強方法です。
1. Udemyの模擬試験講座を受講する。Databricks Certified Data Engineer Associate Practice Exams
2. Azure Databricksのドキュメントを参照する。Azure Databricks のドキュメント
3. 技術ブログに検証結果をアップする。(オススメ)検証ブログ

 まずはUdemyの模擬試験を受けながら、知らないワードやコードをAzure Databricksのドキュメントで調べることを繰り返しました。
やはり公式のドキュメントが一番まとまっているため、ドキュメントを辞書のように使ってUdemyと往復することで理解を深めました。
1回調べて理解しても時間が経つと忘れることはわかっていたため、slackの自分のダイレクトメッセージに勉強内容をまとめておき、具体的には、ドキュメントのURLと調べた結果を要約して貼り付け、同じような問題を解いてわからないときに検索して見返しました。

 3つ目の勉強法である技術ブログにアップは少々ハードルが高いように感じますが、Databricksの理解がまるで違うと感じました。
かく言う私もDeltaテーブルの操作について記事をアップしましたが、Delta Lakeとテーブル操作について問う問題についてはかなり解けたと思います。
逆に、Delta Live TableやDatabricks SQLについてはまだ検証が不十分であるため、正答率が下がりました。
試験合格を目指す方は、ぜひ一緒に技術ブログをアップしましょう。

ちなみに、公式の模擬試験もあるため試験前に受験してみるといいでしょう。

苦労したこと

一番苦労したことは、コンポーネントの理解です。
覚えることが多いため最初はひたすら暗記しましたが、実際にDatabricks環境をさわってどんな場所にどの設定があるか確認しました。
また、Databricks特有のSQLクエリーもあるため実際に動かして理解に努めました。

試験を終えて勉強してよかったこと

Databricksの基本的な理解ができたため、案件の場での話の理解や技術ブログの発信に役立ちました。
また、ユースケースに合わせて解答する試験のため、ユースケースに合わせてどのコンポーネントを使うか理解できたと感じてます。

参考記事

Databricks Certified Data Engineer Associate

おわりに

本記事では、Databricks Certified Data Engineer Associate (Version 3)合格までの勉強について書かせて頂きました。
試験対策によって、Databricks Lakehouse Platformの基本的な理解ができたため、技術ブログでの発信と案件に活かしたいと思います。

今後もDatabricksに関連した記事を投稿するため、またご覧になっていただければ幸いです。

私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
APCにご興味がある方の連絡をお待ちしております。

www.ap-com.co.jp