はじめに
こんにちは、GLB事業部Lakehouse部の陳(チェン)です。
この記事は エーピーコミュニケーションズAdvent Calendar 2023の13日目の投稿です。
ちょうど折り返しの本日はDatabricks関連資格の取得体験についてです。
目次
自己紹介
陳は前職までは気象関係の仕事をしていました。 長年、気象系のデータ解析、可視化、レポート作成を行いました。 APCに入社する前までの4年間は、スーパーコンピューター上での準リアルタイム気象情報システムの開発・構築・運用・保守の業務に携わっていました。
オープンソースのLinuxを使っており、Pythonなどを用いてコーディングしてデータ解析とデータ可視化を行いました。 また、シェルによるシステム運用・データ解析作業の自動化なども経験しました。
APCに入社してからDatabricksを使用し始め、データ周りの仕事に携わります。 クラウド関係とDatabricksの初心者として、半年間をかけて初めてのDatabricks関連資格(Databricks Certified Data Engineer Associate)を取得しました。 本日は取得に関連して、自分が歩んできた道を紹介いたします。
使用した教材
Databricksのパートナトレーニング
ウェブドキュメント
Udemyの模擬試験
出題範囲
出題範囲について、公式のホームページにて下記の通りに掲げています。
Databricks Lakehouse Platform(レイクハウスプラットフォーム) – 24%
レイクハウスプラットフォームのコンセプト・機能、従来のデータウェアハウスとの違い、ユーザにとっての利便性について
ELT With Spark SQL and Python (Spark SQLとPythonによるELT)– 29%
SQLとPython(PySpark)によるデータ(テーブル)操作(読み込み・整形・書き出しなど)
Incremental Data Processing (データプロセッシング)– 22%
AutoLoaderによるストリーミングデータの取得、段階性のデータ整形、Databricksメダリオンアーキテクチャの概念、Delta Live Tableの概念
Production Pipelines (データパイプライン)– 16%
PipelineやWorkflowの作成、Delta Live Tableの運用
Data Governance (データ制抑)– 9%
アクセス権限など
試験準備
陳は入社して、Lakehouse部に配属してから、しばらくDatabricksのオンラインビデオ研修を受けました。 こちらでは、レイクハウスプラットフォームの思想・歴史・アーキテクチャなどを中心に初歩的な知識を身につけました。 内容的には、「Databricks Lakehouse Platform」と「Data Governance」に対応していると思います。
コーティングに関しては研修を受けながら自らコードを動かしたり、自分なりにコード改変を行ったりして理解を深めました。 こちらですと、Databricksの研修用のオンラインビデオもあったり、GitHub上で公開したのもあったりしますので、色んな勉強手段があります。 詳細は弊社の阿部のブログを参照ください。
個人的に自信のないもの(レイクハウスプラットフォーム、データ制御など)やコード面の詳細の設定はウェブドキュメントをしっかり読み込みをし、自分なりに理解しました。
同時に、Databricks関連の案件にサブとして入らせて、勉強したことを実践する機会をもらって、より知識を身につけるようになりました。
最後に、模擬試験の問題を解いて、自分の理解が足りない部分を洗い出して、ウェブドキュメントやコードで確認することを行いました。
試験を受けて
試験自体は英語で行われるため、Udemyで購入した模擬講座とDatabricksが公式に公開している模擬試験の書きぶりに慣れるのが大事だと思います。 どちらも本番に近い書きぶりですので、試験を受ける際に質問の意図をくみ取るには焦ることなく、自分のペースで解答できたと思います。 試験時間は90分(45問)で、余った時間に自信のない問題を見直すこともできました。 オンライン試験のため、試験終了後数分経ったら結果が分かります。
雑感
ここまで伏せていましたが、陳はプログラミング経験が長いが、SQLは初心者、PySparkも触ったこともなく、コードの書きぶりになれるのに苦戦していました。 案件への参加で、SQLとPySparkの使用が必須のため、そこで夜な夜な自習をし、両方ともある程度使えるようになりました。
そして、資格取得したことによって、お客さんと会話する際に、自信が付きました。 案件を行うとき・議論をする時にも前より確信をもって発言できるようになりました。
おわりに
いつもの技術検証とは違って、今回はDatabricks Certified Data Engineer Associateの取得に関して感じたことを書かせていただきました。 資格の取得を通じてDatabricksの機能を幅広く知ることができました。 興味のある方におすすめしたい資格です。
私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。もしご興味がある方は、お問い合わせ頂ければ幸いです。
また、一緒に働いていただける仲間も募集中です! APCにご興味がある方の連絡をお待ちしております。