はじめに
GLB事業部Lakehouse部の阿部です。Databricksが主催するDATA + AI SUMMIT 2024(DAIS)に参加しました。DAISが終わってから1週間経ちましたが、興奮が収まっていません。本記事では、DAISを含むおよそ1週間の出張をダイジェストでお伝えしたいと思います。DAISやサンフランシスコ市街の雰囲気が伝わればと考えております。
弊社ではDAISのセッションを現地からレポートしており、以下の特設サイトからセッションごとの解説ブログを参照できます。
「セッションの振り返りをしたい、参加できなかったセッションがあるけど気になっている」などございましたら、ご覧になっていただけると幸いです。
サンフランシスコに着いてからバッジ受け取る
日本から出国し、私たちはサンフランシスコに到着しました。DAISの入場バッジを受け取るため、空港から会場であるMOSCONE CENTERに向かいました。会場周辺はDAISのフラッグが多くあり、去年もDAISに行ったメンバーからは「去年よりも強い盛り上がりを感じる」と伺いしました。
MOSCONE CENTERに到着しました。
会場に到着してバッジを受けとった後は、2日目からのセッションに向けて会場内の場所を確認していましたが、すでに多くの行列が。
1日目にはトレーニングが実施されていたため、その行列みたいです。
バッジを受け取った後は、空港の手続きや到着もスムーズで遅れもなく時間があったため、サンフランシスコ市街を少しだけ散策しました。
グローバル企業のオフィスがちらほら見え、Databricksのオフィスも見えました。 (工事中のため建物外観を撮影できませんでした)
DAIS会場の雰囲気など
4日間とも賑わっていましたが、特にKeynoteの1日目は来場者が多く、期間中の中で最も盛り上がりを感じました。Keynote会場に入る前に会場スタッフがお出迎えをしてくれました。
Keynoteが始まる直前、音楽やPVにあわせて会場は盛り上がっていました。
CEOのAli氏が最初に登場し、他のスピーカーの方々が発表を続けていきます。
NVIDAとのパートナーシップを強化する発表があり、NVIDAのCEOであるJensen氏との対談もありました。
Databricks Data Intelligence PlatformにNVIDIA CUDAコンピューティングを導入し、エネルギー効率と節約を強化
Keynoteの発表で気になる機能
Keynoteでは多くの機能が発表されました。本記事では各機能についてすべて網羅しませんが、個人的に面白いと思った機能を2点に絞って紹介します。
AI/BI Genie(Genie Space)
データアナリストなどのビジネスユーザーが、自然言語を使用してUnity Catalogにあるデータを分析できる機能です。パブリックプレビュー段階ですが、すでに使用できるため私も利用しました。自然言語でのテーブル操作や可視化が可能であり、裏で発行したSQLクエリも確認できます。
画像はサンプルデータを使って動かしたものですが、自然言語で分析できることがわかります。
円グラフに可視化
Databricks LakeFlow
プロダクションレベルのデータパイプラインを構築、運用できる機能です。 大きく分けてIngest、Transform、Orchestrateの機能があります。Ingestを行うLakeFlow Connectは、去年買収したArcionのテクノロジーを搭載しているため、さまざまなデータベースやアプリケーションとの接続が可能です。さらにCDC(変更データキャプチャ)を使用した増分取り込みを可能にしています。
Transformationを行うLakeFlow Pipelinesは、Delta Live Tablesの宣言型フレームワークに基づいて構築されています。データ品質のモニタリングができることに加えて、なんとリアルタイムモードを使用し、低レイテンシーのデータのデリバリーが可能です。
最後にOrchestrateを担うLakeFlow Jobsでは、Jobsのようにあらゆるワークロードを自動化することはもちろん、複雑なユースケースにも対応できるとのことです。監視にはLakehouse Monitoringを用いて簡単に行うことができ、モニターの追加など監視のカスタマイズ性も向上するようです。
簡単な機能の紹介をしましたが、Keynoteで一番印象に残ったのは、DatabricksのCTO であるMatei氏がGitHubのリポジトリをPrivateからPublicに変更し、Unity Catalogをセッション中にOSS化したことは今でも鮮明に覚えています。かっこいい。
勉強になったセッション
去年と違い、今年はKeynoteを除くすべてのセッションが予約済みになっていたため、部屋にスムーズに入ることができました。 KEYNOTE以外のセッションは、個人で1日7~8個のセッションに参加してクタクタでしたが、非常に勉強になったセッションも多くありました。 個人的にとくに勉強になったセッションについて、ご紹介します。
BUILDING YOUR FIRST GENAI APP USING DATABRICKS, MOSIACML AND MLRUN
このセッションは、Mosaic AIとMLRunというOSSのMLOpsプラットフォームを用いた、Generative AIのアプリケーション開発についての話でした。 アプリ開発のフローや全体アーキテクチャについて詳細に説明しており、エンジニアとして非常に参考になりました。 他にもプロトタイプからプロダクションに持っていくときの課題を述べておりました。 とくにLLMの回答のリスク(Hallucination、Privacyなどによる不適切な回答)を除くために、CI/CDの観点からどのようなポイントを意識してパフォーマンスやガバナンスを強化していくか解説されていました。 最後に、前段で説明したアーキテクチャのChatアプリのデモを行い、ユーザーに服や、その服にあった靴の推薦を実演しておりました。
こちらのセッションについて記事で解説しております。
https://techblog.ap-com.co.jp/entry/2024/06/17/161434
Implementing the Lakehouse, from BI to AI
オランダのABNアムロ銀行の事例で、Databricksプラットフォームでのデータメッシュアーキテクチャ を構築した話でした。 銀行はコンプライアンスなどの規制が厳しいため、それをどうやって担保してデータプラットフォームを設計したかについての発表でした。
勉強になったことは、Center Of Expertise(CoE)を各チームの上に設けて、チーム間の調整やサポートを行う組織を置いていることでした。 セッションでも言及されたコンウェイの法則のように、業務ごとにチームが分断されていると、何か変更が生じたときにチーム間でのコミュニケーションコストが高くなります。CoEを設置することで、これらの課題解決はもちろん、ガバナンスの観点から各チームでの責任をCoEから明確にできます。
最終的にABNアムロ銀行では、権限を中央管理する組織がUnity CatalogとDelta Sharingを用いて、データメッシュアーキテクチャを実現しました。
こちらのセッションについて記事で解説しております。
https://techblog.ap-com.co.jp/entry/2024/06/13/122325
3.In the Trenches with DBRX Building a State-of-the-Art Open-Source Model
このセッションは、Databricks社内でトレーニングされた最先端のオープンソース基礎モデルであるDBRXの開発秘話を紹介しています。開発を通してどのようなツールを使ったか、モデルを構築する上でのアドバイスを解説しておりました。
LLMを構築するポイントとしては、データやモデルのパラメーターなどの観点からスモールスタートすることとアドバイスをされていました。 モデル構成を複数のモデルを組み合わせるMoE(Mixture-of-Experts)にすることで、モデル性能が格段に向上することも強調しており、今後はMoEを中心としたLLMのトレンドが来るのではないかと言及もしておりました。
こちらのセッションについて記事で解説しております。 https://techblog.ap-com.co.jp/entry/2024/06/13/210907
DAIS終了後のオフ
DAISの次の日は1日フリーの時間があり、フィッシャーマンズワーフやゴールデンゲートブリッジの近くを散策しました。
そしてサンフランシスコ最後の夜は、イタリアンが多いノースビーチにて夕食を取り、約1週間お疲れの乾杯をしました。
最高の1週間でした。
おわりに
DAIS期間中での約1週間をダイジェスト記事として書きました。 DAISで一番感じたことは、Keynoteの歓声や反応を見て本当にDatabricksや、技術が好きな人が集まっているんだと感じました。 私も今回の旅は色々と触発されたことが多く、今後もエンジニアとしてさらに成長したいと思います。