Data + AI Summitで発表されたセッション「Databricks in Action: Azure’s Blueprint for Secure and Cost-Effective Operations」は、大規模なクラウドデータ基盤を運用する多くのエンジニアにとって示唆に富む内容でした。このセッションでは、欧州の大手金融機関Erste GroupのIT部門からOliver Schluga氏とVukola Milenkovic氏が登壇。彼らがAzure Databricksを導入し、セキュリティ要件とコスト最適化という二つの大きな課題にどう立ち向かったのか、そのリアルな道のりが語られました。
本記事では、このセッションの内容を基に、Erste Groupが直面した課題、それを乗り越えるために実施した3段階のアーキテクチャ改善、そしてそこから得られた教訓を詳しく解説していきます。
背景:金融機関の厳しい要件とクラウドへの移行
Erste Groupは、中東欧を中心に事業を展開する大手金融グループです。彼らは旧来のオンプレミスデータ分析基盤からの脱却を目指し、クラウドファースト戦略を掲げていました。その中で、SaaS、PaaS、IaaSの順でソリューションを検討した結果、最終的にAzure Databricksを選択したと語られています。
金融機関である以上、その道のりは平坦ではありません。特に欧州ではGDPR(一般データ保護規則)をはじめとする厳しい規制への準拠が絶対条件です。そのため、プラットフォームの設計においては、以下の要件が課せられました。
- 厳格なデータ分離:各事業体(エンティティ)のデータを法的・コンプライアンス上で厳密に分離
- 堅牢なセキュリティとガバナンス:アクセス制御、監査、データ損失防止(DLP)など
- 完全な自動化:Terraformを用いたIaC(Infrastructure as Code)によるインフラのプロビジョニングと構成管理
これらを踏まえ、彼らが最初に構築したアーキテクチャは、セキュリティを最優先したHub & Spoke構成でした。
初期アーキテクチャ:セキュリティ重視のHub & Spoke構成
Erste Groupの最初の設計は、Azureの代表的な「Hub & Spoke」ネットワークトポロジです。中央のHubにはファイアウォールや監視ツールなどを集約し、各DatabricksワークスペースはSpokeとして接続。GDPR要件を満たすために事業体ごとにサブスクリプションを分離し、ストレージも専用にコピーしてテナント間分離を徹底していました。
この構成はセキュリティ面で強固に見えたものの、運用開始後すぐにパフォーマンスとコストの深刻な課題を露呈します。
顕在化した課題:悪夢の「Bootstrap timeout」と膨れ上がるコスト
利用者増加とデータ量拡大に伴い、Hub & Spokeのファイアウォールを介したネットワークがボトルネック化。Databricksクラスター起動時に「Bootstrap timeout」が頻発し、朝の一斉起動では10~30分以上かかるか、起動自体が失敗する事態に。また、全トラフィックがHub経由で走るためネットワーク転送料金が急増。さらに、事業体ごとに物理コピーしたストレージは元250TBから1PBに膨らみ、コスト配賦も複雑化していました。
この状況を打開すべく、Erste Groupは3段階のアーキテクチャ改善に着手します。
解決への3ステップ:段階的なアーキテクチャ改善
1年かけてフェーズごとの移行を実施。ユーザー影響を抑えるため、作業は業務外や週末に行われました。
フェーズ1:カタログ移行によるネットワーク最適化
課題:ワークスペースから共有ストレージへのアクセスがすべてHub & Spoke経由
アプローチ:Databricksのカタログ移行ツールで、ストレージアカウントを各ワークスペースのVNet内にクローン&切り替え
成果:VNet内完結の通信によりTransit Hubのネットワークコストが半減し、Bootstrap timeout問題が解消
フェーズ2:ワークスペース統合によるVNet設計の再構築
課題:異なる事業体間のデータ共有時に依然Hub & Spoke経由が必要
アプローチ:Terraformを用いて複数サブスクリプションに分散していたワークスペースを一つのVNet内へ集約。サブネットとNSGで論理分離
成果:VNet Peering不要によりデータ共有コストを削減
フェーズ3:サーバーレス化によるデータコピーの撲滅
課題:テナント分離のための物理コピーによるストレージ肥大
アプローチ:Azure Private Link対応のDatabricks Serverlessを導入し、Serverless SQL Warehouseでビューごとにアクセス権を設定
成果:物理コピーを廃止し、ストレージコストを大幅に削減。中央チームのコンピュートコストも低減
ベストプラクティスと教訓
- ガバナンスとネットワーク設計は一体で最適化すべき
- IaCがあれば大規模な段階的変更もスムーズに実行可能
- セキュリティ要件を満たす機能リリースを待ち、最適なタイミングで新技術を導入する勇気
成果と今後の展望
約1年の改善後、Erste Groupのデータプラットフォームはセキュリティ・パフォーマンス・コストの面で最適化されました。現在では120名以上のユーザーが利用し、マネーロンダリング対策モデルや2,000人超が利用するGenAIチャットボットなど、複数の本番アプリケーションが稼働中。ネットワークコストや中央チームのコンピュートコスト、ストレージコストをいずれも大幅に削減し、クラウドデータプラットフォームの「旅」が続く意義を示す事例となりました。