はじめに GLB事業部Lakehouse部の長尾です。 これから始まる本ブログシリーズでは、Databricks上でのdbt活用に役立つ実践的なTipsをお届けします。 初めてdbtに触れる方から、既に使い慣れている方まで、幅広い層に向けた内容となっています。 また、11月に…
はじめに GLB事業部Lakehouse部の長尾です。 これから始まる本ブログシリーズでは、Databricks上でのdbt活用に役立つ実践的なTipsをお届けします。 初めてdbtに触れる方から、既に使い慣れている方まで、幅広い層に向けた内容となっています。 また、11月に…
セッションの要約 本セッションは、UCバークレーのZhuohanとAnyscaleのCadeが主催し、両者はvLLMの開発において中心的な役割を担っています。vLLMは、Variable Large Language Modelの略で、UCバークレーが作成したオープンソースエンジンで、大規模言語モデ…
セッションの要約 ノルウェー最大の保険会社Gjensidigeは、OpenAI、Databricks、Streamlitを活用し、リスク予測や資産管理のためのインタラクティブなデータビジュアライゼーションとシミュレーションを実装済みです。国家移民局との戦略的パートナーシップ…
セッションの要約 データモデリングは、ビジネスデータを視覚的に表現し、企業がデータ活用を理解するための技術です。HubSpotのJason Zippro氏のセッションでは、データモデリングの基本概念と実装方法が紹介されました。データモデルには、概念的、論理的…
セッションの要約 このセッションでは、Aaron(Mosaic)とBruce Philp(マッキンゼー・アンド・カンパニー)が、GenAIアプリケーションのプロトタイプから完全なデプロイメントへの移行時に直面する課題について議論しました。具体的な課題として、スケーラ…
セッションの要約 本セッションは、企業が大規模言語モデル(LLM)をファインチューニングし、ビジネスアプリケーションに最適化する方法に焦点を当てました。具体的には、ビジネス課題の理解、データセットの生成、ハイパーパラメータの調整、モデル評価の…
セッションの要約 このセッションは、DatabricksがデータインテリジェンスプラットフォームとGenAIを活用してビジネス変革を推進する取り組みを紹介しています。特に社内変革とデータリテラシー向上を重視し、信頼性の高いデータ管理基盤を構築しました。小…
セッションの要約 本セッションでは、Databricksを活用したデータ製品の構築とその主要概念について説明されました。エキスパートのKarthikとPomeritがデータアーキテクチャ、セキュリティ、ガバナンスに関する洞察を共有し、信頼性の高いデータ製品の重要性…
セッションの要約 本セッションは、小型言語モデル(SLN)のエコフレンドリーなアプローチについて説明し、Databricksのデータプラットフォームの最新進展を探ります。イェジン教授は、GPT-2モデルの再評価とSLNの価値を強調しました。また、Delta LakeとUni…
セッションの要約 ラテンアメリカ最大の民間銀行Bradescoは、データメッシュアーキテクチャを採用してデータプラットフォームの近代化を進めています。セッションでは、プロダクション準備段階での技術的な課題とコミュニティ協力の重要性が強調されました。…
セッションの要約 本セッションは、Databricksアセットバンドルを使用したプロジェクト構築に焦点を当て、プロダクション準備段階での課題とコミュニティ協力の重要性を強調します。特にグローバルデータ統合(GDI)システムの実装が最大8ヶ月かかる複雑さを…
セッションの要約 ※ 本セッションに関する以下の記事は、本セッションの一部分のみの内容です。 本セッションは、Databricksでの安全かつ自動化されたテスト導入に焦点を当て、特にGitHubとAzureの統合を用いた設定方法を解説します。自動化テストは、コード…
セッションの要約 生成AIと大規模言語モデル(LLM)の運用は、データ管理、セキュリティ対策、スケーラブルなソリューションの実現など多くの課題を伴います。企業はこれらを克服し、効率的な運用フレームワークを確立することが必要です。適切な運用により…
セッションの要約 セッションは二部構成で、まず現行のAI規制について簡単に説明します。これにはプライバシー、差別、消費者保護法、EUのAI法、米国の州レベルの法規制が含まれます。後半では、アーロンとのQ&AディスカッションでAI規制の将来について議論…
セッションの要約 MLflowは、MLライフサイクル全体でモデル管理を標準化・簡素化するツールです。開発者David BriggsとBenの貢献で「Drain-A-Anim」機能が強調され、MLflowの将来の改善が期待されています。最新のバージョン2.11と2.12では、ダッシュボード…
セッションの要約 今日、私たちはオーストラリアとニュージーランド全域でAIを再現可能でスケーラブルな方法で実装するという重要なトピックについて深く掘り下げました。Mantel GroupとDatabricksからの広範な洞察を提供するこのセッションは、地域内でのAI…
セッションの要約 Apache Spark 4.0のリリースが近づいており、新機能やバグ修正によりユーザーエクスペリエンスが向上します。注目点はANSIモードとデータハンドリングの改善で、Sparknet GAの導入により多言語サポートが強化され、軽量なクライアントライ…
セッションの概要 LlamaIndexの共同創業者であるJerryが本セミナーを開催しました。この90分間のセミナーでは、参加者はJupyterノートブックを使用してRetrieval-Augmented Generation(RAG)システムの構築プロセスを学びました。RAG(検索拡張ジェネレーシ…
セッションの概要 WGU (Western Governors University)のMLOpsチームがDatabricksを用いたMLOpsプラットフォームの初期設計と課題について発表しました。設計段階では標準化プロセスの確立、ソースコントロールメカニズム、堅牢なモニタリングシステムの実装…
セッションの概要 このセッションでは、データ分析ツールの成長する世界について掘り下げ、これらの技術のパフォーマンスとTCO(総所有コスト)を評価するためのベンチマークの重要性を強調しています。 ベンチマークに関する詳細な説明 レイクハウスベンチ…
セクション概要 このセッションでは、大規模言語モデル(LLM)の予測不可能な性質を利用するシステムで信頼性を確保する方法について探求しました。LLMの応用が拡大するにつれて、ミッションクリティカルなビジネスオペレーションでの予測可能性と一貫性を達…
このセクションの紹介: クラウドプラットフォームの複雑な環境では、データの不一致は、組織が直面する一般的な問題です。このセクションでは、これらの問題を防ぎ、データ・インテグリティー(完全性/正確性)を保証するために、初期段階で堅固なガバナンス…