はじめに
グローバルData+AI事業部 Lakehouse部 西野です。
最近、「データ×AIって便利そうだけど、実際どう活用すればいいのかイメージが湧かない…」という声をよく耳にします。
実際にお客様とお話しする中でも、「何にどう活用すればよいのか」「具体的な課題にどう結びつけるべきか」といった点で悩まれているケースは少なくありません。
確かに、話題にはなるものの、現場での具体的な使いどころが見えにくいというのが正直なところ。
そんな中で、Databricksからベータ版として登場した「ナレッジアシスタント」は、まさにそのギャップを埋めてくれそうな機能だと感じました。
ナレッジアシスタントは、Databricksが提供するAI機能の一つであり、組織内に蓄積された膨大なドキュメントの情報をもとに、ユーザの問いかけに対して 自然な対話形式で回答を返すAIアシスタントです。
単なるFAQツールとは異なり、生成AIの特性を活かして柔軟な質問にも対応できる点が、大きな特徴です。
今回は、このナレッジアシスタントの実力を検証すべく、フォーマットの異なる請求書を用意し、ノーコードでどこまで正確に情報を抽出・活用できるかを試してみました。
検証準備
今回の検証では、監査対応の業務シーンを想定し、過去の請求に関する情報取得をナレッジアシスタントを用いて実施してみようと思います。
以下に、ナレッジアシスタントで参照するファイルのフォーマット、記載レイアウトがそれぞれ異なる複数の請求書サンプルを10件用意しました。
各請求書の記載内容及び特異点については次の通りです。
| パターン | 請求先 | 金額(※) | 発行日(※) | 支払期限(※) | 拡張子 | その他特異点 |
|---|---|---|---|---|---|---|
| A | 株式会社テスト商事 | ¥150,000 | 2024年6月1日 | 2024年6月30日 | - | |
| B | Test Trading Inc. | JPY 150,000 | June 1, 2024 | June 30, 2024 | 英語表記 | |
| C | 株式会社デモ | 120,000 | 2024年5月25日 | 2024年6月20日 | メール本文混入 | |
| D | サンプル株式会社 | 100000 | 2024/06/01 | 2024/06/30 | 発行日ではなく請求日 | |
| E | 株式会社ミライ技研 | 150,000円 | 2024年6月1日 | 6月30日 | 項目が本文べた書き | |
| F | FutureTech Co. | ¥98,000 | 1-Jun-2024 | 30-Jun-2024 | 英語表記 | |
| G | テスト株式会社 | 120000円 | 2024年5月15日 | 6月15日 | 発行日ではなく請求日 | |
| H | 株式会社キカク | ¥132,000 | 2024年5月31日 | 2024年6月25日 | txt | - |
| I | 株式会社クロスリンク | ¥250,000 | 2024/06/01 | 2024/06/30 | txt | "連絡"、"備考"等の補足項目有 |
| J | テスト株式会社 | ¥180.000 | 2024/6/1 | 2024ー6ー30 | txt | フォーマット崩れ |
※本検証では、金額や日付にかかる表記の揺らぎも含めて検証対象としています。
ご確認いただけるように、フォーマットやレイアウトに一貫性が欠けていますが、これらのファイルをDatabricks上のボリューム(ストレージ)にアップロードし、アップロード後は特別な前処理や構造化作業を行わず、そのままナレッジアシスタントに読み込ませる構成としています。

次に、Databricks UIからPlaygroundセッションを起動します。
ナレッジアシスタントの設定画面のナレッジソースにて前述のVolumeを指定してエージェントを作成すると、自動的にボリュームの同期が開始されます。

また、上記で作成したエージェントでPlaygroundセッションを開始するためには、エージェントの準備完了に加え、ナレッジソースの同期に成功している必要があります。
初回エージェント登録時にはこの同期処理に数分程度の時間を要するため、下記ステータスについても併せて注意する必要があります。

以上がナレッジアシスタントによるエージェントの作成手順となります。
検証結果と考察
本章では、前述のエージェントにて実際にチャットUIで問い合わせを行い、結果の確からしさについて考察します。
- 請求情報の一覧化
- 企業名による選択抽出
- 請求金額の合算集計
「請求期限日順に、請求書発行日、請求先企業名、請求額を表形式で出力してほしい。」とエージェントに問い合わせた結果は以下の通りです。

ここでソートキーに使っている「請求期限日」という用語についても、帳票によって「支払期限」、「Payment Due Date」、「支払いは~までに…」等、表現の揺れが見られましたが、すべての請求書を正しくソートできており、柔軟な表現認識ができていることが確認できました。

対象企業の明細を漏れなく取得できていることはもとより、先ほどの例で「請求書発行日」としていた内容がパターンGでは「請求日」、パターンJでは「発行日」となっています。 このことから、問い合わせの都度、ナレッジソースの情報を正として回答が生成されていることがわかります。
上述の検証では単票ごとの明細情報を取得してくる内容でしたが、以下では複数の明細を選択したうえで、値を合算した結果を返すような問い合わせを行っています。

「企業別の請求金額合計を確認したい」という問いに対し、AIはフォーマットの崩れたパターンJを含め、重複する「テスト株式会社」(G:120000円、J:¥180.000)のデータを正確に抽出し、合計金額を正しく算出しました。 また、名称が類似しているものの異なる法人である「株式会社テスト商事」(A:¥150,000)については、誤って集計対象とすることなく、別法人として個別出力されました。
以上の検証を通じて、ナレッジアシスタントはフォーマット差異や表記揺れに強く、実務で発生しがちな多様な帳票パターンにも十分対応できるポテンシャルを有していることが確認できました。
特に、異なる言語表記やレイアウト崩れといった実務で頻出する課題にも対応できた点は大きな収穫です。
今回は技術的な検証を行うという目的だったため、シンプルな請求書をサンプルとして検証を行いましたが、請求書に限らず、契約書・議事録・マニュアルといった他種のドキュメントにも応用が効くと考えられ、ドキュメント検索から「活用」へと進化する基盤としてのポテンシャルがあるのではないでしょうか。
おわりに
ナレッジアシスタントは、ノーコードかつ柔軟な対話インターフェースを通じて、業務知識の活用を一段と加速させる可能性を秘めたツールです。
一方で、実運用を見据える際には注意すべき点もあります。たとえば、ナレッジソースとして取り込む文書には、機密情報や個人情報が含まれるケースも少なくありません。
また、Databricksはクラウドネイティブなプラットフォームであるため、利用環境そのものに対するセキュリティ設計やガバナンスの確保も欠かせません。
このような背景を踏まえ、私たちはDatabricksの活用支援にとどまらず、AWSやAzureをはじめとしたクラウドインフラ全般に関する豊富な知見を活かし、セキュリティ対策を含めたインフラ全体の設計・運用まで一気通貫でご支援しています。
ナレッジアシスタントのような生成AIツールの導入・定着化においても、PoC段階から本番運用、さらには自社での内製化を見据えた体制づくりまで、実践的かつ現実的な伴走支援が可能です。
生成AI活用を安全かつ効果的に進めていきたい企業の皆様にとって、少しでも参考となれば幸いです。
私が所属するLakehouse部では一緒に働いていただける仲間も募集中です! データエンジニア/データサイエンティストとPMを募集しております。
カジュアル面談または下記の求人一覧からのご応募をお待ちしております。
https://hrmos.co/pages/ap-com/jobs?category=1966482541417734144,1627168775956385793