はじめに
ChatGPTのGPT-4 Vによって画像の読み取りを元にした文書生成ができるようになった話を聞いてから、UML(システム開発の各種図面)読み取って開発生産性を向上する何かできないかなと思っておりました。 実際に読み取ってみて可能性を探ったメモです。
開発に限らず構成図や各種図面とChatGPTの連携を検討されている方向けです。
検証内容
クラス図をGPT-4 Vに渡して、クラスの内容を列挙させるというものです。
投入画像と期待値
期待される結果は
- ショッピングカート
- ユーザー・顧客
- ユーザー
- 管理者
- オーダー
- オーダー情報
- 配送情報
と出力されることです。
検索して取得した以下のlucidchartというサービスの画像を利用いたしました。
5分でわかる、UML クラス図 とは?書き方もご紹介 | Lucidchart
結果
名前も数も間違っておりました。
間違え方を確認すると、
管理者がユーザー管理
になるなど実態とは違った補完かかっており、データとしての読み取り時に欠損が出ていることがうかがえます。
原因
読み取りがうまくいかない原因について、ChatGPTに確認を依頼するとOCR後のデータを出力しました。 画像を見ると一目瞭然で原因は画像の読み取りが粗く文字がつぶれていることが確認が取れました。 これでは、複雑な漢字が図面に入っていると読み取りが難しいですね。
追加検証
追加の検証として、ハードルを下げて先ほどの画像から1つのクラスだけを切り抜いたものを読み取れるか検証しました。
投入画像と期待値
ショッピングカートに記載されている内容がすべて出力されること。
結果
期待に従い正しく出力される。
まとめ
UMLの読み取りなどの図面を読み取る場合、GPT-4 Vが使用するOCRの性能では
- 複数のエンティティやコンポネントを含んだ一般的な図面の読み取りは厳しい。
- 一般的な図面の場合、日本語の場合目検で無理だと判断できるレベルで文字が潰れがち。
- 図面を分割して各部品レベルの読み取りは可能。
となりますので各種図面の読み取りでの実用的なアプリや機能は厳しく、精度の高い専用OCRが必要となってくると考えます。
ACS事業部のご紹介
私達ACS事業部はAzure・AKSなどのクラウドネイティブ技術を活用した内製化のご支援をしております。
また、一緒に働いていただける仲間も募集中です!
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。