ChatGPTのGPT-4 Vによって画像の読み取りを元にした文書生成ができるようになった話を聞いてから、UML（システム開発の各種図面）読み取って開発生産性を向上する何かできないかなと思っておりました。実際に読み取ってみて可能性を探ったメモです。

開発に限らず構成図や各種図面とChatGPTの連携を検討されている方向けです。

クラス図をGPT-4 Vに渡して、クラスの内容を列挙させるというものです。

期待される結果は

と出力されることです。

検索して取得した以下のlucidchartというサービスの画像を利用いたしました。

名前も数も間違っておりました。

間違え方を確認すると、

管理者がユーザー管理

になるなど実態とは違った補完かかっており、データとしての読み取り時に欠損が出ていることがうかがえます。

読み取りがうまくいかない原因について、ChatGPTに確認を依頼するとOCR後のデータを出力しました。画像を見ると一目瞭然で原因は画像の読み取りが粗く文字がつぶれていることが確認が取れました。これでは、複雑な漢字が図面に入っていると読み取りが難しいですね。

追加の検証として、ハードルを下げて先ほどの画像から１つのクラスだけを切り抜いたものを読み取れるか検証しました。

ショッピングカートに記載されている内容がすべて出力されること。

期待に従い正しく出力される。

UMLの読み取りなどの図面を読み取る場合、GPT-4 Vが使用するOCRの性能では

となりますので各種図面の読み取りでの実用的なアプリや機能は厳しく、精度の高い専用OCRが必要となってくると考えます。

ACS事業部のご紹介

私達ACS事業部はAzure・AKSなどのクラウドネイティブ技術を活用した内製化のご支援をしております。

また、一緒に働いていただける仲間も募集中です！
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。

本記事の投稿者: 大久保直紀
AKS/ACAをメインにインフラ系のご支援を担当しています。 Naoki Okubo - Credly

APC 技術ブログ