5月13日、OpenAIが発表した新たな生成AIサービス「GPT-4o」。
これまでのテキストを中心としたデータだけでなく、音声・視覚などの処理も可能となり、大きな話題となっています。
多くの機能強化の中でも、RPAと組み合わせて業務に活用するうえで注目したいのが日本語のOCR精度の大幅な向上です。
GPT-4oはOCRツールとして十分に活用できるレベルになっています!
そこで今回は、OCRの精度検証と、RPAと組み合わせて使用するヒントを詳しく解説します。
目次
GPT-4oとは
今回発表された、GPT-4o(ジーピーティーフォーオー)の大きな特徴をまとめました。
処理できるデータ種類の増加
今までもテキストデータだけでなく、音声・画像データ等の処理が可能でしたが、現バージョンから「日本語OCR」読取精度が大幅に強化されました。
また、日本語だけでなく、新しく20の言語にてより複雑な対応ができるようになりました。
処理速度の大幅な向上
従来のChatGPTでも高精度な解答が出ていましたが、音声データ処理時などはデータを入力してから数秒間待機時間が発生していました。
複雑な処理にかかる時間が大幅に短縮されたため、問い合わせの回答が瞬時に表示されるようになりました。
実際利用した所感としても、明らかに処理速度が上がっていることを体感しています。
料金体系の変更
これまでは無料ユーザーはGPT-3.5しか利用できませんでしたが、今回のバージョンアップにて無料ユーザーもGPT-4oを使用できるようになりました。
GPT-4oの有償プラン(Plusユーザー)は無料ユーザーと比較して以下の特徴があります。
・無料ユーザーと比較し、利用回数制限が緩和されている。
無料ユーザーにて一定回数以上の利用をすると制限がかかるが、Plusユーザーの場合、無料ユーザーの5倍の利用が可能
・画像生成が可能
・音声会話が可能
・ユーザーの業務や関心に特化したカスタムGPT(GPTs)の作成が可能
情報漏洩を防ぐオプトアウト申請:大切なデータを読み込ませる前に
検証に入る前に、GPTのオプトアウト申請について触れておきます。
オプトアウト申請とは、GPTに読み込ませたデータGPTの学習に使用しないようにするための申請です。
API連携は再学習に使用されないが、チャット(ChatGPT)では再学習に使用されてしまうため、大切なデータを漏洩させないために非常に重要な設定です。
オプトアウト申請手順
オプトアウトの設定方法は、2通りあります。
(1)ChatGPTの設定画面で設定
メリット:
・設定が簡単。オプトアウト設定や解除が容易に変更できる。
デメリット:
・オプトアウト設定を行った場合、30日以上前のチャットを確認できない
・端末ごとの設定が必須
(2)専用の申請フォームからオプトアウト申請
メリット:
・チャット履歴が永続的に残る
・アカウント毎にセキュリティ対策が出来る
デメリット:
・オプトアウトの解除設定の手続きが少し面倒
今回は、「(1)ChatGPTの設定画面で設定」の手順を解説します。
① ChatGPT画面左下の「ユーザー名」>「設定」をクリック
②「データコントロール」>「すべての人のためにモデルを改善する」をオフに切り替え
OCRの精度検証
それでは、GPT-4oによるOCRの精度を検証していきます。
日本語は文字の種類が非常に多く、読み取りが難しいと言われます。
GPT-4等でもよく読めてはいたものの、業務で使用するにはまだ難しいという感覚でした。
活字データの読み取りテスト
活字のテストデータには、当社の著書から表形式の画像を用意しました。
<読み取った画像>
<読み取り結果>
赤枠の部分が読取ミスがあった箇所になります。
ほとんどの文字が正しく読み取られ、表形式のまま保持できていることがわかります。
一方で、郵便番号に誤りが多いようです。
GPTは意外にも数字に弱いのかもしれません。
手書き文字の読み取りテスト
次に、手書きデータの読み取りをテストしてみます。
手書きデータのテストは2つ用意しました。
①アンケート用紙
まずはアンケートを元に読取精度をテストしてみます。
<読み取った画像>
<読み取り結果>
通常のOCRで読み取りづらい、選択肢の○を読み取ってくれることに驚きです。
文字も100%ではないものの、他のOCRツールと比較しても遜色のない高い精度で読み取れているようです。
②行動予定表
次に、オフィスのホワイトボードで使われるような行動予定表の読み取りを検証してみます。
<読み取った画像>
<読み取り結果>
こちらは非常に高い精度で文字を読み取っている一方、”直帰”の読み取りの行・列がずれてしまいました。
検証してみて
読取検証を行った結果、全体的に高い精度で読み取ることができたように思います。
さらに、選択肢の○を読み取れることは、OCRツールを使用している方にとって驚きだったのではないでしょうか?
その一方、数字の誤りや行・列のずれなど、意外なところで誤ることがありました。
これは、生成AIは通常のOCRツールと異なり、読み取ったデータをもとに内容を予測・生成することが得意だからと考えられます。
文字を読み取った際など、全体の文章から推測して文章を生成しているため、全体の文章は違和感がないけど、全く違う文字に変換される、ということがありました。
他OCRツールと同じく、人の目でチェックすることは必要になりそうです。
RPAとの連携
RPAが処理しやすい形式で出力する
RPAは人間のチャットと異なり、決まった形式で情報を受け取ることが求められます。
生成AIの出力とRPAを連携させるには、出力形式を指示して決まった形式で出力されるように工夫することが重要です。
出力形式として、2種類考えられます。
・文字列で出力
・表形式で出力
それぞれの出力指示の仕方を見ていきましょう。
文字列で出力
読み取った項目のうち、一部の項目のみ抽出したい場合に便利です。
2つのプロンプトで、アンケートの総合評価を出力してみました。
左側の例では文章になっており、後続の処理で総合評価「2やや満足」のみを使用することは難しいかもしれません。
一方、#回答例#として出力方法の例を指示したプロンプトでは、評価結果のみが出力され、そのまま扱えるデータとなっています。
表形式で出力
表形式では、区切文字や列名を指定することで毎回同じ形式でデータを抽出しやすくなるようです。
以下の例のようにカンマ区切りで取得すれば、RPAの処理でcsv化することができます。
また、「前後のコメントは付けず、結果のみ出力してください」のように指示することで、余分な出力を避けることも重要です。
RPAとの連携プロセス例
安定した出力を得ることができれば、前後の処理をRPAで連携することで全体のプロセスを自動化していくことができます。
たとえば以下のようなプロセスで、RPAとの連携を実現することができます。
① 画像データを取得・GPTに読取指示
② 読み取り結果を取得
③ (手動)読取結果のチェック・修正
④ 後続の自動化業務処理(社内システムへの転記等)
この処理を応用すれば、社内システムやメールから画像データをダウンロードしてGPTに読み込ませ、出力結果を使用して業務を進める、といった業務の自動化を実現することができます。
なお、RPAで連携を行う際には、ChatGPTではなくAPI連携で実施することが一般的です。
まとめ
RPAの自動化は、多くの場合テキストデータであることが求められ、画像のようなデータを扱うことができません。
このようなデータを容易に扱えるツールは、自動化の幅をぐぐっと広げてくれます。
ご自身の業務データに活用できないか、検討の手助けになっていれば幸いです。
RPAの活用を支援するサービス「Robo Runner」
RPAの導入・サポートにご興味をお持ちの方はRobo Runnerのご活用を検討ください。
生成AIのサポートも開始しております!
コメントを残す