AI-OCRは、機械学習や深層学習といったAI技術を活用するOCR(光学的文字認識)技術だ。RPAと連携することで自動化の範囲を押し広げるものとして注目が集まる。果たしてその実力とは? OCRとの違いや失敗しない製品選定のポイント、導入の注意点を解説する。
企業の働き方改革や生産性向上を後押しする「RPA(Robotic Process Automation)」が注目を集めているが、それに伴い「AI-OCR」という技術も脚光を浴びるようになってきた。AI-OCRは、その名の通りOCR(Optical Character Recognition:光学的文字認識)にAI(人工知能)技術を組み合わせたもので、RPAと組み合わせることで広範な業務の自動化が可能になる。
OCRとは、紙の書類をスキャンした画像データや、PDFなどの画像ファイルの中に含まれる文字(の画像)を自動的に読み取り、コンピュータで扱える文字データに変換する技術だ。例えば、紙の書類の内容を人間が読み取り、システムに入力するような業務の場合、OCRで書類の内容を自動的に読み取り、その結果をRPAでシステムに自動入力するという活用方法が考えられる。
OCRの歴史は古く、既に多くの分野で実績を上げている。しかし、いまだ制約も多く、一般企業の業務に適用するには汎用性や費用対効果の面で課題もあった。AI-OCRは、近年発展が目覚ましいAIの技術、特に機械学習やディープラーニングの成果を応用することでOCRの精度や汎用性をさらに高め、より広範な用途への適用を目指す技術だ。
本稿では、多くの企業においてOCRやRPAの導入を支援し、近年はセミナーやカンファレンス講師も務めるビッグツリーテクノロジー&コンサルティングの茅田宗宏氏に話を聞き、AI-OCRと従来のOCR技術との違いや製品選定のポイント、導入の注意点といった内容についてまとめた。
OCRの機能を評価する際に、最も重要視されるのが「文字の読み取り精度」だ。ここでいう「精度」とはまず、活字や手書き文字をどれだけ正確に認識できるかを指す。文字認識の技術は既に長い歴史を持ち、少なくとも活字で記された文字の読み取りに関しては実用レベルに達している。
紙の汚れが少なく、きれいにスキャンされた画像であれば、9割以上の精度で文字を正しく読み取れるのだ。後述するが、手書き文字に関しても、機械学習やディープラーニング技術の応用が進んだことで、急速に認識精度が向上しつつある。
ただし、実用を考慮した場合のOCRの精度は、文字認識率だけでは決まらない。もう1つの要素である「場所特定率」も、最終的な読み取り精度を大きく左右する。場所特定率とは、その書類や帳票の中の「どの部分を読み取ればいいのか」を正しく特定できる確率を表す。
例えば申込書や調査票といった、レイアウトがあらかじめ決まっている帳票をOCRで読み取る際は、帳票内のどの部分に金額や取引先名といった情報が配置されているのかをあらかじめ定義し、認識すべき文字が紙のどこにあるのかを特定する。
定義の方式は大きく分けて2つある。1つは座標によって、読み取る対象が紙のどこに位置しているかを定義する方法だ。「紙の端から○○センチの場所に読み取り対象がある」といった情報を指定しておき、その位置情報を基に適切な場所から文字を抽出できるようにする。もう1つは、読み取り対象の近くにあるキーワードを登録しておく方法だ。例えば「合計金額」という文字を登録しておき、そのキーワードを基に、周辺の数字を金額データとして抽出できるようにする。これらの2つ方式を組み合わせることも考えられる。
請求書や見積書、注文書などのように、会社によってレイアウトが異なる帳票の場合、「どこに何の情報があるのか」それぞれのレイアウトパターンを定義しなければならない。また、文字を読み取る際は「この帳票はどの会社から送られてきたものなのか?」「あらかじめ定義してある複数のレイアウトパターンのどれに相当するものなのか?」を認識する必要がある。これが正しく認識できて初めて、その帳票に配置された文字や数字も正しく読み取れるようになる。
現在、多くの企業が請求書の入力業務に人手を費やしており、その自動化や効率化のためにRPAやAI-OCRの導入を検討しているが、文字認識率だけでなく、場所特定率も考慮して製品やサービスを選ぶ必要がある。
AI-OCRが従来のOCRと一線を画すのは、前項で挙げた「文字認識率」と「場所特定率」において、機械学習やディープラーニングなどのAI技術を適用して精度を向上させている点にある。
文字認識率においては、特に手書き文字の認識処理にAIを応用することで、その認識率が各段に上がった。
場所特定率に関しては、さまざまなレイアウトの帳票に対して「どの場所にどんな文字データが配置されているか」を、AIを使って自動的に判別する。請求書であれば、複数の請求書の形式をAIに学習させることで、記載されているキーワードや座標、周辺情報などの要素を基に、「合計金額や納品日が紙のどこに記載されているか」を判断できるモデルを作成する。
文字認識率におけるAIの応用は既にある程度進んでおり、技術も成熟しつつある。一方、場所特定率を上げるためのAI活用は、技術革新が著しい。実際に、ディープラーニングを用いて場所特定率を向上させるための技術開発にさまざまなベンダーがしのぎを削っており、日進月歩で進化を遂げている。とはいえ、現時点では、人間のように異なるレイアウトパターンの帳票を自在に見分けられるレベルにまでは至っていない。
AI-OCR製品は、この文字認識率と場所特定率に対するアプローチの方向性によって、幾つかのタイプに分類できる。RPAやAI-OCRを使った業務改善ソリューションで豊富な実績を持つビッグツリーテクノロジー&コンサルティングは、この分類を「定型帳票にのみ対応か、準定型帳票にも対応しているか」と「活字中心か、手書き文字にも対応しているか」という2つの軸で行っている。
ここでいう「定型帳票」とはレイアウトがあらかじめ決まっている帳票、「準定型帳票」とは、企業ごとや種類ごとにレイアウトが異なるものを指す。従来のOCRが主にカバーしていたのは、「定型帳票で、かつ活字中心」のエリアだ。そして現在、ほとんどのAI-OCR製品が志向しているのが「定型帳票で、かつ手書き文字に対応」と「準定型帳票で、かつ活字中心」の2つのエリアである。
前者は文字読み取りのハードルが高くなる一方、定型帳票なので場所特定のハードルは低い。一方後者は、準定型帳票なので場所特定のハードルは高くなるが、活字中心なので文字認識のハードルは低い。つまり、文字認識と場所特定のどちらかにおいてAI技術によるチャレンジが求められる一方、もう片方は当初から高い精度を確保しておくことで、全体として一定の精度を維持しようという狙いだ。なお前者はクラウドサービスとして、後者はオンプレミス型のサービスとして提供されることが多い。
では、「準定型帳票で、かつ手書き文字にも対応」というエリアはどうだろうか。このエリアは実用レベルの精度に達することは相当にハードルが高い。しかしAI-OCRベンダーの中にはこのエリアへのチャレンジを始めた企業もあり、ディープラーニングを使った場所特定率の向上に力を入れることで実用レベルの精度達成を目指している。
なお帳票の種類には定型と準定型以外にもう1つ、メールや契約書のように完全フリーフォーマットで書かれた「非定型帳票」もあるが、こちらを読み取るOCR技術はまだ研究開発の段階であるため、自然言語処理など別のAI技術との組み合わせによって、精度を高めるアプローチも検討したい。
AI-OCR製品を導入するに当たっては、自社において「どんな帳票を読み取って、どのように処理したいのか」をしっかり決めておく必要がある。その上で、その帳票のフォーマットや種類に応じて、さまざまなタイプのAI-OCR製品の中から適したものを選択し、PoC(概念実証)を実施する。
なお、OCR製品の導入につまずくパターンの1つに、「事前にサンプルの帳票を使ってテストしたところ、高い認識率を示したので導入したが、本番では実用レベルに耐えられなかった」というものがある。こうした事態に陥る主な理由は、実際の業務で扱う帳票の種類やパターンをきちんと把握できていなかったことにある。ある1つの帳票でテストを行って高い読み取り精度を達成できたとしても、それ以外の帳票でまったく同じ結果が得られる保証はない。
どれだけの種類の帳票を処理する必要があるのか。それらは定型帳票なのか、準定型帳票なのか。手書き文字を含んでいるのかどうか。こうした点をあらかじめきちんと整理した上で、ニーズに合致する製品を選ぶようにしたい。
たとえ自社のニーズに沿う最新の製品を選んだとしても、理論上は100%の読み取り精度を達成することは不可能だ。そのため、AI-OCR製品による読み取り結果を人間がチェックし、間違っている部分を手動で修正する必要がある。このチェック・修正作業をどのタイミングで実行するかによって、業務全体の効率が大きく変わってくる。例えばデータ入力作業であれば、システムにデータを入力する前にチェック・修正作業を行い、データの正しさをしっかり確保しておく必要がある。一方、債権の消し込みなど、データ突合系作業の場合は、システムにデータを入力し、その出力結果を基に最終処理を行うため、最終処理の時点で「きちんと読みとりができていたか」もあわせてチェック・修正作業を行った方が業務全体として効率がいい。
このように、AI-OCR製品を導入する際には、ただ製品単体の読み取り精度だけに注目するのではなく、それを適用した業務全体のフローを見渡しながら、作業効率や費用対効果を評価する必要がある。
AI-OCRをRPAと組み合わせて導入することを考えれば、確かにシステム入力作業の工数を大幅に削減できるものの、一方で紙の帳票をスキャンする作業や、AI-OCRの読み取り結果をチェックする作業が新たに発生する。こうした工数増加を加味しても工数削減効果を得られるのか、あらかじめ慎重に検討しておく必要がある。
一般的には、人手で行っていた作業の規模が大きければ大きいほど、AI-OCRとRPAの導入による工数削減効果も大きくなる。逆に、削減できる入力作業の工数より、スキャンやチェックなど新たに増える工数の方が上回りそうな場合は、導入を見送った方が無難だろう。
AI-OCR製品をそれ単体で評価するのは、実はあまり意味がない。RPAなど他のソリューションと組み合わせ、既存業務のどの部分に適用し、業務全体としてどのような導入効果が得られるかを、事前に慎重に見定める必要がある。場合によっては、AI-OCRやRPAの導入効果を高めるために、既存業務に手を加えることも検討する必要があるだろう。
前出のビッグツリーテクノロジー&コンサルティングをはじめ、RPAやAI-OCRの導入実績を多く持つベンダーは、こうした全体最適の観点に立ったAI-OCR導入に長けている。実際にAI-OCRの導入で高い効果を達成した企業も多い。例えばある大手モーゲージバンクでは住宅ローン申し込み業務の効率化のためにOCRとRPAを導入し、同時にその導入効果を最大化するために既存の業務フローにも修正を加えた結果、作業時間を6分の1にまで削減できたという。
ただしこうした効果を得るには、前述のように単なる「ツール導入」ではなく、「業務全体の改革」という観点に立って計画を立てる必要がある。文字認識精度を強調するAI-OCRソリューションも見られるが、そうしたミクロの数値に必要以上にとらわれることなく、マクロな観点からソリューションを提案・実行できるベンダーと組むことをお勧めしたい。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。