検索
連載

無料、GPU不要、高精度 国会図書館が作ったOCRツールを触って試す【実践レビュー】

国立国会図書館が公開したOCRソフト「NDLOCR-Lite」が、GPUのない家庭用PCでも動作し、高精度に文字を認識できると話題になっている。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 国立国会図書館が実証実験プロジェクトサイト「NDL Lab」で、新しいOCRソフト「NDLOCR-Lite」を公開し、話題になっています。というのもこのNDLOCR-Liteは、GPUがない一般的な家庭用ノートPCでも高い精度で画像から文字を読み取れるとのことです。

 高精度なOCRが安価なPCでも動作するなら、どんな企業でも紙で保存されたデータをデジタルデータにして活用できるかもしれません。

無料で軽快に高精度 国会図書館のOCRソフトの使い方

 国会図書館は以前も「NDLOCR」というOCRツールを公開しており、今回のNDLOCR-Liteはその軽量版に当たります。GitHubの配布ページから無料でダウンロードして利用できます。ライセンスはCC BY 4.0で、クレジットを明示すれば商用利用もできます。

photo
「NDLOCR-Lite」のスクリーンショット

 うれしいのは、動作環境としてWindows、MacOS、Linuxに対応している点です。GPU不要でOSも一般に使われているものは網羅しており、安定して動作するだけのスペックがあればどんな環境でも動作します。クラウドで処理しているわけでもないため、インターネットに接続する必要もありません。

 ITエンジニア以外はGitHubを見ると萎縮してしまうかもしれませんが、NDLOCR-Lite本体はGUIのある一般的なデスクトップソフトウェアなので、利用するにあたって難しいことはありません。

精度はいかほど? 筆者の“汚文字”を読ませてみた。

 早速画像から文字を抽出してもらいましょう。まずはこちらの画像です。筆者ができるだけ汚く書いた実在しない電話番号です。走り書きだと、0と6が判別しにくくなることがありますよね。認識させたい画像ファイルとテキストの出力先フォルダを指定して「OCR」ボタンを押せば

photo
入力した画像。筆者がペイントソフトで手書きしたもの

 NDLOCR-Liteの出力は「090-1234-56789」と、正しく認識されました。処理時間は0.66秒でした。続いて、架空の領収書を入力してみます。こちらも字は汚いですね。商品代の「代」は草書のようになっています。

photo
入力画像。税率や発行元の表示は省略

 こちらは正しく認識されませんでした。筆者が書いた部分が文字ではないと判断されたのかもしれません。こういった場合は「Crop&OCR」で、文字を抽出したい箇所をマークすると正しく認識されることがあります。

photo
見にくいが、金額と「商品代」以外の文字は認識できている

 金額と商品代という文字列はそれでも読めなかったようです。これらはCrop&OCRでも正しく読めませんでした。字が汚すぎたようです。ビジネスの現場では考えにくいですが、くずし字や草書などは正確に読み取れないため、古文書に特化した「NDL古典籍OCR」を使うのが適切です。

photo
読み取れない文字の例。筆者が草書フォントをまねて書いた「情報技術媒体」。NDLOCR-Liteでは「おおれおやん」と認識された

 実際にはCrop&OCRを押さないといけない状況であれば、目視で文字起こしした方が作業時間が短くなるでしょう。この他、PCの画面を直接キャプチャして文字起こしする「キャプチャモード」もあります。

 今度はカメラやスキャナーなどで取り込んだ長文を入力してみましょう。こちらの画像は1940年代に作成された「労働基準法草案」です。国立公文書館デジタルアーカイブでパブリック・ドメインとして提供されている画像です。

photo
「労働基準法草案」(国立公文書館デジタルアーカイブ)
photo
認識結果。旧字体や汚れに惑わされた形跡がある

 処理時間は1.18秒でした。現在との書体の違いや汚れなどの不利がある中、526文字中16文字にミスが見つかりました。同じ画像をGoogleの「Gemini」でも文字起こしさせてみると、Geminiの方が高精度に見えるのですが「身体」と書いてあるはずのものを旧字体で読み取っていたり、「第五條ノ二」と書いてあるものを「第6條」と読み取っていたりします。これはおそらく単なるOCRではなく「労働基準法草案」という情報や、それが1940年代の書類であるという背景から勝手に補正しているような気がします。

 逆にNDLOCR-Liteは文脈を考慮はしていないようで、文脈を見ればより正確に読み取れそうな箇所も見えた通りに読み取っている印象があります。いずれにしても手作業よりは早そうです。

 NDLOCR-Liteは複数の画像をまとめて処理することもできます。画像が保存されているフォルダを指定して実行すれば、画像一つ一つについて読み取ったテキストを個別に出力します。ためしに筆者がこれまでの記事に掲載してきた画像のうち、文字が含まれるものを20枚まとめて入力しました。これらの中には、イベントにてモニターに表示されたスライドを写真に収めたものや、AIが出力したプログラムをスクリーンショットとして保存したもの、スペック表などの画像が含まれます。処理時間は31.76秒で、精度も十分でした。

なめてはいけないOCR 安い早いうまい国会図書館

 OCRは画像をテキストに変換するシンプルなツールですが、AI時代においてなめてはいられません。「ChatGPT」をはじめとする汎用AIチャットサービスは、そのままでは自社の背景情報を知らないため、基本的には一般論しか生成できません。社の事情を把握した仕事で実践的に使えるAIチャットbotを作るには社内のデータが必要になります。AIは紙で管理されておりデジタル化されていないデータにアクセスできません。こういった資源をAIに接続して活用できるかが企業の差別化要因になりえます。

 そんな中、OCRツールは無料のものからサブスクリプションプランで提供される高精度なAIOCRまで幅広い選択肢があります。NDLOCR-Liteは無料で軽快で高精度という“安い早いうまい”の立ち位置にいるツールです。データガバナンスを考えると、近年はデータが外部もしくは海外に出ることがないことを重視する企業もありますから、インターネットに接続しなくても使える点もメリットになるでしょう。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る