OCRフリーソフトの読み取り精度は?「GT Text」を試してみる

dictionary-1149723_1280

何故かと聞かれると特に理由はありませんが、なにげに面白そうなソフトは無いものかと窓の杜を物色していたらたまたま目についたのがこの「GT Text」だったわけで。「そういやOCRソフトなんてしばらく使ってなかったけど、少しは読み取り精度とかマシになったのかねぇ…」という事で、早速ですが試してみる事にしました。

スポンサーリンク

気軽に使えそうな感じなのが良い

スキャナから用紙を読み込んで~とかだったら面倒なので試してみようとは思いませんでしたが、画像をD&Dして読み取りたい範囲を指定してやるだけという手軽さが気に入りました。

この「GT Text」は画像ファイルからテキストを抽出するという比較的特殊なソフトと言えるので全く必要の無い方もいるでしょうけど、今までにこの機能が欲しいという状況が全く無かったわけでも無いので、これを機会にちょっと試してみるのも悪くはないなと、そんなところです。

「GT Text」のダウンロードとインストール

こちらのサイトからダウンロードする事が出来ます、現在の最新バージョンは2.0.2となっています。

インストール方法はスクリーンショットが必要なほど難しくありませんので、簡単に説明させていただく事にします。

  • 「I Agree」をクリック
  • 私の場合は自分専用PCなので下を選択して「Next」をクリック
  • 「Program Files」以外にインストールしたくないので私は変更しましたが、後で※のような記述を発見したので、他の方がインストールされる際には一応注意して下さいませ。
  • スタートアップメニューに追加するのでそのまま「Install」をクリック
  • すぐに起動するのでそのまま「Finish」をクリック

※本ソフトを標準のインストール先以外にインストールしていると、言語ファイルを正しく追加できないことがある。

確かにこの後で説明する言語ファイルはデフォルトのパスの方にインストールされてしまいましたが、私が使った限りではちゃんと認識してましたし、日本語の読み取りも出来たので動作上は特に問題は無さそうです。古いバージョンでの話だったのかも?

日本語用データのインストール

起動するとタブが2つ表示されているので、「eng」と書かれたタブの隣りにある「Add languages」タブをクリックします。

GT Text 英語の読み取り 4

するとポップアップ画面でツリービューが出てきますので、その中から「Download and install Japanese language data」を探してチェックを入れたら「Install」をクリックします。

尚「Japanese」の下にある「Jawanese」はジャワ語ですので、紛らわしいですが間違えないように注意して下さいな。

このデータは日本語ファイルとは言っても、アプリのメニューやダイアログを日本語化してくれるわけではなく、日本語の読み取りに使用するデータになります。

UIはお世辞にも良いとは言い難い

最近はフリーソフトでも「ホントにこれ無料のソフトなの?」と聞きたくなるくらいUI(ユーザーインターフェースの事です、念の為)が良く出来ているものも多いので、そういったソフトに比べると若干見劣りはしますが、読み取りの精度さえ良ければそんなものは問題ナッシンでしょう。

それでは「GT Text」の読み取り精度は?

当然、英語に比べたら日本語の方が複雑で読み取りは困難だろうというのは予想出来ますので、まずは英語で軽くテストしてみてから日本語を試してみる事にしてみます。

まずは英語の読み取り精度から

それではサンプルとしてWordPress.orgのトップページの一部を読み取らせてみました。

GT Text 英語の読み取り 1

タブの部分で読み取り言語を「jpn」と「eng」から選択出来るので、今は「eng」に設定します。

GT Text 英語の読み取り 2

次に範囲の指定になります。読み取らせたい範囲の開始位置でクリックしたまま対角線上にドラッグして終了位置で離すと読み取りが始まります。

GT Text 英語の読み取り 3

短い文章とは言え一字一句の違いもありません…やるじゃないですか!日本語に比べたら英語は元々読み取り精度が高いですが、それでもこの結果は素直にスゴイと思います。

結果がOKならここで「続行」をクリックするとクリップボードにテキストがコピーされるので、そのままテキストエディタなりに貼り付ける事が出来ます。

次は日本語の読み取り精度を

では次に日本語の読み取りを試してみようと思います。こちらはサンプルとして当サイトの投稿リストのスクリーンショットを使ってみました。

GT Text 日本語の読み取り 1-1

やり方は先ほどと同様で今度は「eng」から「jpn」に読み取り言語を変更して範囲指定してみました。

GT Text 日本語の読み取り 1-3

一瞬「おぉぅ?!」と思いましたがよーく見ると「エントリー」が「エシトリー」に、「書きました」が「喜きました」になっています…惜しい、非常に惜しい。でも私の予想の遥か斜め上を行く読み取り精度です。

もしかしたら文字が大きくなればその分読みやすくなるんじゃね?と思い、今度はブラウザ側である程度まで文字が大きくなるよう拡大してから撮ったスクリーンショットを読み取らせてみました。

GT Text 日本語の読み取り 2-1

さて、これだけ文字が大きければ…

GT Text 日本語の読み取り 2-2

「エントリー」の部分は直りましたが、今度は「書きました」が「害きました」、句読点の「、」が「ヽ」に、「現」が「王見」に分割されました…どうやら文字が大きければいいってもんでもなかったようです。

二回分の実行結果をテキストエディタに貼り付けてみました。

GT Text 日本語の読み取り結果

試行回数は少ないですが、これだけ出来れば及第点と言って良いかと思います。むしろ個人的には全く期待していなかっただけに予想以上の結果となりました。

意外と悪く無い「GT Text」の読み取り精度

フォントによる可読性の差はあると思いますが、英語の読み取り精度に関してはほぼ実用レベルと言っても良く、日本語に関してはまだまだ改良の余地はあるものの手打ちよりはずっと良いのでは無いかと思いました。今回のテストで使用した程度の文章量なら自分で打った方が早いかもしれませんが、作業量によってはこの「GT Text」を利用してみてもいいかもしれませんね。

読み取り精度を向上する為の工夫は必要

少しでも読み取り精度が高くなるようフォントの種類やサイズを変えてみたり、一気に長い文章を読み取らせようとせず文節ごとに細かく分けてみる等の工夫は必要かと思います。

画像ファイルや紙媒体からテキストファイルを作成するような事はそれほど頻繁には無いでしょうが、今後どこかで役に立つ場面もあるかと思いますので、今回のエントリーで紹介した「GT Text」以外のソフトもいずれ時間を作って試してみたいと思います。

スポンサーリンク

シェアする

フォローする

スポンサーリンク
トップへ戻る