PDFファイルは画像として保存されてしまうため、文字による検索ができません。
しかし、PDFデータにOCR処理を施すことにより、文字による検索が可能です。
本記事では、PDFを文字認識させる具体的な方法をはじめ、無料でOCR化ができるツールをご紹介します。
PDFが文字認識しないのはOCRされていないのが原因
PDFファイルは、OSやデバイスを問わず閲覧できるため、ビジネスシーンでも重宝されています。
そんなPDFですが、OCR処理されていないと文字認識されず、検索もコピペもできません。
大量のPDFを保存しているケースでは、必要なときにデータをスムーズに取り出すことができませんし、内容をコピーしてWordなどへペーストしたくても、これまたできないのです。
このような問題をクリアするには、PDFのOCR処理が必要です。
専用のツールやソフトウェアを使用し、PDFのテキストを文字認識できるようすれば、文字による検索やコピペもできるようになります。
PDFを文字認識させる方法
PDFにOCR処理を施す方法はいくつか挙げられます。
フリーソフトやオンラインツール、スマホアプリ、Adobe Acrobatを使うなどが代表的な方法です。
ここでは、PDFにOCR処理を施す具体的な方法を個別に見ていきましょう。
フリーソフト・オンラインツールを使う方法
OCR処理ができるフリーソフトやオンラインツールはたくさんあります。
PDF24 Tools・PDFcandyなどのほか、gttext・Easy Screen OCRもよく知られているツールです。
中でも特におすすめのツールが、Online OCRです。
文字認識の精度が高く、日本語だけでなく英語にも対応しており、なおかつ無料で利用できます。
無料ツールやソフトで迷ったのなら、Online OCRを選べば間違いはないでしょう。
具体的な使い方ですが、まずはOnline OCRの公式サイトへアクセスします。
OCR処理をしたいファイルを選んでアップロードし、言語を選択しましょう。
出力するフォーマットを選び、[CONVERT]をクリックすれば、自動的に処理が始まります。
たったこれだけのステップで、PDFのOCR化が完了します。
スマホアプリを使う方法
もっと手軽にPDFをOCR化したい、といった方におすすめなのがスマホアプリを用いた方法です。
ここでは、scan snap cloudとiPhoneのスキャンアプリを使用したOCR化の方法をご紹介しましょう。
scan snap cloudを使用する
Scan snap cloudは、クラウド上で文字検索可能なPDFファイルの作成ができるサービスです。
OCR処理専用のサービスではなく、写真管理やドキュメント管理、名刺管理、個人資産管理など多彩な用途に利用できます。
Scan snap cloud対応の機種でスキャンしたデータなら、スマホやタブレット端末を経由してアップロードし、OCR化が可能です。
対応しているのは、scan snap ix1600とscan snap ix100、ix1500、ix500などです。
なお、PDFの文字認識は月に500ページまでの制限があるため注意しましょう。
そのため、大量のデータがある場合には向いていません。
iphoneのスキャンアプリを使用する
iPhoneやiPadには、OCR処理に適したアプリがいくつかリリースされています。
さまざまなアプリがありますが、おすすめなのはFine Scanです。
こちらのアプリは、文字認識の精度が高く、日本語にも対応しており、クラウドで処理が行えます。
見開きの書籍をスキャンし、文字認識できるのも大きな特徴といえるでしょう。
iPhone、もしくはiPadでスキャンを行い、データをクラウドにアップロードします。
通信環境によっては、アップロードにかなりの時間を要するため注意が必要です。
アップロードが完了すれば、OCR処理を施しましょう。
こちらのアプリなら、OCRのプロセスをすべてクラウドで完結できます。
なお、一度にOCR処理できるのは100枚までとなっています。
Adobe Acrobatを使う方法
Adobe Acrobatは、PDFファイルの作成や編集を行うためのソフトです。
Adobe Acrobatでも、PDFのOCR処理ができるため、パソコンにインストールしている方はぜひ試してみましょう。
以下、具体的な方法を解説します。
スキャン時にOCRを適用する
スキャン時にOCRを適用することで、文字認識できるデータをそのまま保存できます。
まずはAcrobatを起動させ、[ファイル]→[作成]→[スキャナーからPDF]→[カスタムスキャン]と進みましょう。
[文書設定]から[検索可能にする(OCR実行)]にチェックを入れてください。
[オプション]をクリックし、[OCRの言語]と[PDFの出力形式]を指定、[OK]と進みましょう。
ファイルを保存しておきたいときは、[保存]をクリックしてください。
そのままスキャンしたいのなら、[スキャン]をクリックします。
スキャンが開始され、OCR処理が施されたデータとしてパソコンに取り込めます。
スキャン後にOCRを適用する
Acrobatを起動させ、OCR処理を施したいファイルを展開しましょう。
使用するソフトがAcrobat DCなら、[ツール]→[スキャン補正]→[テキスト認識]→[このファイル内]と進みます。
Acrobat XIなら、ツールパネルで[テキスト認識]→[このファイル内]と進みましょう。
DCの場合には第2ツールバーから、XIならテキスト認識ダイアログボックスにおいて、処理を行うページを指定します。
次に、テキスト認識ダイアログボックスにおいて、文書の言語/OCRの言語、出力/PDFの出力形式などを設定します。
最後に[OK]をクリックすれば完了です。
Googleドライブを使ってPDFをテキスト化する方法
画像出典:Googleドライブ
Googleドライブを使えば、PDFの文字認識が可能です。
OCR後、そのままGoogleドキュメント上で編集できます。
OCR処理の精度が高いうえに無料で利用でき、手書きや縦書きテキストの認識もできるため、使わない手はありません。
テキスト化の手順
まずはGoogleドライブへログインしましょう。
マイドライブから[新規]をクリックし、[ファイルのアップロード]を選びます。
マイドライブ内に追加されたファイルを右クリックし、[アプリで開く]→[Googleドキュメント]と進んでください。
少し待てば、GoogleドキュメントにPDFから抽出されたテキストが表示されます。
きちんと認識されているかどうか、もとのファイルと照らし合わせてチェックを行いましょう。
Googleドライブを使う際の注意点
GoogleドライブのOCR機能は高精度と評判ですが、完璧ではありません。
文字が抜ける、異なる字に変換される、といったことは多々あります。
そのため、OCR処理を施したあとは、必ずもとのファイルと照らし合わせつつ、漏れやミスがないか確認しなくてはなりません。
また、手書きのテキストもOCR処理できますが、どうしてもWordなどで作成したテキストに比べて読み取り精度が劣ります。
どのような原稿をOCR処理するにしても、実行後の確認を怠らないようにしてください。
大量の書類のOCR処理はスキャンサービスがおすすめ
紙の文書にOCR処理をしたうえでPDFにしたいのなら、専門業者のOCRスキャンサービスも検討してみましょう。
大量のデータにも対応しており、スピーディーかつ正確にOCR処理ができます。
自社で大量のデータをOCR処理する場合、手間も時間もかかりますが、専門業者のサービスなら、自社で労力をかけることなく、高精度かつ迅速なOCR処理を実現してくれます。