スキャンしたPDFファイルのテキストを文字認識させる方法

スキャンした文書PDFファイルを、あとから編集したいと考えたことはありませんか？
ただ、PDFファイルはテキスト形式ではないため文字の編集ができません。
ここでは、スキャンしたPDFファイルのテキストを文字認識させる方法や、役立つフリーソフトをご紹介します。

スキャンで作ったPDFの文字認識を可能にするOCR処理

OCRとは、Optical Character Readerのことです。
スキャンした文書をデジタルの文字コードへ変換する技術をOCRと呼んでいます。
通常、スキャンした文書は画像として取り込まれるため、文字の編集ができません。
しかし、OCR処理を行えば、画像として取り込んだ文書の文字をデジタル文字コードへ変換できるため、編集が可能となるのです。

OCRにより編集可能なデータとするには、主に2通りの方法が考えられます。
ひとつは、OCR機能を搭載したスキャナーの使用です。
現在では、複数のメーカーからOCR機能を搭載したスキャナーがリリースされており、スキャニングと同時にOCR処理ができます。

もうひとつの方法は、専用のソフトやツールを使用し、取り込んだデータにOCR処理を施す方法です。
OCR機能付きのスキャナーをお持ちでないのなら、こちらの方法がおすすめです。

＞スキャンしたデータや文書を編集したい！OCR活用術をご紹介

Adobe Acrobatを使った文字認識の方法

Adobe SystemsのAdobe Acrobatを使用すれば、スキャンしたデータの文字認識が可能です。
ここでは、Adobe Acrobatを使用して文字認識させる方法を、2通りご紹介しましょう。

参考：Adobe Acrobat公式

スキャン時にOCR処理されたPDFファイルを生成する

まずは、Adobe Acrobatを起動し[ファイル]→[作成]→[スキャナー]と進みPDFを選択しましょう。
使用しているスキャナーの名前が表示されているのを確認し、[カラー写真]以外を選択してください。

設定アイコンをクリック後、[テキスト認識(OCR)]にチェックが入っていることを確認しましょう。
[テキスト認識(OCR)]のアイコンをクリックし、[文書の言語]→[出力]→[OK]をクリックします。
[スキャン]→[スキャンの完了]→[OK]で作業は終了です。

スキャン済みのPDFデータにOCRを適用する

すでにスキャニングしている文書にOCR処理を行う方法です。
Acrobatを起動し、対象のファイルを開きましょう。
[ツール]→[スキャン補正]→[テキスト認識]→[このファイル内]を選んでください。

第二ツールバーからOCR処理を施すページを指定します。
[設定]から文書の言語や出力形式などを指定し、[OK]をクリックしましょう。
出力形式の選択では、[検索可能な画像]、[検索可能な画像(非圧縮)]、[編集可能なテキストと画像][CliarScan]などから選べます。
すべての設定が終わったら、[OK]をクリックしてOCR処理を完了します。

PDFのOCR処理ができるフリーソフト

ここからは、PDFのOCR処理ができるフリーソフトをいくつかご紹介します。
どれもおすすめのツールですが、それぞれに特徴があり操作性や機能が異なります。
使いやすいと感じるものを選んで試してみましょう。

Light PDF

オンラインで利用できるPDF編集ツールです。
PDFの編集以外にも、フォーマット変換やOCR処理などさまざまな機能を備えています。
面倒な登録や手続きも不要で、思い立ったときすぐ利用できる手軽さが魅力です。

無料版は、認識できる言語が1つだけのため、文書に異なる言語が混在しているケースではうまく変換できません。
また、txtファイルへの変換しかできないため、注意が必要です。
異なる言語が混在する文書にOCR処理を施したい、txt以外のファイルで出力したいといった場合は、有償版の利用を検討してみましょう。

出典：Light PDF公式