近年では、業務効率化やコストダウンを目的に、文書の電子化を進める企業が増えてきました。
文書をスキャンして電子化しているケースも少なくありませんが、スキャニングしたデータは画像として認識されるため文字の編集ができません。
そこで活用したいのがOCRの技術です。OCRの基礎知識や、具体的な活用法を解説しましょう。
スキャンしたデータを文字認識するには?OCRを活用しよう
文書をスキャニングしても、画像データとして取り込むため文字の編集ができません。
しかし、OCRを活用すれば、文書の文字を認識し書類形式で保存が可能です。
まずは、OCRの基礎知識や活用するメリットを理解しておきましょう。
OCRとは?
文書に書かれている文字を認識し、デジタル化できる技術をOCRと呼びます。
正式にはOptical Character Readerが名称で、頭文字をとってOCRと呼んでいます。
スキャナーで文書を読み取った場合、ひとつの画像として認識されるため、保存した文書データの内容をあとから編集することはできません。
しかし、OCRの技術を使えば、書かれている文字を自動的に認識して読み取れます。
OCR処理をするメリット
OCR処理を行うメリットはいくつか挙げられますが、代表的なのは文字入力作業の効率化ができることと、テキスト化によるデータ活用が可能になることです。
それぞれのメリットについて、詳しく見ていきましょう。
文字入力作業の効率化
文書をスキャニングして書類形式で保存できるため、文字入力作業の効率化を実現できます。
紙の文書をデジタル化する場合、パソコンのキーボードで直接文字を入力する方法がありますが、相当な手間と労力が発生します。
また、人の手で行う以上ミスが発生するリスクも考えられるのです。
OCRなら、こうした問題を解消できます。文書の文字を認識したうえでスキャニングができるため、短時間にデジタル化が可能です。
人の手で文字入力するときのようなミスが発生せず、短い時間でデジタル化できるのも大きなメリットといえるでしょう。
また、データ入力よりも低コストで利用できるのも魅力的です。
テキスト化によるデータ活用
OCR技術でスキャニングした文書は、画像ではなくテキストとしてデータ化できます。
一般的なスキャニングでは、文書をひとつの画像と認識して取り込むため、文書の編集はできません。
しかし、OCR技術を活用したスキャンなら、テキストとしてデータ保存できるため、あとから文書の内容に手を加えられるのです。
テキスト化されたデータは、パソコンの画面上でコピー&ペーストもできます。
さらに、キーワードで文書を探せるため、検索性もアップするのです。
OCRを使わずにスキャンしてデータ化した場合、ファイル名や日付などから検索するしかありませんが、OCR処理を行えば文字検索が可能になるため、目的の書類をスピーディに見つけられます。
読み取り精度は100%ではない
OCRが素晴らしい技術であることは言うまでもありませんが、デメリットがあることも理解しておきましょう。
OCR技術を利用してスキャニングした場合でも、文字を間違えて読み取る、認識できない文字がある、といったケースが発生します。
たとえば、文書に似た文字がある場合では、誤認識してしまうおそれがあります。
また、文書の状態がよくないケースでは、うまく文字を読み込めないこともあるのです。
完全無欠でない以上、最終的には人の目でチェックが必要です。
重要度の低い書類ならまだしも、機密性が高く一言一句間違いなく電子化しなくてはならない文書なら、丁寧に確認しなくてはなりません。
スキャンしたデータをOCR処理する方法
現在では、OCR機能が搭載されたスキャナーがいくつもリリースされています。
では、OCRの機能が搭載されていないスキャナーでスキャニングした文書を、あとからテキスト化するのは不可能なのでしょうか。
GoogleドライブやLightPDF OCRなどを使えば、スキャンした文書のテキスト化が可能です。
Googleドライブを使う
Googleドライブを利用すれば、簡単に画像やPDFファイルをテキスト化できます。
サービスを利用するにはGoogleアカウントが必要なため、まずは作成しましょう。
アカウントを作成後、Googleドライブにアクセスします。
画面上で対象となるファイルをアップロードしましょう。右クリックからメニューを開き、[ファイルをアップロード]からアップしてください。
OCR処理を行いたいファイルの上で右クリックし、[アプリで開く]→[Googleドキュメント]と進みます。
これだけでテキスト化は完了です。
ファイルは自動保存されるため、開いて確認してみましょう。
LightPDF OCRを使う
LightPDF OCRも、無料で利用できるサービスです。
公式ホームページへアクセスし、[OCR]をクリックしましょう。
画面上に表示されている[ファイルを選択]をクリックすると、ファイル選択画面が開くため、対象のファイルを選択してください。
[元ファイルの言語を選択]で、文書の言語を選びます。
出力形式もいくつか用意されているため、用途や目的に応じて選びましょう。
選択したら、[変換]をクリックしてください。自動的にOCR処理が行われます。
スキャンのテキスト化がうまくできないときには?
スキャニング時のテキスト化がうまくいかないときは、OCRの認識率を上げる必要があります。
以下に、認識率を上げる方法をいくつかピックアップしました。
うまくいかないときはぜひ試してください。
OCRの認識率を上げるための方法
OCRでは認識しにくい文字や色などがあるため、まずはそれを把握しておきましょう。
そのうえで、解像度を上げる、白黒でスキャニングする、原稿の向きをそろえるなどの対策をします。
OCRで読み取りにくいものは?
OCRでは、カラーの文字が認識しにくいといわれています。
また、かすれている、網掛けされている文字も認識されにくいため注意が必要です。
OCRは明瞭な黒い文字を認識して読み取るため、網掛けされていると認識されにくいのです。
また、文字の間隔が狭いと識字率が低下します。
間隔が狭いと、ひとつひとつの文字をきちんと認識しづらいため、誤認識が発生しやすいのです。
ほかにも、縦書きと横書きが混在している文書や、機種依存文字なども識字率が低くなりがちです。
原稿を斜めにセットしているケースでも誤認識が発生しやすいため、注意してください。
OCRで識字率を上げる技法
まずは解像度を上げてみましょう。
高解像度にすれば文字をきちんと認識しやすくなり、識字率を高められます。
高解像度といっても、高くしすぎてしまうとさまざまな問題が発生します。
データが重くなりすぎる、スキャンに時間がかかるなどの弊害が生じるため、300dpiを目安にしましょう。
また、カラーの文字は認識しづらいため、モノクロでスキャンしてください。
網掛けの文字が混在しているようなら、コントラストを強調して文字の明暗をはっきりさせると読み取りやすくなります。
スキャナーへ原稿をセットするときにも注意が必要です。
斜めにセットしてしまうと文字を認識しにくくなるため、きちんとまっすぐそろえてください。
原稿を挟んでセットするとき、乱暴に扱うとずれてしまいます。風圧でずれないよう、優しく扱いましょう。
スキャンサービスなら、一括OCR処理が可能
少量なら、OCR機能付きのスキャナを使用する、スキャニング後に処理を行うなどの方法でも問題ないでしょう。
ただ、大量の文書をスキャンしてテキスト化するとなれば、相当な時間と労力が必要です。
スキャンサービスなら、大量の文書をスキャニングし一括OCR処理も可能です。
自社で行うのに比べて時間を短縮でき、人的なコストの削減もできます。
業者によって単価やサービス内容などが異なるため、事前に確認しましょう。
複数の業者で価格やサービス内容を比較しつつ選ぶことをおすすめします。