PDFをGoogleドライブで文字認識させる方法

PDFファイルは、OCR処理することで文字認識されるようになり、検索・コピペなどが可能になります。
OCR処理には専用のソフトを使用するのが一般的ですが、実はGoogleドライブでも可能なことをご存じでしょうか。
本記事では、Googleドライブを使用した文字認識の手順や、実践するときの注意点などを解説します。

Googleドライブを使ったPDFの文字認識(OCR)の手順

Googleドライブ

画像出典:Googleドライブ

まずは、Googleドライブへログインしましょう。
マイドライブが表示されるため、OCR処理したいファイルをアップロードします。
アップロードされたファイルを右クリックし、[アプリで開く]→[Googleドキュメント]と進みましょう。
新たなタブにて、Googleドキュメント形式に変換されたファイルが表示されます。
ここまでの作業で、PDFの文字列が自動的に抽出されます。
Googleドライブを用いたOCR処理はこれで完了です。

文字認識にGoogleドライブを使うメリット

文字認識にGoogleドライブを使うメリット

Googleドライブなら無料で利用できるため、OCR化のために別途費用がかかりません。
また、専用ツールに匹敵するほど文字認識の精度が高く、正確に文字列の抽出が可能です。
縦書きや手書きの文書にも対応できるため、あらゆるケースに対応できるのもメリットといえるでしょう。

無料で利用できる

OCR専用のツールを使用する、もしくは専門業者へ依頼するといったケースでは、それなりに費用がかかります。
規模にもよりますが、数万円から数十万円の費用が発生することも珍しくありません。

一方、Googleドライブなら費用をかけずにOCR処理が可能です。
Googleドライブは、無料で利用できるオンラインストレージとして提供されており、OCRにおいても費用が発生しません。
ただ、無料版の場合は15GBまでの容量制限があるため注意が必要です。
大量のデータをOCR化するケースでは、対応できない可能性があるため注意しましょう。

容量が足りない場合は、有償版の契約がおすすめです。
100~200GB、2TB、10TBなどさまざまなプランがあり、費用もはユーザー250円~となっています。

文字認識の精度が高い

文字認識の精度が低いと、その後のチェックにも時間がかかりますから、文字認識精度の高さは、OCRツールを選ぶうえで重要なポイントのひとつといえるでしょう。
無料で利用できるGoogleドライブですが、文字認識の精度は高いと評判です。
テキストのみの原稿であれば、ほぼ間違いなく高精度で認識できます。
ところどころ、段落が不自然になったり、記号が省かれたりといったことはあるようですが、文字自体はほぼ100%の精度です。

縦書きの文書も認識可能

日本には、古くから縦書きの文化が根付いています。
では、Googleドライブで文字認識するにあたり、縦書きの文字は認識してもらえるのでしょうか。

結論からいえば、縦書きの文章でも文字認識は可能です。
横書きの文章と同じように、きちんと文字を認識して抽出してもらえます。
新聞のような縦書きがメインの媒体をPDF化ししたいときにもGoogleドライブの機能は有効です。
ただし、テキストに起こすときは横書きになります。

手書きの文字も認識可能

Googleドライブは手書きの文字でOCR処理が可能です。
例えば自分が紙に書いたメモなども、文字データとして起こすことができます。

ただし、極端に字が崩れている、大きさがバラバラといったケースでは認識されないこともあるため、注意が必要です。
漢字も、字によっては部分的に認識されないことがあります。
例えば「好」という字なら、「女」と「子」のどちらかが認識される、といったことが起こりえます。
手書きでも高い精度で読み取りしてくれますが、完了後には漏れがないかきちんとチェックする必要がありそうです。

多言語に対応している

外国語の文書をOCRしたいときにも、Googleドライブが活用できます。
ビジネスシーンでは、外国語の文書を用いるケースが少なくありません。
このような文書を、OCR処理して保存できれば便利です。

Googleドライブの文字認識機能は、英語をはじめ、中国語にも対応しています。
なお、中国語には、大陸で主に使用されている簡体字と、台湾で使われている繁体字の2種類があります。
Googleドライブで中国語テキストをOCRしたとき、簡体字と繁体字が混ざってしまうケースがあるため、注意しましょう。

写真をPDF化できる

デジカメやスマホで撮影した写真データを、GoogleドライブでPDF化できます。
撮影した写真画像データはもちろん、紙文書の画像もPDF化が可能です。
まずは、PDF化したいデータをGoogleドライブへアップロードしましょう。
メニューから[その他]→[開く]→[Googleドキュメント]を選択し開いてください。
次に[ファイル]→[形式を指定してダウンロード]→[PDFドキュメント]を選択すれば、ダウンロードがスタートします。
これだけの作業で、撮影した画像データをPDF化できます。

文字認識にGoogleドライブを使う注意点

文字認識にGoogleドライブを使う注意点

Googleドライブの文字認識機能は優れものですが、使用するうえではいくつか注意点もあります。
2MB以上のファイルをアップロードできない、ビジュアル付きテキストの認識がうまくいかないことがある、Googleドキュメント形式で出力しなければいけない、などが挙げられます。
詳しく見ていきましょう。

2MB以上のファイルはアップできない

Googleドライブへアップロードできるファイルの容量は、2MBまでです。
2MBを超える容量のデータはアップロードできず、OCR処理もできません。
そのため、文字認識したいPDFが数ページにまたがるようなケースでは、注意が必要です。
あらかじめ、アップロード前に容量を確認しておきましょう。
なお、データが大きすぎる場合には、分割してアップロードし、文字認識を試みるのもひとつの手です。
手間は多少かかりますが、分割すればOCR処理ができます。
また、データを小さくしても、あまりにも画質が悪いと文字認識の精度が落ちてしまうため、容量と併せて事前のチェックが必要です。

表やビジュアル付きテキストは上手く認識できない場合もある

色付きのテキストを使用している、表やイラストなどが混在している、といった文書のOCR処理にもGoogleドライブは対応しています。
ただ、うまくいくケースもあれば、きちんと認識してくれないこともあります。
表やイラストなどが混在する文書のOCR処理は、こうした事実を踏まえたうえで実行しましょう。
なお、表のみのOCR処理においても、テキストの文字認識はきちんと行ってくれますが、表として出力はしてくれないため注意が必要です。
OCR処理したあとは、元原稿の内容と照らし合わせて、漏れや認識ミスがないかチェックしてください。

Googleドキュメント形式で出力しなければならない

文字認識するためには、必ずGoogleドキュメント形式で出力しなくてはなりません。
つまり、PDFファイルのまま文字認識はできないのです。

基本的にPDFデータをOCR処理したあとは、Googleドキュメント形式で保存されます。
PDF形式で保存したい場合は、再度PDFに変換して保存しましょう。

もちろん文字認識された状態でPDF化されます。

Googleドライブを使ったPDFの文字認識の方法まとめ

日ごろからGoogleドライブを活用している方でも、文字認識機能があることを知らなかった方は多いのではないでしょうか。
Googleドライブの文字認識機能は、高精度かつ無料で利用できるためおすすめです。
ただ、本記事でお伝えした通り、Googleドライブの文字認識機能にもいくつかデメリットがあるのも事実です。
利用を検討しているのなら、メリットとデメリット、どちらも理解したうえで実行しましょう。
大量のデータをOCR処理したい、より高精度な文字認識を求めている、といったケースでは、専門業者への依頼もひとつの手です。