PR

Googleドライブを利用してPDF書類をテキストに変換する方法

Google

こんにちは。
毎日Google先生にお世話になっている@OfficeTAKUです。

紙の文書をスキャナーで読み取って、テキスト化したい、という時はOCRソフトを利用します。

OCR、Optical Character Reader、その名の通り「光学式文字読み取り装置」ですね。

スキャナーを購入すると日本語OCRの簡易版が添付されていたりしますので、それを使って読み取りされた方も多いかもしれません。
製品を購入すると、各種ありますが安いもので3千円台から→日本語OCRソフト|Amazon.co.jp

過去の経験からいくと、やはり認識率を高いソフトを利用しないと苦痛の方が大きくなるかもしれません。
予算があれば、しっかりとしたものを買った方が賢いと思います。

しかし、そんなに利用する機会はないけど、どうしてもいま必要という方は Googleドライブを利用してみてはいかがでしょう?

Googleドライブの日本語OCRを利用する方法

まず、前提としてGoogleアカウントを取得しておきましょう。

ログイン

  1. Googleドライブへログインします。
    (初回、チュートリアルの動画などが表示されますが、必要であれば目を通してみて下さい。)
  2. 画面右上の[Googleドライブにアクセス]をクリック
    Google Drive
  3. 下図のような画面が表示されたら、左下の[Continue to Google Drive]をクリック
    Google Drive

ファイルのアップロード設定

初期設定では、アップロードした原稿が図としてDocs(ワープロ文書)に貼り付けられてしまいます。
テキスト化するようにあらかじめ設定を変更しておきます。
ここでは、アップロード時に確認するように変更。

  1. 歯車の形の[設定]ボタンをクリック
  2. [アップロード設定]をクリック
    -[アップロードしたPDFファイルや画像をテキストに変換
    -アップロード前に、毎回設定を確認する
    にをクリックしチェックを入れるGoogle Drive

ファイルのアップロード

  1. 左サイドメニューの[アップロード]ボタンをクリック

    Google Docs

  2. ファインダー(ファイルを開くウインドウ)が開く。
  3. アップロードしたい原稿を選択し、[開く]ボタンをクリック。

    Google Drive

  4. [設定]画面が開きます。
  5. 先ほどの設定を確認し、[言語の選択]とのドロップダウンリストから[日本語]を選択します。
    Google Drive
  6. アップロードが完了すると、一覧にファイル名が表示されます。
    Google Drive
  7. ファイル名をクリックすると開くことができます。

OCR認識結果

A4,1ページの文書の場合、1ページ目に元原稿が図として貼り付けられています。
Google Drive

2ページ目以降にテキストが入力されています。

Wordを直接PDF化した原稿

ほぼ100%認識。改行が削除されたことと、所々スペースが入ってきた位です。
Google Drive

Wordから印刷した紙原稿をスキャナで読込みなおしたもの。

Mac イメージキャプチャを使用し、PDF 300dpi
利用した複合機はこちら 日本HP インクジェットプリンターー HP Photosmart Premium Fax All-in-One C309A

書式が崩れ、ところどころ変換されない文字も見受けられます。
しかし、それほど誤変換もなくキレイな原稿であれば充分使用に堪えられそうです。
Google Drive

情報航海術 - Office TAKU -をもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む

タイトルとURLをコピーしました