こんにちは。
毎日Google先生にお世話になっている@OfficeTAKUです。
紙の文書をスキャナーで読み取って、テキスト化したい、という時はOCRソフトを利用します。
OCR、Optical Character Reader、その名の通り「光学式文字読み取り装置」ですね。
スキャナーを購入すると日本語OCRの簡易版が添付されていたりしますので、それを使って読み取りされた方も多いかもしれません。
製品を購入すると、各種ありますが安いもので3千円台から→日本語OCRソフト|Amazon.co.jp
過去の経験からいくと、やはり認識率を高いソフトを利用しないと苦痛の方が大きくなるかもしれません。
予算があれば、しっかりとしたものを買った方が賢いと思います。
しかし、そんなに利用する機会はないけど、どうしてもいま必要という方は Googleドライブを利用してみてはいかがでしょう?
Googleドライブの日本語OCRを利用する方法
まず、前提としてGoogleアカウントを取得しておきましょう。
ログイン
- Googleドライブへログインします。
(初回、チュートリアルの動画などが表示されますが、必要であれば目を通してみて下さい。) - 画面右上の[Googleドライブにアクセス]をクリック
- 下図のような画面が表示されたら、左下の[Continue to Google Drive]をクリック
ファイルのアップロード設定
初期設定では、アップロードした原稿が図としてDocs(ワープロ文書)に貼り付けられてしまいます。
テキスト化するようにあらかじめ設定を変更しておきます。
ここでは、アップロード時に確認するように変更。
ファイルのアップロード
- 左サイドメニューの[アップロード]ボタンをクリック
- ファインダー(ファイルを開くウインドウ)が開く。
- アップロードしたい原稿を選択し、[開く]ボタンをクリック。
- [設定]画面が開きます。
- 先ほどの設定を確認し、[言語の選択]とのドロップダウンリストから[日本語]を選択します。
- アップロードが完了すると、一覧にファイル名が表示されます。
- ファイル名をクリックすると開くことができます。
OCR認識結果
A4,1ページの文書の場合、1ページ目に元原稿が図として貼り付けられています。
2ページ目以降にテキストが入力されています。
Wordを直接PDF化した原稿
ほぼ100%認識。改行が削除されたことと、所々スペースが入ってきた位です。
Wordから印刷した紙原稿をスキャナで読込みなおしたもの。
Mac イメージキャプチャを使用し、PDF 300dpi
利用した複合機はこちら 日本HP インクジェットプリンターー HP Photosmart Premium Fax All-in-One C309A
書式が崩れ、ところどころ変換されない文字も見受けられます。
しかし、それほど誤変換もなくキレイな原稿であれば充分使用に堪えられそうです。