新聞、雑誌の活字をテキストに変換する
OCRソフトを活用して仕事の効率をアップ

OCRソフトを活用して仕事の効率をアップ

本や、新聞などを毎日たくさんお読みのことと思います。この内容は保存してお きたい。こんなときには切り抜いて保存していることと思います。

何かの報告書や資料を作成しているときには、これでは通用しません。テキスト 原稿に変換したい場合があります。新聞の切り抜きを見ながら、キーボードをた たきますか?

こんなときには活字の原稿をスキャナーにセットして、画像に取りこみます。 そしてOCRソフトでテキストに変換すれば、貴重な時間を削減できます。

パソコンを活用されている方はすでに実行されていることと思いますが、まだ 活用されていない方もいるようです。この記事を参考にご利用をお勧めします。

私は、Windows 3.1のころからスキャナーとOCRのお世話になっています。 今日はそのOCR様に恩返しの意味で、ご紹介します。

そのころのスキャナーは300 DPI程度のもので15万円前後していました。しかも A4サイズでも今販売されている機種の1.5倍ぐらいの大きさでした。

最近ではA4より少し大きいぐらい、価格も1万円台で購入できるので、どなたに も導入できると思います。厚さが数センチのものもあります。

まず私の使用している機器を紹介します。スキャナーはエプソンのGT-7000をSCSIでPCに 接続しています。最近の機種はUSB接続でしかもUSB2.0対応のためファイルの転送速度は高速です。PCはCeleron700MHzです。OCRソフトはEtypistです。

メーカーのサイトは メディアドライブ株式会社 です。

スポンサードリンク


■OCRソフト Etypistをインストールする

1. スキャナーをPCに接続して(今はUSB接続の物がほとんどです)スキャナー の電源を入れておいてください。

2. スキャナーのドライバをインストールしてください。

3. CD-ROMドライブにOCRソフトEtypistセットしてインストールしてください。

■OCRソフト Etypistを起動する

1. Etypistを起動すると下記の画面になります。

Etypist起動画面
Etypist起動画面 (クリックで拡大)


2. スキャナの設定をします。
メニューバーの[その他]ー[スキャナ設定] を選択すると[スキャナドライバの選択]画面が表示されます。

スキャナドライバの選択画面
スキャナドライバの選択画面 (クリックで拡大)

「スキャナメーカーのTwainインタフェースを使用しない」をチェックし [OK]ボタンを押してください。

スキャナドライバの選択画面
スキャナドライバの選択画面 (クリックで拡大)


3. 取りこみたい、本や新聞をスキャナーの読み取り台にセットします。
このときの注意は厚みのある本の場合は綴じている部分がガラス面に密着 しないので、原稿台のカバーをかけてから、上から手で強く押さえてくだ さい。

4. メニューからスキャナボタンを押すとスキャナ取りこみ画面が表示されます。
スキャナ取りこみ画面
スキャナ取りこみ画面 (クリックで拡大)


この画面はスキャナー取りこみのパラメータを設定します。

モノクロ、通常解像度は400 DPI、濃度は濃い原稿 に設定すればOKです。 プレスキャンボタンを押してください。

5. 左の画面に取りこんだ原稿が縮小されて表示されます。

スキャナ取りこみ画面
スキャナ取りこみ画面 (クリックで拡大)


ここでは原稿の取りたい部分が取りこまれているか確認してください。 [通常スキャンをチェック]して、[スキャンボタン]を押してください。
取りこみ作業が始まります。青いバーが右方向に伸びていいきます。読込みが終了したら[終了]ボタンを押してくだ さい。
スキャナ取りこみ画面
スキャナ取りこみ画面 (クリックで拡大)


6. この画面のように取りこまれた画面が90度回転していたら、正常な方向に回転させるために回転ボタンを押します。

90度回転している画面
90度回転している画面 (クリックで拡大)


回転ボタンは半円形の矢印を押すと「右90度」 「左90度」「180度」と表示されるので、選択して正しい方向 (画面で文字が読める状態)に回転させてください。

回転ボタンを押す
回転ボタンを押す


7. 次に範囲指定アイコン(赤い□の枠のアイコン)をクリックした後に マウスで画面の範囲を指定します。
左右のページが表示されている場合は、 片方のページを指定してください。指定した部分は水色になります。

マウスで画面の範囲を指定
マウスで画面の範囲を指定 (クリックで拡大)


8. メインウィンドウの[認識]アイコン[認識]アイコンをクリックしてください。

OCRで認識が開始されます。左のテキスト画面には認識したテキストが、 右のスキャナ画面には画像が拡大して表示されます。この画面ではOCRで取り こんだテキストと画像を対比させながらチェックできます。


"認識した画面 (クリックで拡大)


テキストをマウスでドラッグすると、対応する画像の部分が表示されるので チェック&修正が簡単にできます。

左右比べながら修正
左右比べながら修正 (クリックで拡大)


9. テキストを保存する

[ファイル]-[テキストを名前をつけて保存]を押して保存してください。

テキストを名前をつけて保存
テキストを名前をつけて保存 (クリックで拡大)


10. 次のページも同様に行いますが、テキストの保存の時は[テキスト-追加保存] を選択すると、最初のファイルに追加で保存されます。

11. OCRの変換精度は原稿の状態(濃度)、印刷された紙の質に大きく左右され ます。

[スキャナの設定]の[濃度]を変えて最適な状態を見つけてください。 新聞紙を読み取った場合余白部分がグレーになっていときは濃度を薄くして ください。

12. 日本語には似ている活字が多くあります。

'り'(ひらがな) 'リ'(かたかな)、'ニ'(かたかな)と'二'数字' '1'(数字)と'l'(欧文エル)などこれらの変換は間違えることが多いよう です。

■最後に

英文原稿をOCR変換するときは「英文用OCR」をお勧めします。欧文は文字 の種類が限られていること。読み取った単語をOCR内蔵の辞書でチェックで きることなどのためです。

私はTextBridgeを使用しています。Etypistインターナショナル版に同梱 されています。

家庭用のスキャナーで多数のページをOCRに書けるときは、必要なページを 全部スキャナーで取りこみ、画像ファイルで保存しておきます。 [ファイル]-[画像ファイルを開く]で開いてOCR変換を行うほうが早いよう です。私はこちらの方法で行っています。 OCR変換はCPUパワーを食うので、CPUの高速なほど短時間で作業が完了ます。 では皆様OCR変換を活用して作業効率を上げましょう。

注意:業務用で一枚紙の状態の原稿を多数読みこませるときは、ADF(Auto matic Document Feeder)の付いた高速のドキュメント専用のスキャナーがあるので、スキャナーメーカーへお問い合わせください。1枚の原稿を1秒前後で取りこめる機種があります。


「コンピュータソフト活用法」の紹介
( まぐまぐ マガジンID:0000114220 )

メールマガジン登録

メールアドレス(半角):
Powered by まぐまぐ
■ホームページ作成入門/基礎編 ■ホームページ作成無料素材集・花1
■ホームページ作成入門/バナーを貼る ■ホームページ作成無料素材集・花2
■CD-ROM、電子ブック辞典の活用 ■電子ブック、CD-ROM関係資料
■英和、和英、その他の辞書 ■簡単バックアップ入門
■ログ分析でアクセスアップ ■VB入門,Java Scripts入門
■Linux入門,マルチブート入門 ■お勧めリンク集
■バナー広告で稼ごう ■大幅にアクセスアップ無料HP宣伝
■検索エンジン登録でアクセスアップ ■検索エンジン登録案内
■いますぐリンク4設置サイト ■メールマガジンの購読/削除
■レコートからCD-Rに録音 ■HP宣伝掲示板
■音楽作成 ■MP3を作成する
■Cドライブの容量を増やす ■簡単バナーでバナー作成
■MAGIX MP3!でMP3作成 ■検索エンジンを設置
■画像ファイルを一括縮小 ■+lhacaで圧縮/解凍
■CD-R/DVD-Rを作成 ■FAXの同報送信で仕事の効率化
■OCRで活字をテキストに変換 ■見込み客は検索エンジンから
■秀丸テキストエディタを使う ■アクセス解析でHPの訪問者を分析
■Formmanメール送信フォーム設置 ■リンク集いますぐリンクを設置する
■HPのGoogleページランクを調べる ■同報メール送信ソフトGogomail
★★「コンピュータソフト活用法」の紹介 メールマガジンを発行、購読料無料です。ぜひごらんください。★★

TOP

連絡フォーム