2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【文字認識】OCRソフト【 自炊 】

24 :名無しさん@お腹いっぱい。:2017/01/06(金) 20:48:52.00 ID:4Q+G11jJ0.net
ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
(裏を返すとファイルパスを指定することで全然別のところからも参照できます)

・OCR元のtiff画像ファイル(1009.tif〜1360.tif)
・シェルスクリプトファイル(ocr.sh)
・ブラックリストファイル(black.conf)

tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル(ページ番号)と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。

シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt〜1360.txt

(連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中)

なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。

総レス数 883
303 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★