【文字認識】OCRソフト【自炊】

名無しさん＠お腹いっぱい。

ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
（裏を返すとファイルパスを指定することで全然別のところからも参照できます）

・OCR元のtiff画像ファイル（1009.tif～1360.tif）
・シェルスクリプトファイル（ocr.sh）
・ブラックリストファイル（black.conf）

tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル（ページ番号）と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。

シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt～1360.txt

（連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中）

なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。

【文字認識】OCRソフト【 自炊 】

【文字認識】OCRソフト【自炊】