2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【文字認識】OCRソフト【 自炊 】

1 :名無しさん@お腹いっぱい。:2016/08/09(火) 21:24:11.61 ID:zXdCMkkb0.net
光学文字認識(こうがくもじ にんしき、Optical character recognition)ソフト

2 :名無しさん@お腹いっぱい。:2016/08/15(月) 08:48:43.19 ID:/8XKPL210.net
213 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2016/08/15(月) 01:37:00.10 ID:FQ3AgcG50
>>211
教えてあげないよ
     _,∩_         _,∩_           _,∩_
    (_____)ゝ、     (_____)    y     (_____)
    / :: :: :: ヽ 〉     /-‐:: ::‐-ヽ /       / :: :: :: ヽ
   _./ (・ )ll(・ ) ∨     _/  0) i! 0) ∨      _/ ( ・)i!(・ ) ゙、_
 // :: :: ∈ゝ :: ::ヽ   // ::  ‐-‐ :: ヽ    //  :: ー一 :: ヽ\
. ゝ/:: :: ::  :: :: ::ヽ  ゝ/ :: ::  ::  :: :: ヽ   ゝ/ :: ::  ::  :: :: ヽく
   ̄ ̄ | ̄ ̄ | ̄ ̄     ̄ ̄ | ̄ ̄ | ̄ ̄     ̄ ̄ | ̄ ̄ | ̄ ̄
       |     |             |     |             |     |
    ⊂!     !つ        ⊂!     !つ        ⊂!     !つ

ジャン♪

3 :名無しさん@お腹いっぱい。:2016/09/16(金) 18:53:31.42 ID:xb+uDKDF0.net
個人的には流行ってほしいジャンルだけど
基本シェアウェアだしスレの伸び見ても需要無いんだな

4 :名無しさん@お腹いっぱい。:2016/10/18(火) 21:15:57.03 ID:8+1fcpg80.net
OCRソフト 製品版

メディアドライブ(株)
 e.Typist v.15.0   58ヵ国語対応   直販価格   19,800円(税別)
 e.Typist NEO v.15.0   日本語・英語のみ   直販価格   12,190円(税別)
体験版アリ
   http://mediadrive.jp/products/et/index11.html

パナソニックソリューションテクノロジー(株)
 読取革命Ver.15         直販価格   12,800(税別)
(読取革命Ver.15 lite for Mac同梱)
体験版アリ
   http://www.panasonic.com/jp/company/pstc/products/yomikaku/demo.html

ソースネクスト(株)
本格読取4            直販価格   3,400円(税別)
(読取革命の旧製品の再パッケージ版)
   http://www.sourcenext.com/product/pc/use/pc_use_000941/

5 :名無しさん@お腹いっぱい。:2016/10/18(火) 21:20:32.53 ID:8+1fcpg80.net
現行の出回ってる製品くらい並べろよ>1と思ったら、なんだ? NGワードって?

6 :名無しさん@お腹いっぱい。:2016/10/18(火) 21:29:38.69 ID:8+1fcpg80.net
>4に続けて以下のをアップしたかったんだけど、NGワード食らって弾かれるな…。

(株)データデジタルのRealReader Lite 8
(株)エーディーディーのABBYY FineReader 12
アンテナハウス(株)の瞬簡PDF OCR
Rene.E LaboratoryのRenee PDF Aide

7 :名無しさん@お腹いっぱい。:2016/10/19(水) 21:34:25.77 ID:rrkqSMxv0.net
無料で使えるOCR

46ヶ国の言語に対応した無料で使えるオンラインOCR
Online OCR
   http://www.onlineocr.net

日本語の解説はココが分かりやすいかも
寝ログ
   http://nelog.jp/online-ocr

試してみたが確かにすげえ。
縦書き日本語にも対応していて認識率も悪くない。
ユーザー登録すればできることはさらに増えるが、
でも先方のサーバーにデータが残るということが
不安を拭いきれない。

hpが開発しgoogleが公開したオープンソースOCRソフト
tesseract-ocr
   https://github.com/tesseract-ocr/tesseract

オープンソースゆえWindows版も当然あるが、有償無償を問わず
ロクなOCRソフトがないMac/Linuxユーザーはこぞってコマンドラインで
コイツを使うことになる。
スマホ用OCRアプリも含め、コイツを中身に使っているOCRソフトは
少なくない。

8 :名無しさん@お腹いっぱい。:2016/10/27(木) 14:01:52.20 ID:Lf4Jkeck0.net
Googleドキュメントに丸投げが1番楽で精度も高い
つまり上で名前の上がってるようなソフトは今や全てゴミ

9 :名無しさん@お腹いっぱい。:2016/10/28(金) 14:32:27.82 ID:F8pwlOl00.net
>>8
ファイルサイズが2MB制限だった。
これでは使い物にならない
ゴミとしか言いようがない

10 :名無しさん@お腹いっぱい。:2016/11/14(月) 10:01:44.38 ID:DfhqfMU20.net
acrobat以外でバラのpdfファイル一括OCR処理できるソフトないんかな。
今まではacrobatのフォルダ(500個ほどのファイル)ごと投げてたんだけど、特定のファイルで毎回止まってて使い物にならん。

11 :名無しさん@お腹いっぱい。:2016/11/23(水) 20:08:39.03 ID:egsPu78e0.net
>>10
結局e.typistで保存するときの、ファイルごとに保存できたから、解決した。

12 :名無しさん@お腹いっぱい。:2016/11/30(水) 19:15:21.26 ID:7ipzPm4D0.net
はじめまして。

現在OCR ソフト作っているものです。


スマホで出来ます。
現在うまく行っております。

13 :名無しさん@お腹いっぱい。:2016/12/26(月) 01:47:37.00 ID:v6AIeIuc0.net
スマホでOCR

カメラを内臓しているスマホの方が『買い物した直後にレシートをスキャンしてテキスト化したい』
という需要を満たせるせいか、Windows用ソフトが先細っている間に『Google Cloud Vision API』
という流行りのAIとかディープラーニングの技術を投入したAPIをOCRエンジンにしたスマホアプリが
公開されて成果をあげている模様。

結局自炊にはtesseract-ocrか?

で、この『Google Cloud Vision API』という奴、すこぶる評判が良いを通り越して
『もし的中率100%の占い師とか予想屋が実在したら?』レベルの優秀さだとすると、

自炊でのテキスト化に使用
 →正解率が高すぎて手直しの必要がほとんどない
  →著作権侵害の温床になりかねない

という名目で、一万円程度のPC用ソフトに搭載されることはないような気がします。

本当はひらがなとカタカナの『へべぺ』『エ工』『口ロ』『ト卜』『タ夕』といった光学的な識別だけ
では限度があるケースを前後の文脈から類推して判別してほしいケースにこそAIとかディープラーニング
の出番と言う気がしますが、ソフトを自作できるレベル以外のエンドユーザーには高嶺の花になるかも
しれません。

という訳で、なんとかしてtesseract-ocrの認識率を上げられないものでしょうか。

14 :名無しさん@お腹いっぱい。:2017/01/01(日) 03:49:51.39 ID:i4KtsT1l0.net
Tesseract-OCR良いね
パソコンのWindows版3.02を使ってみたけどGoogleドキュメントより精度が上だった
無料OCRツールでは一番か?
本当は最新の3.05使いたかったがうまく動かせなかった

15 :名無しさん@お腹いっぱい。:2017/01/01(日) 10:45:53.16 ID:bJoGCIrB0.net
>>14
Googleが一番やろ〜w

16 :名無しさん@お腹いっぱい。:2017/01/03(火) 01:48:22.51 ID:/4niW42M0.net
tesseract-ocrの認識率を下げないための工夫

tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、

1.スキャンする時に解像度300dpi以上の.tiff形式で行う

※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。

構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。

所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。

ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。

どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。

なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。

17 :名無しさん@お腹いっぱい。:2017/01/03(火) 02:13:20.84 ID:R8/S2ECj0.net
>>16
いやtesseractは認識精度低いから・・・


Cloud Vision使えよ


高画質画像もいらないから

18 :名無しさん@お腹いっぱい。:2017/01/04(水) 00:37:05.30 ID:orymQRzs0.net
>>16
こういう検証報告はすごい有り難いね
参考にします

19 :名無しさん@お腹いっぱい。:2017/01/05(木) 20:18:24.04 ID:8PejRFef0.net
ちなみに>16でスキャンする元ネタをjpeg→tiffに変更してどのくらい変わったかというと、

文中の“由美子”というヒロインの名前が、from-jpegスキャンからだと、

由美F   由美汗  由芙干  山芙杆  …芙杆
由美P   由美浙  由芙折  山芙F   …芙浙
由美f   由美肝  由芙於  山芙f   …芙肝
由美そ  由美託  由芙旛  山芙そ  …芙託
由美ア  由美醇  由芙杆  山芙ヂ  …美F
由美チ  由美干  由芙浙  山芙浙  …美f
由美ヂ  由美折  由芙F   山芙肝  …美肝
由美モ  由美杆  由芙f   山芙軒  …美チ
由美丑  由美壬  由芙肝  …芙F   …美竚
由美予  由芙チ  山美折  …芙P   …美升
由美争  由芙ヂ  山美肝  …芙f   …美壬
由美十  由芙丑  山美託  …芙チ  …美折
由美千  由芙予  山美升  …芙升
由美升  由芙十  山芙丑  …芙折
由美寶  由芙升  山芙十  …芙旛

これだけ豊富なバリエーション()が発生しましたが、from-tiffスキャンからだとほぼブレ
ることなく“由美子”になったので、
「こ、これはハトを殺されたタイソン並みにスゴいのではないか?」と
tesseract-ocrの秘めた実力に驚愕したものでした。

つまり条件さえ揃えばtesseract-ocrの認識率はけして悪くないというか、むしろ認識結果が
思わしくない場合は何らかの事情でスキャンする際にスポイルされた可能性があると考えて、
条件を変えてスキャンしてみるのもひとつの手かもしれません。

20 :名無しさん@お腹いっぱい。:2017/01/05(木) 20:59:02.85 ID:8PejRFef0.net
続・tesseract-ocrの認識率を下げないための工夫

2.不要な認識候補文字をブラックリストで指定して排除する

※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。

以前tesseract-ocr以外のOCRソフトを使ったときのこと。帳票というか、罫線の中に数字と
カンマとピリオドしかないペーパーをスキャンして取り込むために認識候補を『英数のみ』に
設定してOCRを実行したのですが、

「なんで 2 じゃなくて Z って認識するワケ? 候補を数字だけに絞れば良さそうなのに、
なんでできないの? バカなの? 死ぬの?」

と思ったことがありました。

tesseract-ocrにはホワイトリストとブラックリストというオプションを指定することで、
認識候補文字を制限することができます。

ホワイトリスト=認識候補文字を指定した文字だけに限定する

先程の帳票認識時の様に、認識候補文字を『 0123456789., 』以内に限定したいときに
使いますが、縦書き日本語の自炊目的には使わないので今は捨て置きます。

ブラックリスト=認識候補文字を指定した文字以外に限定する

↑ちょっと変な日本語になってますが、要するに「縦書き日本語の小説にフツーはこんな記号や
文字は出てこないんだから、候補から外せば正解率上んじゃね?」ってことです。

で、実際指定したら間違いのブレ幅が確実に少なくなるので一括置換で修正もやり易くなる
のですが、tesseract-ocr blacklist で検索しても、何故かほとんどヒットしませんでした。

21 :名無しさん@お腹いっぱい。:2017/01/05(木) 22:06:35.47 ID:8PejRFef0.net
ブラックリストの指定の仕方は行頭に、

tessedit_char_blacklist

と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。

↓ブラックリストのサンプル(実際は1行に繋がっています)

tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/\〆ゝゞヾ,.;=^~'`"[]{}<>〈〉〔〕《》『』【】=‡°

・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される

なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。

上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点(。)として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。

(例)
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。

(間違い)
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。

(エラー)
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。

22 :名無しさん@お腹いっぱい。:2017/01/06(金) 17:28:28.61 ID:1hEabIWn0.net
今どきディープラーニングも使わないtesseractじゃね・・・。


自作アプリに組み込んだが、
認識精度は低かったぞ。

23 :名無しさん@お腹いっぱい。:2017/01/06(金) 20:13:04.83 ID:4Q+G11jJ0.net
さて、それなりに吟味して作ったブラックリストの内容を記述したファイルをとりあえず

black.conf

とでも名づけて保存しておきます。

当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。

あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。


以下点線の内側をシェルスクリプト ocr.sh として保存します。
----------------
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す

for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done

24 :名無しさん@お腹いっぱい。:2017/01/06(金) 20:48:52.00 ID:4Q+G11jJ0.net
ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
(裏を返すとファイルパスを指定することで全然別のところからも参照できます)

・OCR元のtiff画像ファイル(1009.tif〜1360.tif)
・シェルスクリプトファイル(ocr.sh)
・ブラックリストファイル(black.conf)

tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル(ページ番号)と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。

シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt〜1360.txt

(連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中)

なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。

25 :名無しさん@お腹いっぱい。:2017/01/07(土) 01:26:07.83 ID:EIbs2jCQ0.net
>17
まあそう急くなて。

>13にもチラと書いたけど、Google Cloud Vision APIってプログラムとかアプリそのもの
じゃないから、『使え』といわれて使えるひとって既にエンドユーザーじゃないし。

そりゃ話聞くとGoogle Cloud Vision APIって、良い意味で『コレ世に出していいの?』
レベルらしいし、ある日を境に木製複葉機が一斉に時代遅れになったのも知ってるけど、
ジャンルによらず古典に親しむのは大事なことだし、何より初手からそんな最先端使って
ったら、ディープラーニング様の有り難みが感じられないじゃないですか。

変速機のないギヤ比固定のママチャリで坂道を登った経験があるからこそ、人は変速機
付きの自転車に感謝できるのだとは思いません?

で、その一方で変速機ナシの自転車でもギアを交換して坂道を登り易くすることはできない
ことじゃないんだけど、いかんせんこのtesseractってチャリは情報が少なくてね。

tesseract-ocrでどこまで行けるのか、もう少し先まで見てみたいんですよ。

クレジットカードもいらないしね。

26 :名無しさん@お腹いっぱい。:2017/01/07(土) 01:50:26.86 ID:EIbs2jCQ0.net
「うわっはっはっ、何を言い出すかと思えば、所詮はクレジットカード一枚作ることが
できない自宅警備員のたわごとではないか。カード一枚と引きかえに最先端のAIや
ディープラーニングが手に入る時代に、tesseract-ocrなどという旧態依然のフリーソフト
にこだわるなどとは笑止千万。本当の最先端が今やどんな高みにまで昇りつめているか、
この私がお目にかけよう」

と、白髪混じりのオールバック美食家なスーパーハカーが登場して、エンドユーザー
にもやさしく解説してくれるなら、アタシは黙って身を引くわ……。

27 :名無しさん@お腹いっぱい。:2017/01/11(水) 03:41:06.92 ID:v+HPhSP90.net
OCRについて検証したり語らったりできる場所ってここくらいしかないし
tesseract-ocrもなんでも小さな情報でもどんなことでも俺はウェルカムだよー
使い方見たり知ったりすればそれを生かす機会が来るときもあるかもしれないからね

28 :名無しさん@お腹いっぱい。:2017/01/12(木) 00:57:18.93 ID:DZC5mCXO0.net
tesseract-ocrの識字率を上げるためにスキャン画像から学習ファイルを作る手口は、
検索でヒットする幾多のサイトで指南されています。

さながら刀匠のごとく、コマンドを重ねて玉鋼から刀身を作るように順繰りに加工していく
訳ですが、Linux版tesseract-ocrのver.3.03だと途中の unicharset というコマンドが
なぜか実行できず(『そんなプログラムありません』でエラーになる)、ubuntu16.04LTS
(16年4月製長期サポート版の意)でver.3.04を試したらやっと最後の jpn.traineddata
ファイルの生成まで辿り着けたのですが、実はこれと同じ名前のファイルはすでに
アプリケーション側の設定フォルダにあります。

元の jpn.traineddata は30MB超えの、テキストエディタでも開けないようなゴツい代物で、
対する新jpn.traineddata は1MB足らず。ならばあとは旧ファイルの認識がおかしい部分に
新ファイルをマージすれば良さそうですが、その手段が何故か何処の指南役サイトにも書いて
ありません。

旧ファイルに匹敵するサイズの新ファイルをゼロから作るのは現実的ではないと思われますが、
先達がこの辺をどうしているのかは不明。

ちなみにWindows版tesseract-ocrには tesseract-box-editor というMicrosoft .Net
Framework 4.0で動作するアドオンだかがあって、それを使うと新旧ファイルをマージできる
らしいです。

「ネットに載っていないblacklistファイルまで自力で辿り着けたのはなかなかだが、jpn.traineddataが元のままなのはいただけないな」
「!」
「一週間お待ちください。本物のtesseract-ocrの実力をお目にかけますよ」

井上和彦の声で喋るオールバックのスーパーハカーの登場をお待ちしています。切実に。

29 :名無しさん@お腹いっぱい。:2017/01/12(木) 01:00:28.61 ID:DZC5mCXO0.net
tesseract-ocrの、30MB超えで開くことすら困難な設定ファイル jpn.traineddata。
この中には日本語認識する際のルール・ファイルが各種入っているようですが、
開けないファイルからどうやって取り出すのか、長らく謎でした。

とりあえず認識結果後の変換マッピングを司る jpn.unicharambigs に関しては、
このコマンドで掘り出して、
$ combine_tessdata -e tessdata/jpn.traineddata jpn.unicharambigs
別ファイル化して修正したのち、このコマンドで再度埋め戻せることが分かりました。
$ combine_tessdata -o tessdata/jpn.traineddata jpn.unicharambigs

tesseract-ocrはver.3.04になって認識率がやや向上し、3.03では


と二文字の並びと見なされていた縦書きの 普 がキチンと一文字と認識されます。
それでも縦書きで三点リーダーが二個(……)並ぶのは不得手らしく、認識結果は
ナカグロが六個(・・・・・・)並びます。

もっとも blacklist で認識候補の記号を制限する前は、羅列するのもバカらしいですが
順列組み合わせで200パターン以上になっていたので、それを思えば検索置換一発で修正
できるようになったのは、楽なものです。

でももっと楽になりたくて、『・ が三個連続したら、問答無用で、… 一個にする』
という修正パターンを書いてマージしたのですが、何故か反映されませんでした。

何がいけないというのでしょう?

3 ・・・ 1 … 1
2 並ョ 1 普 1 (←3.03の場合はこう書けば一文字になると思われる)

30 :名無しさん@お腹いっぱい。:2017/01/20(金) 21:05:57.72 ID:gQQqe6X80.net
無料で

数式OCRできる方法教えてくれ

31 :名無しさん@お腹いっぱい。:2017/01/22(日) 22:25:34.24 ID:/FwmeFUS0.net
日本語化スレにも書きましたが、
【   名 称   】Capture2Text
【  バージョン 】3.9
【   概 要   】PC画面やポップアップウィンドウなどの文字列取り込み
【  ライセンス 】フリーウェア
【 ウェブサイト 】http://capture2text.sourceforge.net/
【多言語化対応】不明

を使っている人いますか?
日本語化はありますか?

32 :名無しさん@お腹いっぱい。:2017/03/05(日) 14:45:05.40 ID:UtesglO/0.net
googleのはなあ…
こいつらに情報渡したくないからいくら良くても使えないわ

33 :名無しさん@お腹いっぱい。:2017/03/14(火) 21:45:43.63 ID:Qc719WwL0.net
逆に言えば渡していい情報ならいくらでも使える。
スマホやタブでスキャンして、資格試験の暗記問題なんかをタイプウェル用のテキストにしようと
思って、試行錯誤した結果googleに落ち着いた。
なんとなくここに来たら、やっぱ同じ結論か。

あとはコンデジ使うかスマホ使うか

34 :名無しさん@お腹いっぱい。:2017/08/20(日) 10:28:25.56 ID:Y2wo7t9E0.net
自炊板に書いたけど、こっちにも置いておくかな。

88 名前:名無しさん@お腹いっぱい。 [sage] :2017/08/20(日) 10:04:39.07 ID:2KZZB/L/
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…

https://github.com/dinosauria123/gcv2hocr

Linux用。Bash on Windowsでも使える。

35 :名無しさん@そうだ選挙に行こう:2017/10/22(日) 16:02:47.94 ID:QfM7pntrG
スマホの OCR アプリ「Textスキャナ」を使って、
「日本語コメント付きのソースコード」
を読み取ろうとしたけど、全然ダメだった。

日本語はほぼ読み取れてるけど、
「'」(シングルコーテーション)は全部消えてしまうし、
アルファベットでかかれたソースコードは、
ところどころ文字が消えてしまった。

日本語を含んだソースコードを読むのに適した OCR ってないかな・・・

「OCR ソースコード」で検索すると、
オープンソースの OCR がヒットしてしまって
うまく検索できない。

36 :名無しさん@お腹いっぱい。:2018/03/04(日) 10:09:31.44 ID:FYRZq+9m0.net
自炊版てどこですか

37 :名無しさん@お腹いっぱい。:2018/03/04(日) 10:19:37.65 ID:NfprRM100.net
たぶん電子書籍板のことかと

38 :名無しさん@お腹いっぱい。:2018/03/05(月) 07:26:58.53 ID:wBe53wun0.net
ありがとうございます

39 :名無しさん@お腹いっぱい。:2018/04/07(土) 07:35:39.83 ID:H8LepRyi0.net
所見

サンプルの画像に対してOCRかけて
「この画像に○○のソフトでOCRかけてかけるとこういう風になりました」
ってのないの?
さすがに言葉だけじゃ微妙な感じが全然伝わらないから

40 :ハカーを待ちながら:2018/04/07(土) 22:12:54.68 ID:j2p9bLt50.net
>>39
自炊技術総合25@電子書籍板のレス番#906に、Windows版VietOCR(=ベトナム語用OCRソフト)を
使った結果のスクリーンショット画像が載ってる。
https://i.imgur.com/tj1ARCW.png

OCRエンジンは毎度おなじみオープンソースのtesseract-ocrを使ってて、VietOCRは
窓口だけのはずなのに、認識した文字列の正解率が横書きのみとはいえ何故か異様に高い。
Linux版は、インストールしてみたけど間違え方が違う程度で、Windows版には及ばなかった。

Windows環境で横書き文書をOCRしたい人は試して欲しい。

#Linux+tesseract-ocrの結果サンプル画像はもう少し待ってくれ

41 :名無しさん@お腹いっぱい。:2018/04/08(日) 00:17:10.29 ID:OEAttGvE0.net
cloudvisionは?

42 :名無しさん@お腹いっぱい。:2018/04/08(日) 00:40:34.26 ID:q/iTgbtt0.net
>>40
確かにそれは参考情報と言われれば参考情報だけど
原本が都合よすぎるだろ?
言ってみれば、OCRソフトにとって最も力が発揮出来る状況=ベストエフォート?を示しただけに過ぎないって言うか。

その原本は文字オンリーで図も表もグラフも無くて、しかも1つ1つの文字が人間にとっても明確に視認出来るから。

自炊してる人にとっちゃ家庭用スキャナでスキャンしたものはその原本までハッキリ・くっきりじゃないし、図・表・グラフ・写真・数式あるし

43 :名無しさん@お腹いっぱい。:2018/04/08(日) 00:49:22.65 ID:VYgJDjR/0.net
Ubuntuで最新tesseractビルドでも高精度認識できたよー
とりあえずスクショだけ
https://i.imgur.com/saI3kEb.jpg
https://i.imgur.com/Gs7Mokj.jpg

ビルドのやり方とかは希望あればまとめます

44 :名無しさん@お腹いっぱい。:2018/04/08(日) 01:18:01.31 ID:q/iTgbtt0.net
>>43
そっちの方が参考になった
やっぱり文章レイアウトの認識はあんまりみたいだな

45 :名無しさん@お腹いっぱい。:2018/04/08(日) 01:19:35.90 ID:q/iTgbtt0.net
OCR認識に満足してる人
数式・化学式が沢山ある理科系のページをOCRかけてごらん
グチャグチャになるよ

46 :ハカーを待ちながら:2018/04/08(日) 01:53:17.65 ID:I+ikD/OI0.net
>>43
すげえ!! 神が降臨した。

ビルドのやり方ぜひ! まとめて下さい。

>>45
うーん、気持ちは分かるんだけど縦書きの日本語小説だけがターゲットの者にとっては、
レイアウト情報以前に少しでも正確なプレーンテキストを得られそうなことが凄いのよ。

まあでもAIが正確なテキストを作ることに飽きたら、今度は正確なレイアウト情報の
再現に、ほっといても邁進してくれることでしょう。

47 :名無しさん@お腹いっぱい。:2018/04/08(日) 02:20:22.39 ID:VYgJDjR/0.net
了解です
ちとまとめるので時間ください

>>44
いやこれただのテキストデータなんでレイアウト情報は元々ない
認識文字の見比べしやすいようにテキストエディタで擬似的に縦書きや段組っぽく見せてるだけ
PDF出力すれば透明テキストはちゃんと画像の文字の上に被さるけどね

数式に関してはあれは図と同じだと思いなせえ
そもそも平テキストだけで表現できずLaTeXなどの組版処理が必要なカテゴリですやん
もともとOCRでどうこうできるものではない

48 :42:2018/04/12(木) 00:27:46.59 ID:EyDdIten0.net
遅くなってすまん
まとめるとか偉そうに言ったけどほぼに↓の通りにやっただけ
https://ameblo.jp/yoshihirow/entry-12280797214.html

1. コンパイルに必要なライブラリのインストール
2. Leptonicaのコンパイルとインストール
3. tesseract-ocr 4.0.0β のコンパイルとインストール
4. 言語データtessdataのダウンロード
5. サンプル画像でOCRのテスト

注意点としては
2.Leptonicaは公式でtar.gz貰ってくるとconfigureで引っかかるので
githubから最新ソース落としてmakeする

$ git clone --depth 1 https://github.com/DanBloomberg/leptonica.git
$ cd leptonica
$ ./autobuild
$ ./configure
$ make
$ sudo make install

4.言語データは すべて tessdata_fast (https://github.com/tesseract-ocr/tessdata_fast)を使う
jpnとjpn_vert両方入れるのが胆

5.サンプル出力 ver.4では--oem 0と2のオプションはエラーになるので使わない
言語指定は -l jpn+jpn_vert が一番精度良くなるよ

49 :42:2018/04/12(木) 00:28:08.34 ID:EyDdIten0.net
他所の環境でちゃんと動くかは分からないけど
コンパイル手順を自動化したスクリプトとビルド済みパッケージ置いときます
作成&テスト環境
  windows10 WSL Ubuntu 16.04.4 LTS
  vagrant ubuntu/xenial64 (vurtualbox)

ビルド自動スクリプト --> https://www.axfc.net/u/3902696.zip
ビルド済パッケージ(.deb) -> https://www.axfc.net/u/3902697.zip

50 :ハカーを待ちながら:2018/04/12(木) 23:19:55.32 ID:vCwgAmwn0.net
>>48
まとめ作成お疲れ様です。

tesseract-ocr4.00αをインストールするとき、自分も当時同じサイトを参考に
しましたけど、Leptonicaもtesseract-ocrもそれぞれバージョンが上がってたのね。

とはいえ最新ソースからmakeするとか言語ファイルをtessdata_fastから取ってくるとか、
自分ひとりでは絶対思いつかないし、あまつさえインストール用のシェルスクリプト
(Windowsでいうバッチファイルみたいなもの)まで作ってくれて、どうもありがとう。

既存環境との衝突防止対策するより、バージョン違いのWineとのからみもあるので、
MicroSDカード上にクリーンなxubuntu環境を作って、そこにインストールしようかな。

当方32GBのMicroSDHCをUSBに変換するアダプタに挿して、切り替えボタン付きのUSBハブから
ブートさせてxubuntuを使っているので、複数のMicroSD+USBアダプタさえ用意すれば異なる
Linux環境をUSBハブのボタンひとつで使い分けられて、そこそこ便利です。

でも同じOSをインストールしているはずなのに、出来上がった挙動やファイル構成が微妙に
違うのは、再インストールしたWindowsと似たようなもんかしら。

51 :ハカーを待ちながら:2018/04/16(月) 16:40:46.99 ID:jfy34C3d0.net
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。

以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。

オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
 https://imgur.com/FRIY8a9

以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく(だからテキスト化するのだが)、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。

最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
 https://imgur.com/21b2PK4

[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。

最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
 https://imgur.com/6Yh4riW

後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。

52 :ハカーを待ちながら:2018/04/16(月) 17:33:07.75 ID:jfy34C3d0.net
最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://imgur.com/OmTeJEv

jpnだけだと半角スペースが入りまくりだが、jpn+jpn_vertで見事に消える。
認識結果を一つ前のと比較すると、全体に大振り気味で当たれば見事ホームランだが外すと
余計な文字が混入する感じ。『ピーキーなチューニング』とでもいうべきか。
--oem オプションで0を選択できない(=複数のOCRエンジンを使用)せいか、CPUパワーの
消費が三倍くらい増える。

53 :名無しさん@お腹いっぱい。:2018/04/16(月) 19:06:06.80 ID:53RTfDRz0.net
ルビが入った時の処理が気になる
ソフトによっては一行とみなして空白だらけの一行ができたり、完全に無視して勝手に除去したりするから
後者も問題だけど、前者の場合手動修正の手間が相当増える
ルビを含めて1字として処理して、認識不能を返すのは論外

54 :ハカーを待ちながら:2018/04/16(月) 19:28:05.86 ID:jfy34C3d0.net
ふと「ノイズの極少ない元画像からならどこまでやれるのか?」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。

22ポで画面上に再現した擬似元画像
https://imgur.com/Z967Vz9

それをOCRした結果のスクリーンショット
https://imgur.com/Psbsp9m

つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。

ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか? になっていくのでしょうか。

55 :名無しさん@お腹いっぱい。:2018/04/16(月) 20:17:56.21 ID:0tAKuDhz0.net
>>51のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。

https://imgur.com/a/3TL1i

56 :名無しさん@お腹いっぱい。:2018/04/16(月) 20:42:37.96 ID:JXJw+uBT0.net
CloudVisionはOCR性能は抜群なんだけど縦書きの属性情報は返してくれないみたいで
>>34の方法で透明テキスト付PDF作るとき難が出るんだよね
惜しい
https://github.com/tmbdev/hocr-tools/issues/54

57 :名無しさん@お腹いっぱい。:2018/04/16(月) 20:49:18.86 ID:0tAKuDhz0.net
>>56のgithubに投稿した者だけど、hocr-toolsでpdf生成に使っているPythonのreportlibが日本語縦書きをサポートしてないことまではわかりましたw

reportlibを弄るのは手に余るので、求むハカー!ですw

58 :名無しさん@お腹いっぱい。:2018/04/16(月) 20:56:21.22 ID:0tAKuDhz0.net
ただ、GCVのjson出力は文字の座標を返すので、次の文字の座標を考慮すれば縦横判定はできるかもしれない。

あと、縦横混在はさすがにきつい。
事前に画像を切り出しておくと大丈夫だけど。

レイアウトを考慮するオプションが英文だとあるけど、日本語はまだみたいw

59 :ハカーを待ちながら:2018/04/16(月) 23:01:41.54 ID:jfy34C3d0.net
>>55
同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://imgur.com/sEPqF76

改行コードが半角スペースにされているので、置換するとほぼ原文に正確な
認識結果が得られているのが分かる。

とはいえいくら優れたOCRとはいえ、誰がやっているのか分からないネットの
向こう側に金玉を握られているような状態ってのはやっぱ釈然としないのよ。

自炊行為の是非以外にも内部の文書をネットに放流するリスクとかもあるし、
Google Cloud Vision APIがとてつもなく優れているのはよく分かるんだけど、
エンドユーザーにAPIとやらを扱うのは簡単じゃないし、ネットに繋がないと
結果が得られないなら、いっそスタンドアロンのお手元のハコの中でなんとか
できる範囲で改良を……と、もう少しtesseract-ocrをいじっていたい。

最新のマシーンZが優れているのは分かるけど、共に死線をくぐってきた
ロボットマンにこだわりたかったあきらくんのように。
(コミック版「ミクロマン」はいいぞ)

まあ結局は乗り換えたんですけどね。

60 :名無しさん@お腹いっぱい。:2018/04/16(月) 23:39:00.31 ID:JXJw+uBT0.net
>>57
gcv2hocrの作者様ですね。有用なツール開発ありがとうございます

縦書きPDFの出力は tesseract 4.0 や OCRmyPDFがが実現してるので
pdfrenderer.cpp あたりの出力部分だけ切り出して何とかならないのかなあ、なんて
なんつって自分はソース見ても全然理解できなかったですが
json座標から縦横判定のほうが厳しそう
googleさんは解析時に縦横分かってるわけだし今後のアプデでオプション増えるのを期待


個人的に自炊PDF(OCRなしで画像のみ)を画像劣化なしでサーチャブルにするツールが欲しくて調べてた

 ・OCRmyPDF (tesseractエンジン 元々そういう用途向き)
 ・tesseract 4.0 → 画像を含まない透明テキストのみのPDFが作れる (-c textonly_pdf=1)
 ・gcv2hocr + hocr-tools →フォーク版で画像を含まない透明テキストのみのPDFが作れる(--nodraw)
  https://github.com/zvezdochiot/hocr-tools

→ pdftk の multibackground オプションで画像pdfと透明テキストpdfを重ねる
  pdftk images.pdf multibackground text.pdf output full.pdf

Win使いがAcrobatだのe.Typistでコレジャナイ感味わい続けてる間に
linux界隈ではとっくにできるようになってたという…
exe化して1パッケージにまとめればWinの自炊者にも需要あると思うわこれ

61 :名無しさん@お腹いっぱい。:2018/04/17(火) 00:21:57.55 ID:QTvH3ncM0.net
>>54
補正に関しては自炊ノウハウも確立してるので自分はわりと楽観してるわ
自力で納得のいく補正かけた後に任意のタイミングで
OCRかけられてPDFにできるというアドバンテージは大きい

程度の低い話ですまんがWindowsでOCR付き自炊PDF作ろうとすると
スキャン時にPDFで保存するか(黄ばみや斜行がひどくても後修正が困難)
後からAcrobatなどの有料ツールでPDF化するか(せっかく補正しても画質劣化する上に認識率も超残念)
ポピュラーな方法がこの2者だったのよね

62 :名無しさん@お腹いっぱい。:2018/04/17(火) 05:54:08.82 .net
画像アップするなら .jpg まで付けてリンク張ってくれ
一々リンク先まで飛ぶのが面倒

63 :名無しさん@お腹いっぱい。:2018/04/17(火) 10:22:08.67 ID:HdViBi2B0.net
>51
> オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
https://i.imgur.com/FRIY8a9.png
> 最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
https://i.imgur.com/21b2PK4.png
> 最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
https://i.imgur.com/6Yh4riW.png

>52
> 最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
https://i.imgur.com/OmTeJEv.png

>54
> 22ポで画面上に再現した擬似元画像
https://i.imgur.com/Z967Vz9.png
> それをOCRした結果のスクリーンショット
https://i.imgur.com/Psbsp9m.png

>59
> 同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
https://i.imgur.com/sEPqF76.png


泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン&専ブラのサムネ表示の重要性を痛感するわ

64 :名無しさん@お腹いっぱい。:2018/04/18(水) 11:26:59.67 .net
>>63
さっそく拡張子付けてくれたね

65 :ハカーを待ちながら:2018/04/18(水) 21:35:49.78 ID:cpORIMNk0.net
>>63
どなたか存じませんが、代わりにお手数ありがとうございます。

この手のサイトにアップロード自体初めてで、ボツ画像を何倍もアップしたのは内緒。
画像上→右クリックで拡張子込みのアドレスが得られるのね。次回があればそうします。

66 :ハカーを待ちながら:2018/04/20(金) 23:15:45.08 ID:Vm4QLpiQ0.net
最新版tesseract-ocrの認識スコアが最後まで前回レベルで持続できていたら問題はない
のですが、残念ながら大振りゆえブレ幅が大きく、外したときは「なんでこうなるの?」
という結果になってしまいます。。

300dpiでスキャンした元tiff画像
  https://i.imgur.com/yPcJCI0.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/eBH0JQn.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/buq3aE5.png
これだと旧バージョンの方が間違える幅が小さいと感じられるのではないでしょうか。

では元画像をチューニングすることでもう少し何とかできないか? Linux界にはImageMagick
というコマンドラインから使う画像変換ツールがあるので、ぼかしオプションを適用して
もう少し滑らかな曲線に近づけてからOCRしてみました。 

元tiff画像をImageMagickで-blur(ぼかし)オプションを施して太く滑らかにした画像
  https://i.imgur.com/AQey4zb.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/TK4GNwm.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/Mr61je5.png

果たしてOCRには画像がどう見えているのか? 結果は変われどあさっての方に振っています。

67 :ハカーを待ちながら:2018/04/20(金) 23:23:17.07 ID:Vm4QLpiQ0.net
しつこく今度はノイズ除去オプションを使ってみます。
元tiff画像をImageMagickで-despeckle(ノイズ除去)オプションを施して滑らかにした画像
  https://i.imgur.com/8CE8uD3.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/0HQ6Pog.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
  https://i.imgur.com/JithSee.png

どうも何というか、こじらせているというか、なかなか言うことを聞いてくれないですね。

68 :名無しさん@お腹いっぱい。:2018/04/21(土) 10:32:53.20 ID:TzRxXe7t0.net
ディティールの失われてる2値画像を後から弄ってもどうにもならんよ
検証用の画像はグレースケールかフルカラーでスキャンしたものを用意する
(業務用複合機だとデフォルト値が輪郭強調の超圧縮モードなのでオプション設定には注意が必要)

過去のものは従来tessaですでにデータ化済んでるんだろうし
今から再OCRのために骨折ってもしょうがない
完全移行の方向でなく単に検証のためにやってるならなおさら
紙原稿残ってるなら再スキャンしてやり直しもいいけどね

69 :名無しさん@お腹いっぱい。:2018/04/21(土) 14:10:45.01 ID:TzRxXe7t0.net
あー… よく見たら2値画像をカラータイプ変換も拡大もしないで補正かけてんのね
これはヒゲ増えただけでボケてないしOCR的にどうとかいう以前に補正かけた意味がない
https://i.imgur.com/EzPduGV.png
画像に関してある程度のフォーマット知識と目視で判断できる眼や環境がないと
検証に値する画は作れないと思う
これでは勤勉な無能者状態で、申し訳ないが何の参考にもならないし誰の得にもならない

コマンドラインでがんばりたい縛り?なのか知れんけど
まずはGIMPなりでプレビュー見ながら調整して設定詰めて方針が固まったら
本運用時にImageMagickにメモっといたパラメータで流し込むとか手順踏んだほうがよくない?

70 :ハカーを待ちながら:2018/04/23(月) 01:44:27.61 ID:ATRq3RKx0.net
>>68
>>69
高度なアドバイスをありがとう。ご存知の通り画像処理はやったことないし、知識もない。

出がらし状態の死体にいくら細胞活性剤を注入したところで生き返る訳がないのは当然だけど、
せめてゾンビ程度に動けるようにできないかなと、今度はInkscapeを使ってビットマップを
ベクターデータに変換したものを再度pngにしてみたよ。

肉眼にはノイズが減ってクッキリとしたように見えるが、さてOCRからはどう見えるか。
 https://i.imgur.com/u1WXYIs.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
 https://i.imgur.com/Ky49xV0.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
 https://i.imgur.com/i9QwHS7.png

……やはり修正しやすさからいうと、一つ前のtesseract-ocrかな。

不完全なテキストを校正するには、sedによるフィルター処理で複数箇所の一括置換を
やってるんだけど、途中でもっと良いやり方がないかと思って何度もOCRからやり直す
もんだから、文庫や新書をひらきにしたスキャン画像は十冊分くらいあるんだけど、
テキストデータの校正を終わらせて完品にまで至ったのは実はないんだわ。

何度も繰り返すうちにちょっとずつ正解率も向上してはいるんだけど、今度は再スキャンも
検討してみます。

71 :sage:2018/04/23(月) 15:36:58.50 ID:3ep7Hu9S0.net
OCRで、ごくまれになのだけど、な-た の誤読があって。
これにまいったのが遠い思い出。されたい されない  というのは
あまりに神経を使うので、自分で校正するのを諦めた。

72 :名無しさん@お腹いっぱい。:2018/04/26(木) 02:18:58.59 ID:dUhJb3xD0.net
されたい と されない をどうやって校正してたんですか?

73 :sage:2018/04/26(木) 11:36:23.50 ID:ek6J62ek0.net
突き合わせ。それしかないだろう。みつけるのは、文脈。

74 :名無しさん@お腹いっぱい。:2018/04/26(木) 21:38:26.21 ID:dUhJb3xD0.net
さすがに肉眼じゃなくて、検索/置換とかgrep的なツールを使ってサーチ、ですよね?

75 :名無しさん@お腹いっぱい。:2018/04/28(土) 22:11:29.01 ID:bWQs2w/K0.net
あのね、ほんの30年前までは万葉集の中に「●」という文字が
何か所使われているか、一晩徹夜で5回最初から最後までめくって
書き出してリストを作ってたの。

76 :名無しさん@お腹いっぱい。:2018/06/01(金) 10:48:04.16 ID:Qi+8uYQ40.net
同好の士がいるみたいなので私のやり方の一つを紹介

縦書き小説のテキスト化限定
段組み無しか2段組み程度のレイアウトの単純なもの限定
読取革命使用前提

スシャン画像の傾き補正余白除去など画像処理を程々にする

処理した画像を横に8ページ分つなげる(2段組みの場合は縦に6ページ)※これが校正作業効率化の肝

つなげた画像を読み込ませて読取革命で作業


認識率アップは程々に
校正作業効率アップの方が気楽

77 :名無しさん@お腹いっぱい。:2018/06/01(金) 10:50:24.17 ID:Qi+8uYQ40.net
スキャン画像・・・

78 :名無しさん@お腹いっぱい。:2018/06/01(金) 11:02:23.02 ID:Qi+8uYQ40.net
もう一つ

校正前のテキストをワードで開く
原本のページ体裁出来るだけワードで再現する
(用紙サイズ、字数、行数、字間、行間など)
ウインドウ透明化ソフトでワードを半透明化最前面
元画像をにワードを重ねる(行間に重ねたり)
比較校正作業

79 :名無しさん@お腹いっぱい。:2018/06/07(木) 22:56:25.84 ID:oM4s8ZW30.net
ルビが扱いたいと結局e.Typistしか選択肢がない感じがあるけど
e.Typistは――とか・・・・・・にすごく弱い感じがする
ーや1として認識されるならまだいい方で
空白を認識する設定にすれば空白として出力してくれるけど
逆に言えば文字としては認識されてないことが多いので修正も不能で困る

80 :ハカーを待ちながら:2018/06/15(金) 21:07:25.53 ID:lat6DNLI0.net
>>76-78
新たなノウハウの提供ありがとうございます。

OCRからの校正作業は未踏の部分が多いし、未だ正解がある訳でもないですから、
こうして持ち寄ったノウハウが少しでも蓄積していくと良いですね。

透過して元画像とテキストを重ねるってのは自分も一度は考えたけど、当時
Linuxでまともに縦書き表示のできるテキストエディタとかワープロはなかった
ので、結局縦書きの元画像と横書きのOCR化テキストを横に並べて見比べるしかなかった。

まあでもLinuxも悪いところばかりじゃなく、1ページずつ200件超えに分割されたまま
一冊分のテキストファイルをタブで全部開き(ページの移動はタブ上でスクロール)、
開いた全ページに跨って検索/置換ができるBluefish(本来はHTMLエディタ)とか
Geany(本来はIDE)が使えるので、Meryやotbedit時代のように検索/置換のために
ひとつのファイルに結合してから校正という手段を取らなくて済むのは良かった。
(好みというか選択肢の問題ね)

今は元画像とテキストファイルを一対一で、突き合わせが終わった分だけ閉じています。

ただ何故かLinuxのエディタって行間を広げるオプションがないのが多くて、仕方なく
ttfname3.exeを用いて(Wineで実行)フォント側で行間を広げる加工をしたのは余談。

81 :名無しさん@お腹いっぱい。:2018/06/16(土) 09:37:39.11 ID:TK7ks+ws0.net
長文駄レスは過疎の元
自分語りは程々に

82 :名無しさん@お腹いっぱい。:2018/06/16(土) 13:35:14.61 ID:7Ojo0RlC0.net
スレの性質上、情報提供は歓迎
長くても読みとれる情報はある
脳のOCR機能を鍛えるべき

83 :名無しさん@お腹いっぱい。:2018/06/16(土) 14:01:15.28 ID:TK7ks+ws0.net
情報提供レスが長文になるからこそ雑談は短文で抑えるべき
要点の無い長文日記と入り混じるとどれが重要なレスなのかわからなくなる

この手のスレは情報収集&提供目的を主として見に来る人がほとんどだし
匿名掲示板で名無し書込みする人間の多くは(特定のコテハンとの)
「過度」の慣れ合いは求めてない、ということを念頭に入れましょう
winユーザーにlinuxでの苦労話で返すようなのは相手の目線に立ってるとも言い難い
雑談するにしても簡潔に

84 :名無しさん@お腹いっぱい。:2018/06/16(土) 17:16:54.01 ID:DpwT78Ra0.net
長文駄レスやめーや

85 :名無しさん@お腹いっぱい。:2018/06/17(日) 14:51:45.64 ID:UW0RCtPR0.net
そんなルールはないぞ

86 :名無しさん@お腹いっぱい。:2018/06/20(水) 00:23:42.81 ID:4KCvLiUk0.net
MSのOCRはどうなんかね?
https://docs.microsoft.com/en-us/uwp/api/Windows.Media.Ocr#code-snippet-4

87 :ハカーを待ちながら:2018/07/10(火) 16:36:25.03 ID:oMs2MPt30.net
>>83
うーん、>>80を『Linuxの苦労話』としか読んでもらえなかったのは残念だな。
後半の「おかげでWindowsだけ使っていた頃にはできなかった
 ・200件超えのテキストファイルを一度に開ける
 ・開いている複数のファイルに跨って検索/置換ができる
ことができるソフトに出会えた」ってのがキモなので(だから固有名詞を出してる)、
期待していたレスは『○○というエディタならWindowsでも同じことができますよ』
だったんだけどね。

実際「Windowsで(上記2点)ができるエディタを教えてください」って質問を投げれば
一行で済むけど、経験上質問を一行しか書かない奴って返答してもダンマリだし、人様の
知見をお借りする前に自分でどこまで試したか? を加えて書き直すと、

「Meryやotbeditではできない(上記2点)ができるエディタを教えてください」

『そんなことできるのか?』というツッコミがあるかもしれないので、自分なりの
知見を追加して更に書き直すと、

「Meryやotbeditではできない(上記2点)ができるエディタを教えてください。ちなみに
LinuxではBluefish(本来はHTMLエディタ)とGeany(本来はIDE)ではできました」

これを自分なりに雑談めかして書くと >>80になるのだが、内容がつまらないと言われると
申し訳ないとしか言えないけどね。

で「Windowsで(上記2点)ができるエディタ」について何かご存じない?>>all

88 :名無しさん@お腹いっぱい。:2018/07/10(火) 16:44:44.78 ID:DcKO8Dw00.net
長い
要点3行でまとめて

89 :名無しさん@お腹いっぱい。:2018/07/11(水) 00:52:02.90 ID:xEXPfRdD0.net
画像背景のエディタはAA用のがあったと思うけど縦書きには対応してないと思う。
MS WORD には、画像背景として重ねて文字を入力できる機能があった気がするけど
HTMLなら透過レベル指定できると思う。

HTMLでも writing-mode vertical-rl で縦書きできるんだな。

90 :名無しさん@お腹いっぱい。:2018/07/11(水) 11:08:12.89 ID:oaLZdIB/0.net
Linuxなんてただで手に入るし、情報の入手が簡単な現代では小学生でも導入できます。

91 :名無しさん@お腹いっぱい。:2018/07/11(水) 11:36:57.04 ID:exMQ5TB90.net
いろいろずれているな

92 :名無しさん@お腹いっぱい。:2018/07/11(水) 11:59:37.61 ID:gc/ZijI10.net
ぶっちゃけOCRの用途はPDFに透明テキスト埋め込むのが目的な人が多いだろうし
それは置いとくとしてもテキストエディタ云々はもうOCR関係なくない?

200pを各ページごとにファイル分けて全部一遍に開きたいというのは運用としても特殊すぎる
Grepで横断検索できてピンポイントでファイル開ければ
同時オープンファイル数は20もあれば充分だと思うが

93 :名無しさん@お腹いっぱい。:2018/07/11(水) 16:59:13.66 ID:exMQ5TB90.net
完全なテキスト化を目指す人にしてみればそっちも重要

94 :名無しさん@お腹いっぱい。:2018/07/11(水) 17:04:31.64 ID:exMQ5TB90.net
校正作業効率化 その3

複数ファイル複数条件一括置換ソフト
「TextSS.net]

いろいろ捗る

95 :名無しさん@お腹いっぱい。:2018/07/25(水) 21:52:36.75 ID:u4/38rAZ0.net
>>92
まあ確かに完全テキスト至上派といえども、200ページ以上にまたがった
要・校正テキストファイルをイッキに処理できる集中力の持ち主なんてのは
完璧超人か紙一重だろうから、常人は真似できないしするべきでもないし、
確かに実際は一度に20件も開ければ十分だろう。

ただ、できるけどしない と できないからやれない とは違うから、
ツールの限界は少ないほうがいいし、選択肢は多いほうがいいと思うぞ。

せめてタブで開いた複数のファイルに対して一度に検索/置換できた方が
便利だと思うが、Windows用でご存じないか?

ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も
実はある。

96 :名無しさん@お腹いっぱい。:2018/07/25(水) 22:14:26.85 ID:u4/38rAZ0.net
#折角なので乗っかる

校正作業効率化 その4

対象がフォルダでもファイルでも検索して、置換もできるツール
Devas

すでに開発は終了したようだが、Wineを介せばLinux上でも動作するのが◎。
検索結果の文字がセンタリングされて上下でビシッと揃うので視認性も◎。
検索結果を好みのエディタで開けるように設定できるのも◎。

97 :名無しさん@お腹いっぱい。:2018/07/26(木) 00:25:51.34 ID:ehCn6mO80.net
ファイル開いてなくてもgrepで一括検索も置換もできるし
200ファイル開いて操作するほうが大変なのでできないよりできたほうがいいとも思わない



>ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も実はある。
ならそれ使えばいいんじゃないですかね
無理難題系をわざわざ人に聴かなくても自分で出来るソフト知ってるならさー

98 :名無しさん@お腹いっぱい。:2018/07/31(火) 00:40:51.95 ID:XFv/+RTU0.net
>>97
>ファイル開いてなくてもgrepで一括検索も置換もできるし
>200ファイル開いて操作するほうが大変なのでできないよりできたほうがいいとも思わない

――そんなふうに考えていた時期が、俺にもありました。
確かにファイルを開かずともgrepやsedで検索/置換はできるけど、修正すべき間違いを見つけるには
結局一件ずつファイルを捲って見つけなきゃならなかったのよ。

勿論こういう作業に正解がある訳もなく、己の趣味とか流儀に従って粛々と各自でやっていくしか
ないけど、多様性の確保のためにも自分の流儀にかなわない手法を否定してほしくはないけどね。

>>ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も実はある。
>ならそれ使えばいいんじゃないですかね
>無理難題系をわざわざ人に聴かなくても自分で出来るソフト知ってるならさー

ィャ自分が知らないだけで世の中にはもっと優れたソフトがあるかもしれないから、
それを知りたくて、知ってる誰かに会えるかもしれないから、ひとはこうして掲示板に
集うんじゃないの?

99 :名無しさん@お腹いっぱい。:2018/09/13(木) 11:21:16.21 ID:E3IKZGva0.net
3年ぶりに覗きに来たけど読み取り革命まだバージョン上がってないんか。
250dpiぐらいの低解像度のOCR得意なオススメありませんか?

100 :名無しさん@お腹いっぱい。:2018/09/13(木) 12:21:48.97 ID:MMXNUVI90.net
>>99
苦手なのは国会図書館から提携図書館に送ってもらったコピー。

認識率が悪いときはコントラストとガンマ値を調整すると、それなりに読める。

101 :名無しさん@お腹いっぱい。:2018/09/13(木) 12:22:24.02 ID:MMXNUVI90.net
>>100
2年前から読み取り革命を使ってます。

102 :名無しさん@お腹いっぱい。:2018/09/13(木) 20:22:21.28 ID:fiE6t4/U0.net
日本語音声入力と日本語OCRの停滞ぶりは凄いよね。日本語というのは損な言語なんだね。

103 :名無しさん@お腹いっぱい。:2018/09/13(木) 21:27:50.69 ID:/U9Rgttz0.net
>>102
需要が一段落したのでは?

新しい文書は電子化されてるし、主要な活字本はOCRで取り込んだ。

次のターゲットは、手書き、特に古文書だろうけど、あまりにもニッチ。

104 :名無しさん@お腹いっぱい。:2018/09/23(日) 22:14:27.95 ID:6ExiKjjd0.net
>>103
ぜんぜん電子化されてないじゃん。いまだに断裁しているよ。紙の本は滅びて欲しいわ。

105 :名無しさん@お腹いっぱい。:2018/09/23(日) 23:33:25.62 ID:zSxXIagU0.net
とりあえず>102がGCV使ったことないのは分かった
googleさんはここ数年でむっちゃ進化すすめてるやろ

106 :名無しさん@お腹いっぱい。:2018/09/23(日) 23:48:00.36 ID:SMtG23ki0.net
GoogleのCloud Visionでアプリ作ったものですが
これをWindows向けに開発して
リリースしたら需要あるみたいですね?

まぁGCV自体従量制なんで、
ポイント式にしないと危ないですが
Windowsでも出来たかなぁ

107 :名無しさん@お腹いっぱい。:2018/09/24(月) 02:04:54.60 ID:7ukO3Jjb0.net
手書きとか写真からの文字抽出とかは進化してるけど、
スキャン文書の99.9%の認識率を99.99%に上げるような進化はしてないよ
ーー(二重ダッシュ)がかすれ扱いされて消されたり
ルビを巻き込んで盛大にグチャるのも10年前から変わらん

108 :名無しさん@お腹いっぱい。:2018/09/24(月) 09:48:02.72 ID:rfZDVbAs0.net
そりゃどこまで行ったって100%完璧にはならんだろ
それを停滞というのならもうOCRは諦めろとしか

>>106
ユーザーが自分のAPIキーを設定できるようにしてくれるとありがたい
もちろんGCP使えるエンドユーザーは限られるだろうからソフト内の課金制度も
平行して必要だとは思うけど

109 :名無しさん@お腹いっぱい。:2018/09/24(月) 12:06:18.22 ID:7VNGbKqX0.net
>>105
本当に?じゃあ使ってみるわ。俺はメディアドライブとかAdobeとかXEROXのOCRを使って毎日ゲンナリしています。

110 :名無しさん@お腹いっぱい。:2018/09/25(火) 13:21:20.30 ID:1YzzlqqB0.net
>>108
返信ありがとう。
APIキーと課金両方つけるアイディアはいいね。

111 :名無しさん@お腹いっぱい。:2018/09/25(火) 20:38:03.49 ID:z28g25+q0.net
良かったら作ったOCRアプリの名前教えてほしい
せっかくだから試してみたい

112 :名無しさん@お腹いっぱい。:2018/09/25(火) 21:00:00.34 ID:1YzzlqqB0.net
>>111
興味を持っていただきありがとうございます。
ClipOCRというアプリです
iOSで出してます

113 :名無しさん@お腹いっぱい。:2018/09/26(水) 02:36:36.23 ID:Z9NJjTaq0.net
iosかあ残念持ってないや
GCV使用だからって泥アプリとは限んないやね

114 :名無しさん@お腹いっぱい。:2018/09/26(水) 15:32:33.40 ID:3VULbJ260.net
Windowsアプリ興味あるんで
OCRアプリ作ってみようかなと思います。
今ゲームアプリ作ってるんで
平行しながらになるとは思いますが。

115 :名無しさん@お腹いっぱい。:2018/09/26(水) 15:46:44.32 ID:6shTwqUF0.net
がんばれー

116 :名無しさん@お腹いっぱい。:2018/10/18(木) 06:31:56.70 ID:xqmBS9U/0.net
ocrで自炊完全テキスト化なんて幻だろ
自炊本全部リフローにしたい野望はみんな一度は夢見るが現実はまだ無理

117 :名無しさん@お腹いっぱい。:2018/10/21(日) 21:47:44.30 ID:J8kL1sRl0.net
「できらあ!」

と言いたいところだけど、現実は

「(時間と手間さえかければ)できらあ……」

くらいしか言えないけど、それじゃイヤなんだよね?
スキャンするなり即修正無しで使えるようでないと。

118 :名無しさん@そうだ選挙に行こう! Go to vote!:2018/10/22(月) 08:29:07.17 ID:lKYGaXGm0.net
AI のできしだいだろうなぁ

119 :名無しさん@お腹いっぱい。:2018/10/22(月) 11:56:35.83 ID:9+FR8jVB0.net
結局のところ、googleのエンジンが一番優秀ということ?
そうなら、googleエンジンを組み込んでる市販ソフト買えば使えるね。

120 :名無しさん@お腹いっぱい。:2018/10/29(月) 16:05:36.04 ID:URrtjB+G0.net
Google様でも手書き文字は全然ダメだね。

国内メーカーの企業向けのOCRって月ん百万取ってるけど、
Googleエンジンより出来が良いのだろうか?

121 :名無しさん@お腹いっぱい。:2018/10/29(月) 17:58:02.72 ID:cRbXFyKJ0.net
>>120
そんな事はないが、Googleだって企業向けは当たり前に金取るから。
一日中検索してたらGoogleから50万円だったか請求する画面出て来たよ。免除してもらったが。

122 :名無しさん@お腹いっぱい。:2018/11/05(月) 18:13:32.12 ID:18FQZOi80.net
業務向け(BtoB)で高額でも、出来が良いとは限らない

>>112 が無料でリリースしてるOCRにも劣る大手企業のソフトなんて普通に有りそう

123 :名無しさん@お腹いっぱい。:2018/11/05(月) 18:17:14.26 ID:0FMJmniL0.net
すげー処理が遅くなると思うけど、レイアウト認識・文字の切り取り・文字認識 等、各プロセスで得た複数の候補を(結果的に膨大な候補になる)、すべて辞書と照らし合わせるみたいな、
ディープラーニング(自分門外漢なので言葉の使い方に不安)みたいな事をやってくれるソフトは無いものか。

計算資源をバカ食いする点以外は、技術的にはそれほど難しくないとおもうけど。

124 :名無しさん@お腹いっぱい。:2018/11/05(月) 18:21:01.26 ID:0FMJmniL0.net
連投すまない。補足。既存の技術の組み合わせで出来るのではという意味。

125 :名無しさん@お腹いっぱい。:2018/11/05(月) 18:28:05.57 ID:/T2ZmVqB0.net
>>123
レイアウト認識と文字の切り出しを別のステップに分けるのが案外、難しい。

人間なら簡単に認識できるけど機械には難しい画像を利用したのがCAPTCHA

126 :名無しさん@お腹いっぱい。:2018/11/05(月) 20:57:32.60 ID:0FMJmniL0.net
>>125
返信ありがとう。
レイアウト認識の段階で誤りがあるとその次のステップに進んでも答えに辿り着けないという事でしょうか?

自分もそれについては全く同意見なのですが、前段階での認識候補を複数出し、その次でのステップでも、前段階で上がった複数候補を愚直にすべて処理し、各候補ごとに更に複数候補を‥というのを続け、
ネズミ算的に膨れ上がった候補から辞書を使って答を探る事は出来ないのかなと思ってます。

そうではなくて言葉通り”レイアウト認識と文字の切り出しを別のステップに分けるのが難しい”という意味でしたらすみません。

127 :名無しさん@お腹いっぱい。:2019/01/24(木) 02:28:33.48 ID:q/RnbuRc0.net
喰いが止まってるので投下。

校正作業効率化 その5

「ScanTailor」

えるち某みたいなのがLinux陣営にも欲しいものだと思っていたら
ちゃんとあった。Windows版も。

画像フォルダを丸ごと読み込んで、
 ・見開き画像を左右に分割
 ・傾きを補正
 ・トリミング
 ・余白付加
 ・ゴミ取り
 ・dpi変更
 ・濃度調整
上記を複数頁に対して一括自動実行して、新たな画像が作られる。

使ってみたがOCRのヒット率は向上したような気がするし、少なくとも
生スキャン画像にありがちな上下左右への偏りを除去できるから、
ビュアーでペラペラめくるときに同じ位置に揃うので見やすくはなる。

惜しむらくはノンブルを自動除去できないのと、上下に分割はできない
こと(二段組の小説とかで)だな。

128 :名無しさん@お腹いっぱい。:2019/01/24(木) 18:19:29.58 ID:ltsIJbyU0.net
>>127
なかなか良さそう。帰ったら試してみる。

もっとも、本当に欲しい機能は、
GoogleのOCRの前処理で
1. ノンブルを含む余白の自動カット と、
2. 縦複数段組の自動分割 なので、
かゆいところには手が届かない、かな。

129 :名無しさん@お腹いっぱい。:2019/01/24(木) 20:58:14.74 ID:oC0eBe300.net
エチル、読取革命時代からなんも進歩してないじゃねえか

130 :名無しさん@お腹いっぱい。:2019/01/28(月) 19:33:43.72 ID:YbE5uvwR0.net
ScanTailorはだいぶ前から全然アップデートされてないと思ってたら、別の所にScanTailor Advancedなんてのが出てるんだな。
まだ普通に検索しても一発で出てこない。

ScanTailor Advanced
https://github.com/4lex4/scantailor-advanced/releases

131 :名無しさん@お腹いっぱい。:2019/04/22(月) 13:29:43.28 ID:EQQ1i8Cu0.net
LINE(PC版とAndroid版)の新機能がOCRの文字起こし機能をいつのまにか搭載してたようだよ

Googleやtesseractと比べてどうなのかな?

こうなってくるとLINEの友達にOCR変換投げつけ用アカウントの人が必要だw

132 :名無しさん@お腹いっぱい。:2019/04/23(火) 03:18:57.23 ID:f3SIBRKk0.net
レシート読み取りに関してはレシーピが最高。
グラム(g)を9と読み取るためにおかしくなる以外は濁音半濁音を間違う程度で正確に読み取る。
濁音半濁音は出来るだけ画面いっぱいで手振れ無しで撮らないとよくミスる。
グラム(g)とか数字+改行とかは修正ペンで消してから撮影すれば、金額はほぼ100%正確に読み取ってくれるんで修正が必要ない。
割引もマイナス値で読み取ってくれる。

133 :名無しさん@お腹いっぱい。:2019/04/24(水) 17:27:12.85 ID:H2ck4f350.net
OCRする前に、原稿が上下逆かどうかを自動判別する手法、何か無いですか?
Linuxで使える物で

134 :名無しさん@お腹いっぱい。:2019/04/24(水) 23:45:13.63 ID:3bEMxS/C0.net
普通に考えて「OCRする前に」は無理だろう。

135 :名無しさん@お腹いっぱい。:2019/04/26(金) 21:22:29.83 ID:AqpcAtpT0.net
そのままOCRをして。上下逆にしてOCRして、
2種類の日本語の単語数を数えて、(どんな方法かは分からない)
多い方を正解にするとかは?

136 :名無しさん@お腹いっぱい。:2019/04/29(月) 11:28:12.88 ID:0UVs2aXB0.net
>>133
ドキュメントスキャナには上下を自動的に判別する機能があるよね。ドライバを解析すればわかるかもね。

137 :名無しさん@お腹いっぱい。:2019/05/01(水) 07:14:36.04 ID:ACgFkkVG0.net
>>133
領域を9等分して、明るさを数値化する。明るい区画は空白が多いという事だから、下になる。
領域を細かく分ければ精度が上がる。

138 :名無しさん@お腹いっぱい。:2019/05/04(土) 09:49:33.30 ID:G0ocSySL0.net
>>137
なるほど。ありがとうございます。
これだと、言語を問わず判定出来そう。

139 :名無しさん@お腹いっぱい。:2019/05/04(土) 15:42:35.53 ID:mwZ9gCOS0.net
>>138
横書きなら右に空白が増え、
縦書きなら下に空白が増え、
同じ横書きでもアラビア語みたいに右から書くと左に空白が増える。

この方法を使うためには、縦書きか横書きかを決めておく必要があるのでは?

140 :名無しさん@お腹いっぱい。:2019/05/08(水) 21:36:16.90 ID:mvroD7C30.net
>>76 に追加

読取革命でほとんどのエラー(フリーズ、エンドレス処理など)は
属性変更→認識→文字種→
で「記号」のチェックを外すことで回避できる
必要な記号は「ユーザー定義」欄に入れる
「」『』()、。ー…・!?々 など

ようやく気付けた・・・
私の環境だけ?

141 :名無しさん@お腹いっぱい。:2019/05/29(水) 07:43:25.13 ID:AmFhZwjQ0.net
tesseractでそれぞれの文字の一致率が何%だったのか取得することってできない?
もしくは高性能なOCRソフトで一致率が何%だったのか取得できるものない?

142 :名無しさん@お腹いっぱい。:2019/05/29(水) 17:19:09.12 ID:b/cfiGBx0.net
論理矛盾と言うか哲学的な質問だな

143 :140:2019/06/01(土) 06:03:42.02 ID:i2RMvlxm0.net
わかりにくくてすまん  tesseractにある字体データと対象の文字の一致率って意味 
https://tesseract.patagames.com/help/html/b4effc4b-310d-4f1f-99a0-65bc001cd765.htm
このサイトにある ↓0.125って数字は一致率0.875以上だった場合、Good Matchを返すって意味だと思う 
matcher_good_threshold 0.125 Good Match (0-1)
matcher_perfect_threshold 0.02 Perfect Match (0-1)
やりたいことはこの一致率が指定した値以下だった場合、テキストファイルになにも書き込まないという処理をしたい 読み込む画像はすべて1行
一致率を取得できればほかのプログラムと組み合わせてできるようになる
もしくはこのサイトの関数をうまく使えばできそう
それっぽいのをいじってみたけどうまくいかなかった

144 :名無しさん@お腹いっぱい。:2019/06/23(日) 10:49:31.56 ID:RXmepqIZ0.net
まぁtesseractは精度悪くはないけど
実用には値しないよなぁ

145 :名無しさん@お腹いっぱい。:2019/06/23(日) 11:32:22.27 ID:cmA3lp6Y0.net
何を持って実用というかによると思うが
tesseractエンジンのCapture2Textにはずいぶんお世話になってる

146 :名無しさん@お腹いっぱい。:2019/06/23(日) 15:55:40.30 ID:oeEPZCVa0.net
tesseractって認識精度はともかく校正はどうやんの?
なんかいいツールある?

147 :名無しさん@お腹いっぱい。:2019/06/24(月) 00:53:07.52 ID:GF5eEgcd0.net
テキストエディタで認識結果のファイルを開いて、
誤認識している文字列を肉眼で拾ったら、
Grepツールに渡してフォルダごと全ページを正規表現検索して、
ヒットしたら正しい文字列に置換。
の繰り返しが基本。

最初にやるのは、まず一行の文字数を揃えること。
一行40文字で組まれているのに、それ以上あればその行はどこか
間違っている。

例:一行41文字以上で行末が句読点ではない文字列を検索する正規表現
^(.{41,}[^、。]$

148 :名無しさん@お腹いっぱい。:2019/06/26(水) 20:48:52.13 ID:VPvPk7G50.net
仕事で手書きのファックスがバンバンきて、金額いれて計算して合計送り返す昭和なことしてるんだけど、
pc.スマホでスキャンしてエクセルで自動計算するには何が良いですかね?pc買い替え?タブレット購入?
ちなみに得意先のファックスの連打はパソコン持ってない奴らがほとんどでそちらの改善はほぼ無理

149 :名無しさん@お腹いっぱい。:2019/06/28(金) 09:45:39.33 ID:WMaziBi/0.net
最近の手書きOCRは優秀らしいぞ。
でも、ソリユーション価格だから数百万円とかなんだろうな

150 :名無しさん@お腹いっぱい。:2019/07/05(金) 13:04:14.42 ID:8rCNDdqb0.net
C2Tの翻訳結果に変な文字列↓が挟まるようになったけど、何ぞこれ
ce4eb3e12fa6d7940ab33a38d4d816ab
文章の終端にくっついてるみたいだから、改行記号か何かが化けてるんだろうか

151 :名無しさん@お腹いっぱい。:2019/07/17(水) 14:53:00.47 ID:fjEXnK4S0.net
>>150
tesseract-ocrでOCRすると、たしかテキストの末尾に何か挟まってることが多いね。
Meryだと一文字の記号で[FF]と表示されるけど、同じものかしら。
検索/置換で真っ先に削除するから実害は感じないけど。

152 :名無しさん@お腹いっぱい。:2019/09/15(日) 22:59:06.77 ID:KlCpzq3m0.net
MicrosoftのLensを使って、FAXで送られた書類をスマホで撮影して取り込んだけど
文字小さいから全然読み込めなかったわ

153 :名無しさん@お腹いっぱい。:2019/09/15(日) 22:59:40.51 ID:KlCpzq3m0.net
あげ

154 :名無しさん@お腹いっぱい。:2019/09/23(月) 22:23:53.52 ID:E/6na/zQ0.net
Capture2Text使ってたら突然翻訳されなくなりました
英語と日本語で上下に別れていた枠が上の英語のみ
再翻訳のボタンも消えました
設定見直してもまったく変わっておらず
対処方検索してみてもみつからないです

155 :名無しさん@お腹いっぱい。:2019/10/16(水) 04:14:51.41 ID:v6/B1Ui70.net
>>144
tesseractの最大の欠点は、認識できなかった文字を無かったことにして何も出力しないこと。

認識できなかったら変な文字でよいから出力すべき。これだと後から目で見て気付きやすい。

156 :名無しさん@お腹いっぱい。:2019/10/16(水) 04:18:09.12 ID:v6/B1Ui70.net
>>147
おっしゃるとおり。
この方法の最大の欠点は、少しずつOCRに掛けながら校正出来ないこと。
最初に全部をOCRに掛けてから、全部を校正するしかない。

157 :名無しさん@お腹いっぱい。:2019/10/16(水) 07:25:42.98 ID:v6/B1Ui70.net
>>155
tesseract --print-parameters

A list of useful control parameters
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

認識に自信が無くても何かの文字を出力するようなパラメータが見つけられません。

158 :名無しさん@お腹いっぱい。:2019/10/16(水) 08:24:23.64 ID:LNV65aKZ0.net
いつまでたっても小説テキスト化位では
eTilTran 読取革命の組み合わせが最強だな
進歩なし

winでは

159 :名無しさん@お腹いっぱい。:2019/11/05(火) 18:14:11.50 ID:cSgW8apd0.net
Capture2TextのCLI版で日本語をスキャンして結果をコマンドプロンプトに出力すると
文字化けするのですが対処法はありませんでしょうか
オプションで--clipboardをつけてクリップボードを経由すると文字化けなしで結果が取得出来るのですが
クリップボードを汚したくないので文字化け無しで出力したいです
OCR実行前にコマンドプロンプトの文字コードを変えても効果がありませんでした

160 :名無しさん@お腹いっぱい。:2019/12/10(火) 01:29:48 ID:sT0hUZAS0.net
つい最近OCRソフト探し始めたんだけど、日本じゃ結構前から開発してるとこ無いと知って唖然。
ネットで検索すると丁寧に比較解説してるサイトがすぐ見つかるけど、そこによるとパナの読取革命が一番高性能みたいだね。
ただ長らくバージョンアップしてないしこれからもする事はないみたいだ。
その点アドビは性能面ではパナに劣るけどこれからも開発続けてくし何よりOCR化した時のサイズが小さい。
パナのほうは最大10倍近く膨れ上がるしどうにかならんかの

161 :名無しさん@お腹いっぱい。:2019/12/10(火) 03:32:57.63 ID:UgLmsfEi0.net
>>160
読取革命でOCR透明テキストを足してからAcrobatで圧縮

162 :名無しさん@お腹いっぱい。:2019/12/10(火) 03:36:47 ID:UgLmsfEi0.net
>>160
DeepLearningに期待しよう。まず手書き文字認識と、版木本の古文書文字認識から始めて、手書き古文書文字認識が目標。

163 :名無しさん@お腹いっぱい。:2019/12/10(火) 06:54:24 ID:tVn6fHFe0.net
Adobeの認識エンジンは自社開発ではなかったような。
今は違うのかな。

GoogleのAPIが実用的になってきている。
あとフロントエンドのGUIさえあれば良いのだが。

164 :名無しさん@お腹いっぱい。:2019/12/11(水) 06:28:23.68 ID:XqwDZL500.net
PDFelementtってやつ買おうと思ってるんだが、これも結局パナソニックのシステム利用してるんかね。
買い切りでPDFも編集も出来るからいいのかなって思って。

165 :名無しさん@お腹いっぱい。:2019/12/11(水) 08:50:49.67 ID:djMuwAyz0.net
>>161
横からだけどこれで圧縮可能なのか
試してみるわ
ありがとね

166 :名無しさん@お腹いっぱい。:2019/12/13(金) 14:39:43.81 ID:9aicjBgH0.net
結局のところ修正作業がしやすいのが一番
なんなら必ず同じ読み取りミスをするならそのほうがいいくらい
あとルビ対応が少なすぎる

167 :名無しさん@お腹いっぱい。:2019/12/22(日) 14:43:51.13 ID:ri547sjN0.net
e.Typist使ってるが
透明テキストPDFにするなら修正しないし、
txt化するなら良くある読み取りミスを一括で置き換えてそれだけになっちまうわ
ルビはレイアウトを誤認識することがあるから無視してる
高圧縮のPDFの出来がAcrobatより良いんでそこは良い

168 :名無しさん@お腹いっぱい。:2019/12/25(水) 11:59:05.90 ID:w0pZX05+0.net
縦書きの透明テキスト付きpdfで
読取革命超える認識率のOCRって無いんかな?
Google Cloud Visionで出来れば最高なのになぁ

169 :名無しさん@お腹いっぱい。:2020/01/04(土) 06:33:55.83 ID:oSFqms1b0.net
正月休みでGoogle Compute VisionのOCRで透明テキスト付pdf作るの作ったけど需要ある?

現状バグあり、Google API Key必要。
Windows用、複数ページは連番のjpgファイルをあらかじめ作ること。

日曜に削除予定。githubに置こうと思う。


https://1drv.ms/u/s!Agi0gM6bLD5Wr2wURjeqAok7F450

170 :名無しさん@お腹いっぱい。:2020/01/04(土) 06:38:57.88 ID:oSFqms1b0.net
あとpython入ってないと動かないかもしれんw

171 :168:2020/01/04(土) 20:16:15.28 ID:oSFqms1b0.net
Python入れなくても動くようにした。

https://1drv.ms/u/s!Agi0gM6bLD5WsALWMKVa2ub96WSG?e=Yc19Fs

需要ないのかなw

172 :160:2020/01/04(土) 20:28:29.43 ID:oSFqms1b0.net
バグってたので差し替えw

https://1drv.ms/u/s!Agi0gM6bLD5WsAPZ9F1s7wGI7PVa?e=ymPlj1

173 :名無しさん@お腹いっぱい。:2020/01/04(土) 21:08:20.99 ID:a6yqrZ840.net
正月明け土曜じゃリアルが忙しくて5ch見てる暇ない人も多いんじゃない?
見てても今時はスマホの専ブラだし

ていうか家帰ったらPCから落とすからちょっと待って

174 :名無しさん@お腹いっぱい。:2020/01/04(土) 21:16:47.30 ID:oSFqms1b0.net
ありがとうー
そっちでも動くといいなw

175 :名無しさん@お腹いっぱい。:2020/01/04(土) 23:54:22.70 ID:a6yqrZ840.net
試してみました
gcv2hocrの作者さんですかな、ご苦労様です
win環境でexe実行するもエラーで動かず
WSLでsrcを直接実行してみようとしたけど無理でした。
(なおWSL環境下では従来のgcv2hocrのmakepdf.shからの検索PDFは作成できてます)

WSLでgcvocr.py実行したときのメッセージ
$ python ./gcvocr.py ./page001.jpg "API key"
Traceback (most recent call last):
File "./gcvocr.py", line 8, in <module>
from requests import Request, Session
ImportError: No module named requests

つづく

176 :名無しさん@お腹いっぱい。:2020/01/04(土) 23:59:20.20 ID:a6yqrZ840.net
winからmakepdfgui.exeを直接実行したときのメッセージ(長いので1枚分だけ)

google OCR page002.jpg
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 588, in urlopen
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 248, in _get_conn
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 816, in _new_conn
urllib3.exceptions.SSLError: Can't connect to HTTPS URL because the SSL module is not available.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\requests\adapters.py", line 439, in send
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 637, in urlopen
File "E:\tmp\makepdfGUI\makepdf\urllib3\util\retry.py", line 399, in increment
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='vision.googleapis.com', port=443):
Max retries exceeded with url: /v1/images:annotate?key="APIキー"
(Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available."))

During handling of the above exception, another exception occurred:

つづく

177 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:00:30.96 ID:zsNxjzf10.net
つづき

Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\gcvocr.py", line 63, in <module>
File "E:\tmp\makepdfGUI\makepdf\gcvocr.py", line 50, in recognize_image
File "E:\tmp\makepdfGUI\makepdf\requests\sessions.py", line 646, in send
File "E:\tmp\makepdfGUI\makepdf\requests\adapters.py", line 514, in send
requests.exceptions.SSLError: HTTPSConnectionPool(host='vision.googleapis.com', port=443): Max retries exceeded with
url: /v1/images:annotate?key="APIキー" (Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available."))
Convert page002.jpg to hocr
No input file.
Generating out.pdf
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 171, in <module>
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 74, in export_pdf
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 84, in add_text_layer
File "src\lxml\etree.pyx", line 3469, in lxml.etree.parse
File "src\lxml\parser.pxi", line 1839, in lxml.etree._parseDocument
File "src\lxml\parser.pxi", line 1865, in lxml.etree._parseDocumentFromURL
File "src\lxml\parser.pxi", line 1769, in lxml.etree._parseDocFromFile
File "src\lxml\parser.pxi", line 1163, in lxml.etree._BaseParser._parseDocFromFile
File "src\lxml\parser.pxi", line 601, in lxml.etree._ParserContext._handleParseResultDoc
File "src\lxml\parser.pxi", line 711, in lxml.etree._handleParseResult
File "src\lxml\parser.pxi", line 638, in lxml.etree._raiseParseError
OSError: Error reading file 'E:/tmp\page002.hocr': failed to load external entity "file:/E:/tmp/page002.hocr"
Done!

178 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:03:08.67 ID:8D3ry83X0.net
すまぬ、dllがいくつか足らないようです。

チョット調べてみます。

179 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:11:55.50 ID:8D3ry83X0.net
ちなみにWinで動かした時、ウインドウは出ますか?

WSLの時は、モジュールが足らないのでpip installが必要かもです。

180 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:22:37.06 ID:8D3ry83X0.net
実行するのは4つexeがあるうち、makepdfgui.exeです。これをダブルクリックしてみてください。

181 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:28:58.36 ID:zsNxjzf10.net
プロンプトとボタンが3つあるGUIが別窓で出てます

WSLではghostscriptとhocr-toolsが使ってるライブラリ(Pillow / lxml / reportlab)はインストールしましたが
後は何が必要か分からなくて入れてないです

182 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:37:03.33 ID:8D3ry83X0.net
ありがとうございます。

今dllを全部入れたのを作ってますのでしばしお待ち下さい。

183 :名無しさん@お腹いっぱい。:2020/01/05(日) 00:44:00.95 ID:8D3ry83X0.net
再アップしました。お試しいただければ幸いです。

https://1drv.ms/u/s!Agi0gM6bLD5WsAXIZw7kr90bLghC?e=hFLhW0

184 :名無しさん@お腹いっぱい。:2020/01/05(日) 01:00:42.23 ID:8D3ry83X0.net
Linux版はこちらです。WSLで動くかもしれません。

https://1drv.ms/u/s!Agi0gM6bLD5WsAYHp7BPFWjaiCk6?e=RLjW5c

185 :名無しさん@お腹いっぱい。:2020/01/05(日) 21:43:56.51 ID:zsNxjzf10.net
>>183
修正ありがとうございます 無事動きました

makepdfgui.exeは簡易的なフロントエンドという感じですが
gcv2hocr / gcvocr / hocr-pdf をそれぞれexe化されたものが同梱されているので
各プログラムのコマンドライン解説があればバッチ処理で連続実行させられそうですね
あと個人的には出力パス(PDFファイル名)と中間ファイルのテンポラリパスも指定して画像ソースできればいいなと思いました

まあそのあたりはせっかくソース同梱ですし.pyが動かせれば自分で改変できるので
おま環で実行環境づくりに試行錯誤してました
WSLはPython2.7のままだったのでTkinterでハマって一旦断念
dosプロンプト+miniconda でパッケージにrequestsを足してなんとか

```
conda create -n makepdf python=3.7 Pillow lxml reportlab requests
conda activate makepdf
python makepdfGUI.py
```

なお os.path.dirname(__file__) は os.path.dirname(os.path.abspath(sys.argv[0])) に書き換える必要がありました

186 :名無しさん@お腹いっぱい。:2020/01/05(日) 21:46:07.12 ID:zsNxjzf10.net
×画像ソースできればいいなと思いました
〇画像ソースと分離できればいいなと思いました

187 :名無しさん@お腹いっぱい。:2020/01/05(日) 22:01:04.34 ID:8D3ry83X0.net
ありがとうございます!

動いてよかったです。
来週にでもgithubに上げますのでforkするなりなんなり宜しくお願いします。

Windows版は.pyファイルのコンパイルにnuitkaを使ってます。コンパイルオプションが長いのでそれも併せてアップします。

Windowsで使えれば少し拡がるかな、と思ってますw

188 :名無しさん@お腹いっぱい。:2020/01/05(日) 22:19:24.41 ID:8D3ry83X0.net
python由来のexeファイル(gcvocr.exe, hocr-pdf.exe)は単体での起動ができなくて、一緒にたくさん入っている
共有ライブラリが必要になります。

gcv2hocrはMingw64でコンパイルしているので、単体で動作すると思います。

大したものでもないですが、誰かに使ってもらえると嬉しいものです。
ありがとうございます。

189 :名無しさん@お腹いっぱい。:2020/01/05(日) 22:43:03.98 ID:zsNxjzf10.net
こちらこそ有用なものを上げていただいてありがとうございます

自分もgcv2hocrをexe化できないかなあと思って弄ってた時期もあったんですがニワカ知識だとなかなか
winだとサーチャブルPDFをスキャン時ではなく後から作ろうと思うと
いまだにAcrobatか旧来の有料OCRソフトかみたいな感じでなかなか歯がゆいとこあります

190 :名無しさん@お腹いっぱい。:2020/01/06(月) 11:35:46.65 ID:d6RRHgpx0.net
とりあえずGithubにあげました。

https://github.com/dinosauria123/makepdf

191 :名無しさん@お腹いっぱい。:2020/01/06(月) 22:22:51.95 ID:Bwv2TAsT0.net
★入れときました

192 :名無しさん@お腹いっぱい。:2020/01/07(火) 05:50:46.58 ID:iiqYEYaM0.net
ありがとうー

193 :名無しさん@お腹いっぱい。:2020/01/08(水) 19:11:22.77 ID:c/82od5M0.net
出力pdfを任意の場所に置けるようにしました。

上のgithubのページにダウンロードのリンクがあります。

中間ファイルは別フォルダに置くようにしました。

194 :名無しさん@お腹いっぱい。:2020/01/09(木) 10:44:21 ID:92Qt7qR00.net
実行時にコンソールウインドウが出ないようにしました。

195 :名無しさん@お腹いっぱい。:2020/01/09(木) 23:57:29.83 ID:+fFF3jY40.net
改良乙

196 :名無しさん@お腹いっぱい。:2020/01/10(金) 00:17:04.04 ID:omx2TQEU0.net


197 :名無しさん@お腹いっぱい。:2020/02/04(火) 10:31:25.64 ID:/JmtElp90.net
Googleドライブに入れてGoogleドキュメントで開いて…のOCRって、使用量に
何か制限があるのかねえ?

1枚に2000文字程度書かれたビットマップファイルを1800枚ほどOCRしてたら、
途中なぜかGoogleに繋がらなくなった。(googleトップページにも繋がらない・
Google以外は問題なく繋がるので回線の問題では無い)
怪しい利用者と思われ、ロックアウトされたのかねえ?
色々やってたら(20分ぐらい?)復活したが・・・


最初e.TypistOneを使ったが、誤認識があまりにも多く断念。

プログラミングのスキルがあれば Google Cloud Vision API を使うアプリ
を作るのだが、無いのでGoogleドライブ経由で利用。

一旦全てのビットマップをGoogleDriveに入れ、ブラウザ上で、
(1) ビットマップファイルをGoogleドキュメントで開く
(2) 書式無しテキストでダウンロード&閉じる
(3) 処理の終わったファイルをDriveから削除
という一連のマウス操作を、UWSCというアプリを使って記録、繰り返し再生し
てる。(1枚約1分)

198 :名無しさん@お腹いっぱい。:2020/02/04(火) 12:00:35.26 ID:vX8l0M8h0.net
Google DriveでのOCRで上限を感じたことはない。
でも1800枚は時間なり量なりの制限にかかるのかもね。

同じ作業をPowershellのスクリプトで行っているが、
無料のGoogle Driveと有料のCloud VisionAPIとでは
認識結果が異なり、精度は意外にも前者が高く、
処理速度は後者が速い。ゆえに使い分けている。

199 :名無しさん@お腹いっぱい。:2020/02/04(火) 13:11:16.64 ID:/JmtElp90.net
>>198
>無料のGoogle Driveと有料のCloud VisionAPIとでは
>認識結果が異なり、精度は意外にも前者が高く、
これは意外&嬉しい情報です。 ありがとうございます。

まだ細かくは見ていませんが、Google DriveでのOCR結果は満足いく物のようです。

200 :名無しさん@お腹いっぱい。:2020/02/04(火) 20:20:23 ID:vX8l0M8h0.net
UWSCは自分も使っている。良いソフトだね。
でもUWSCのスクリプトが組めるならば、
PythonなりPowershellなりへの移行も容易では?
速度が当社比10倍にはなると予想。

201 :名無しさん@お腹いっぱい。:2020/02/04(火) 21:22:14.83 ID:q1VdwANZ0.net
OK

202 :名無しさん@お腹いっぱい。:2020/02/04(火) 22:00:57 ID:PXcUvqQM0.net
この辺?

https://qiita.com/rarara_x16/items/639ebc3069c4d5a4fb8a

203 :名無しさん@お腹いっぱい。:2020/02/04(火) 22:06:17 ID:PXcUvqQM0.net
https://github.com/thinkAmi-sandbox/google-api-python-client-sample/blob/master/README.md

204 :名無しさん@お腹いっぱい。:2020/02/05(水) 11:23:36 ID:XnWtIzCm0.net
>>200
とりあえず今回は、Google-Drive+UWSCでTEXT化を終えました。
次回があればCloud VisionAPIも検討します。
(何もインストールせずに使えるということで、とりあえずPowerShellで
「Hallo World!」を表示させてみた)

参考に教えて頂きたいのですが、>>198でGoogle Driveより精度が低かっ
たと書かれているCloud VisionAPIは DOCUMENT_TEXT_DETECTION か
TEXT_DETECTION のどちらでしょうか?

205 :名無しさん@お腹いっぱい。:2020/02/06(木) 15:41:42 ID:6cev/IWh0.net
Foxit PDF は英語と日本語を混ぜてスキャンするとエラーになる?

206 :名無しさん@お腹いっぱい。:2020/02/16(日) 22:18:12 ID:jLFeBzYu0.net
>>190
ありがとうございます
1200dpiのスキャナー欲しくなりましたw

207 :名無しさん@お腹いっぱい。:2020/02/29(土) 06:41:24 ID:JcjcxIj30.net
昭和40年頃の手書き青焼きのコピー(A4 23行×100P以上)をテキスト化したいんですが
そういう悪条件につよいソフトって家庭用で存在しますか。
ゴミ、旧漢字、略字・・・ 「多」の上が「ヨ」だったり

208 :◆JAVA/drQNg :2020/02/29(土) 08:46:14 ID:zMAPSh9k0.net
Adobe Acrobat はバージョンが上がるごとにOCR精度は向上しますか?

209 :名無しさん@お腹いっぱい。:2020/03/04(水) 10:38:36.74 ID:a2j2NwzM0.net
とりあえず「Capture2Text」使ってみたんだけど、まったく使えなかった…
これ常用してる人いる?

210 :名無しさん@お腹いっぱい。:2020/03/10(火) 07:56:51.41 ID:m0UgLSDQ0.net
そんな使えないの誰もいないでしょ

211 :名無しさん@お腹いっぱい。:2020/03/10(火) 09:51:38 ID:5unq0kZC0.net
使いこなせないアホなどいないと言いたいのか
使えないから常用者がいないと言いたいのか

212 :名無しさん@お腹いっぱい。:2020/03/10(火) 18:32:34.56 ID:s+annSAc0.net
Capture2Textはtesseract & Google翻訳のフロントエンドとしては有能だぞ
基本よその国のマンガやゲームのフキダシを母国語に翻訳しながら読む用途向けなので長文は苦手だが
tessdataをtessdata_fastと入れ替え jpn_vert.traineddataも足せばOCR精度は多少マシになる

あとググってたら Capture2TextみたいなのをGoogle OCR でやってるツールもあった
SSTRとかいうの
要GCPキーだがクソ速い

213 :名無しさん@お腹いっぱい。:2020/04/16(木) 08:24:43 .net
さっきPDF-XChange Editorの最新版(フリー)を入れたんだが、これめっちゃ機能多いな
無料版だから殆ど使えないけど、こんな機能豊富なアプリ見せられたら買いたくなってくるんだが、
実際はどうなんかな?
5000円ぐらい何だが、買う価値ある?
自炊愛好家にとっては画像圧縮とOCRの機能がどの程度なんかが超重要なんだが、有料版使ってる奴居たら意見聞きたい

214 :名無しさん@お腹いっぱい。:2020/04/18(土) 09:56:41.39 ID:GR24ABzs0.net
あるある。絶対買うべし

215 :名無しさん@お腹いっぱい。:2020/04/20(月) 18:31:31.52 ID:tcsUxc360.net
小説テキストデータ化の最終工程で
>>78の通りやってるんだけど
スキャンした元画像の行間がいまいち狭くてやり辛い

スキャンしたテキスト画像の「行間だけ』を広げることのできるソフトはないもんだろうか
(当然用紙の横幅が広がるのは問題なし)
メチルでできるかと思って設定をいろいろいじくりまわしてるんだけどうまくできない

216 :名無しさん@お腹いっぱい。:2020/04/25(土) 22:50:37.58 ID:AhIDEN180.net
( ´・ω・) 民珍♪

217 :名無しさん@お腹いっぱい。:2020/04/26(日) 15:34:50.65 ID:rCDPnaLP0.net
>>207
昭和44年の手書き謄写版印刷物をスキャンして試してみました。
Googleドライブにアップロードして、Googleドキュメントにすると、認識率9割以上でした。

218 :名無しさん@お腹いっぱい。:2020/05/06(水) 21:23:20 ID:nnBg0Ieg0.net
スキャン後のPDFファイルに透過ocrテキストを組み込むことや削除をすることはできますか?
スキャン代行600dpi+ocrをつけて依頼しようかと思っています。
透過ocrテキストが不満な場合、後日(〜数年後等)に発売されるかもしれないocrソフトやgoogle等のocrでpdfファイルに
透過テキストを組み込みこんだり削除したいです。
やったことがなく、詳しい人いましたら教えてください。

219 :名無しさん@お腹いっぱい。:2020/06/22(月) 20:49:34.26 ID:2bHPYWAT0.net
自分用に作ってみました。
良かったらどうぞ。
https://eznavi.net/app/index2.php?pagetop=63&only=one

220 :名無しさん@お腹いっぱい。:2020/07/13(月) 21:18:26.68 ID:gPuYxjHp0.net
質問です。
OCR化ソフト:読取革命
音声出力アプリ:EZ PDF reader
1ページのうち複数のパートに分かれたものをOCR化した順にスマホで音声読み上げしたいのですが、
読取革命側で順番を指定してOCR化しても、スマホアプリ側で音声出力の際に最初のパート以外の順番がバラバラになってしまいます。
おそらくアプリ側の問題なのでPDF読み上げの新しいアプリを探しているのですが中々見つからず、おすすめを教えてほしいです。
MOON proは音声出力時にエラーで強制終了でした。。

221 :名無しさん@お腹いっぱい。:2020/07/14(火) 04:07:13.49 ID:btizt7Lj0.net
>>220
読取革命が読み取った結果をPDFに出力するのは何故?
Textファイルに出力したら?

222 :名無しさん@お腹いっぱい。:2020/07/14(火) 19:02:18 ID:qgULxFnG0.net
>>221
テキストファイル出力での読み上げアプリも2つ試したのですが、
文字化けや改行の挿入、いったんアプリを閉じて再度開いた際に前回の再生位置から開始が出来ないなど、
文庫サイズのテキストを読む際での不都合が多かったです。
PDFアプリの方も現在使用しているez pdf reader以上に動作の安定したアプリが中々見つからず、
スレチで申し訳ないのですがスマホ端末での音声出力メインでOCR化されてる方がいれば、、と思い質問させて頂いた次第です。

223 :名無しさん@お腹いっぱい。:2020/07/15(水) 10:23:16.57 ID:+UBXBhCo0.net
>>222
Androidは、使用してないので分かりませんが
iPhoneならVoice Dream Readerがオススメです。個人的に。

224 :名無しさん@お腹いっぱい。:2020/07/17(金) 10:09:33.44 ID:Lff+9EMv0.net
>>223
試してみます。有難うございます。

225 :名無しさん@お腹いっぱい。:2020/07/17(金) 19:57:43.35 ID:CK7EEHYK0.net
>>224
Voice Dream Readerでテキスト読み上げさせるには、読取革命で生成されたままだと
文字化けすると思いますよ。
メモ帳で開いて文字コードをANSIからUTF-8に変更保存が必要です。
最近は使用してませんが以前自分も、読取革命でOCRしてましたので。

226 :名無しさん@お腹いっぱい。:2020/07/18(土) 22:53:37.67 ID:VCDm/xwf0.net
qiitaでOCRを検索したら、日本語に対応したオリジナルのOCRが公開されていた。

フリーの日本語OCR(と学習済みのモデル)を公開しています。
 ttps://qiita.com/tanreinama/items/e171449e66d5221afe7e

日本語OCRを作ったので解説してみる
 ttps://qiita.com/tanreinama/items/8fc1c8af6554654aae00

GitHub
 ttps://github.com/tanreinama/OCR_Japanease

すげい良さげなのでインストールしてみたのだが、GPUがないせいかどうなのか、
うちの環境ではPytorchとかCUDAのインストールがうまくいかなかった。

Linuxを使える誰か、試してみてはくれまいか。

227 :名無しさん@お腹いっぱい。:2020/07/18(土) 22:59:29.26 ID:eAsZD6lp0.net
GPUなしでも動かせるみたいだしWSL入れたらwin10でもいけんじゃね

228 :名無しさん@お腹いっぱい。:2020/07/20(月) 11:49:35.26 ID:ND5jwxL20.net
tegakiとか簡単に開発できるらしいけどフリーだと無いよな

229 :名無しさん@お腹いっぱい。:2020/07/20(月) 12:23:14.92 ID:zpjC4PpP0.net
一太郎PADはどうなの?

230 :名無しさん@お腹いっぱい。:2020/07/20(月) 17:58:40.44 ID:3FOd3QJF0.net
>>213
plusだかなんだかつけて使ってます
大満足だけど、日本語ocrはクソ
手持ちの他のソフトを使うしかないです

231 :名無しさん@お腹いっぱい。:2020/08/06(木) 08:43:22.36 ID:+Ik17kWF0.net
個人向け日本語ocrはここ10年くらい進歩なし?

232 :名無しさん@お腹いっぱい。:2020/08/06(木) 09:24:03.23 ID:P4KKN9Zk0.net
>>231
読取革命をつかってるけど、そろそろバージョンアップして欲しい

233 :名無しさん@お腹いっぱい。:2020/08/06(木) 21:43:22 ID:FpfhWXHQ0.net
Shift-JISだけってのはキツいよな。

https://www.panasonic.com/jp/company/pstc/products/yomikaku.html

【大切なお知らせ】販売終了および今後の読取革命の販売について

2012年9月より販売を行ってまいりました、日本語・英語活字カラーOCRソフト「読取革命Ver.15」に関しまして、誠に勝手ながら2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。また、2020年9月30日をもちまして、ライセンス版・ダウンロード版の販売も終了させていただきます。
長らくご愛顧いただき、誠にありがとうございました。

読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。

234 :名無しさん@お腹いっぱい。:2020/08/07(金) 06:23:07.23 ID:n5TZuf+60.net
AIOCRが金出せば結構優秀になったしな

235 :名無しさん@お腹いっぱい。:2020/09/26(土) 01:42:56.36 ID:ysgjBmc10.net
ラノベ自炊して文字認識で全ページテキスト化して有償の美少女声音声読み上げソフト使って
自作のAudibleみたいなのを作るって現実的か?
この方法ならラノベが読めない俺でもラノベの内容追える気がする
作業用BGMが欲しい

236 :名無しさん@お腹いっぱい。:2020/09/26(土) 05:37:16.00 ID:CGZLoSUz0.net
と或るラノベ7巻、文字認識したことあるが、
認識ミス取りきれてない気がするよ。
もう二度とやらん。めんどくさ過ぎる。
縦書きって誤認識高くね?気のせいか。
設定資料集やりたいのがあるんだけど、気力がわかない。。。

237 :名無しさん@お腹いっぱい。:2020/09/26(土) 06:35:51.85 ID:ysgjBmc10.net
うーん 即レスで体験談ありがとう
ソフトとアプデ次第でどうにかなってほしいものだ

238 :名無しさん@お腹いっぱい。:2020/09/26(土) 07:20:30.92 ID:aByTBdbp0.net
校正作業をどれだけ効率的にできるか、そのノウハウを持っているかどうかによる

239 :名無しさん@お腹いっぱい。:2020/09/26(土) 13:24:06.12 ID:wTRatOkO0.net
自分で読み上げて音声入力してみたことがある

240 :名無しさん@お腹いっぱい。:2020/09/26(土) 14:06:45.13 ID:6iAINLva0.net
100%完璧にって言ったら泥沼だろうが、ある程度妥協できるなら問題ない
誤認識もパターン決まってるのも多いから、一括で置き換え出来るし
OCR前にChainLPとかで下準備するのも忘れずに。認識精度が全然変わるから
読み上げソフトも読み上げソフトで癖があるから、読み上げソフトでキチンと読めるように修正する必要もあるけどね(これも妥協次第だけど)

241 :名無しさん@お腹いっぱい。:2020/09/26(土) 22:20:38.16 ID:MWrmVjkB0.net
ブラザーの複合機でスキャンして付属のOCRで売上表を読み取ってるけど
数字だけなら99%読み取れてるよ。
表には合計値もあるんでExcelで合計計算して合計値が一致してれば全部読み取れてるってチェックができる。
合計値が合わないときはExcelの読み上げボタンで読み上げつつ紙の表に目を通してチェック。

ミスは大体ゴミを小数点として読み取ったり、
ゴミのせいで6が8になったり
かすれて8が6になったり
スペースが入って分割されたり。

スキャン前にゴミを除去するのが重要。
スキャン後は空白の固まりにマウスで矩形領域作ってタブを挿入した後で全ての空白を置換で除去。
これでほぼ正しくタブ区切りになるんでExcelにぺたっと貼り付け。

スキャンの設定は300dpiのグレー諧調で読み取ることが重要。
カラーで保存したい場合は画像用にカラーでスキャンしてOCR用にグレーでスキャンするとかしたらいいと思う。
カラーをうまく処理できるOCRソフトならカラーの方がいいと思うけど
レシートの赤いやつがあると読み取ってくれないレシーピってアプリもある。最近赤い奴に対応したっけな。

242 :名無しさん@お腹いっぱい。:2020/09/26(土) 22:30:50.03 ID:MWrmVjkB0.net
書き忘れ。
数字の表を読み取るときは英数で読み取るんで日本語はめちゃくちゃ。
日本語だと表を表として読み取ってくれないし、数字もまともに読み取れない。
英数でも表として読み取ってるわけじゃないけど、間に空白がたくさん入るからなんとなく表っぽくなってる。
OCRの作業はひと手間かかるけど、空白除去とかに慣れれば入力するよりかなり早い。

日本語の場合は読み上げさせつつミスがある部分だけ入力していけばいい。
直接変更するのは追いつかないだろうから別の行に書いておいてあとでくっつけるとか。

〇〇〇〇〇〇〇〇〇×〇〇〇〇〇〇〇〇××〇〇〇〇〇〇〇
             まる          まるまる           ←聞きながら入力



〇〇〇〇〇〇〇〇〇まる〇〇〇〇〇〇〇〇まるまる〇〇〇〇〇〇〇   ←あとで合成


マイクロソフトのINKとか言うソフトで蛍光色で色をつけられたりするから
ミスってるところに色を塗っておいて後で正しいのを入力するって方法もあるかも。

243 :名無しさん@お腹いっぱい。:2020/10/07(水) 20:53:42.38 ID:sG0Mx6Ff0.net
読取革命Ver.16が出た

244 :名無しさん@お腹いっぱい。:2020/10/08(木) 00:38:44.34 ID:oaaQrpI40.net
英語認識に強くなる予定があるのとUIが変わってるらしい?
なんにせよルビ対応してくれないことには個人的な選択肢が増えない

245 :名無しさん@お腹いっぱい。:2020/10/08(木) 21:58:57.57 ID:pCm7hS0+0.net
e.Typist使ってるけど、ルビは無視する設定だわ

246 :名無しさん@お腹いっぱい。:2020/10/13(火) 10:17:34.27 ID:1IwVSGYF0.net
読取革命Ver.16

まだ縦書きの文字修正の時
横倒しになるのかな

247 :名無しさん@お腹いっぱい。:2020/10/18(日) 02:15:16.51 ID:knd4dkpa0.net
読取革命 Ver16 新規機能ひとつもないな。
不具合も直ってなさそう。

248 :名無しさん@お腹いっぱい。:2020/10/19(月) 00:44:45.61 ID:CyNFZXML0.net
どうせAcrobatのCleanscanしか使わないからいいや

249 :名無しさん@お腹いっぱい。:2020/11/01(日) 15:10:52.46 ID:OE4w3Cb/0.net
- 電通による日本人民族浄化計画の手口 -
@日本人の精神を腐敗・堕落させ愚民化させろ
A日本人の女を集中的に狙い洗脳しろ
Bネトウヨ、ヘイトスピーチ、レイシスト等の言葉を浸透させ、同胞への批判を封じろ。
C韓国人識者に政治的意見を言わせ、御意見番化させろ
D「同性婚・LGBTを全面肯定しない者は差別主義者だ!」という雰囲気を作れ。
E海外セレブやハーフモデルをもてはやし、「日本人は劣等人種だ!」と植えつけろ。
F「未だにガラケーの奴は笑い者」という雰囲気を作れ。
G「LINEに入らない奴は仲間外れ」という雰囲気を作れ。
H「日本人の男VS日本人の女」の対立を煽り、分断しろ
I日本人同士で恋愛・結婚させない、子供を生ませないよう誘導しろ
J日本同士で結婚していたら離婚させる方向に仕向けろ。
K女が活躍するドラマばかり作れ。男は無能な役、笑われ役にしろ。
Lイケメンブームを定着化させ、「男は外見が全てだ!」と洗脳しろ。
- ソース -
電通グループ会長 成田豊は朝鮮半島生まれ
http://ja.wikipedia.org/wiki/%E6%88%90%E7%94%B0%E8%B1%8A

250 :名無しさん@お腹いっぱい。:2020/11/03(火) 09:13:18.83 ID:rTcXesbq0.net
Win95のときからつかってるけど
ocrソフトなんてなんの進化もしてない

251 :名無しさん@お腹いっぱい。:2020/11/04(水) 08:06:13.96 ID:2CPZw8590.net
進化の余地はありそうなんだけどね。
個人用途では需要がないか。

そこそこ有名なフリーソフトレベルの操作性や、設定の自由度ぐらいは欲しい。

252 :名無しさん@お腹いっぱい。:2020/11/04(水) 11:19:49.67 ID:uNywO3dP0.net
Eightとかその他の名刺認識アプリ
グーグルドキュメントで画像を読み込んだときの自動OCR
これらのほうが段違いに認識がスムーズ

奴らはデータを吸い上げようという魂胆なんだろうが
認識が本業の有料ソフトが副業の奴らに負けてどうする
20年以上検索認識エンジン大きな変化なしとか腐っとるな

253 :名無しさん@お腹いっぱい。:2020/11/29(日) 14:23:46.17 ID:x7aEVFBM0.net
読取革命Ver.16の英語OCR機能が10月下旬から11月下旬に延期になっていたけど、
もう11月も終わるぞ…

こりゃ再延期かな?

254 :名無しさん@お腹いっぱい。:2020/12/04(金) 10:04:50.76 ID:s2inLNb80.net
さほど高くないソフトで、手書きの数字(文字は読まなくてOK)をOCRで文字起こししたいです。
何かオススメのソフトはございませんでしょうか。

255 :名無しさん@お腹いっぱい。:2020/12/04(金) 16:08:37.31 ID:aXsiujer0.net
>>254
スマホアプリに手書き認識する奴がある。
ニューラルネットワークが必要だからスマホか M1 MAC 必須。

手入力したあとExcelに読み上げさせつつチェックしたら?

256 :名無しさん@お腹いっぱい。:2020/12/04(金) 19:35:55.67 ID:6BGtDygO0.net
googleドライブでいけるよ PCからでも使えるし
ググれはしたばGASで自動化する方法も出てくる

257 :名無しさん@お腹いっぱい。:2020/12/04(金) 19:37:11.18 ID:6BGtDygO0.net
×ググれはしたば
○ググれば

258 :名無しさん@お腹いっぱい。:2020/12/04(金) 21:25:36.24 ID:BkfJdpxn0.net
Googleドキュメントに声で入力したことはある

259 :253:2020/12/12(土) 10:52:24.87 ID:/fsKVCa+0.net
Googleドライブ、なかなか良かったです。
アドバイスくださった皆様、ありがとうございました。

260 :名無しさん@お腹いっぱい。:2020/12/17(木) 15:01:46.09 ID:EmhXqjui0.net
google driveいいんだけど、手間が面倒くさすぎる。
googleエンジンを使ってるパパッとOCRを使ってる人いますか?

261 :名無しさん@お腹いっぱい。:2020/12/17(木) 15:03:44.41 ID:EmhXqjui0.net
googeは2段組だと左の段と右の段が入り組んでしまうのが困りものだよなあ。

262 :名無しさん@お腹いっぱい。:2020/12/18(金) 14:30:16.91 ID:lA9GnPM30.net
>>261
OCRHelper使えば、比較的楽。

263 :名無しさん@お腹いっぱい。:2020/12/28(月) 21:00:44.55 ID:VlqH5s5B0.net
>>154
今ちょうどこれになって検索しまくってる
頻繁に翻訳してるとグーグル側にはじかれるのかな
グーグル翻訳系は駄目だな

264 :名無しさん@お腹いっぱい。:2021/01/11(月) 19:08:54.94 ID:cCWQR2l/0.net
校正に一番必要なのはデカイモニター
一行をはみ出さずに表示して
間聞開闇ここらが一目で見分けられるやつ

265 :名無しさん@お腹いっぱい。:2021/01/17(日) 19:34:10.00 ID:QPWOr2470.net
>>60
質問すみません
(--nodraw)のコマンドは、どう使えばいいんですか?

266 :名無しさん@お腹いっぱい。:2021/01/17(日) 20:29:10.19 ID:p7Uj5Bfi0.net
>>265
そのオプションはフォークされた改造版で追加されてたんだが
本家のプルリクに上がることもなくフォーク先も今は見えなくなってる
(おそらくフォーク主がプライベートリポジトリに変更したんだと思う
MS買収で無料で非公開にできるようになったから)
フォーク版は他にも画像ソースにjpg以外の形式も指定できるようになってたりと
色々便利そうだったんだけどね、残念

267 :名無しさん@お腹いっぱい。:2021/01/18(月) 16:07:24.44 ID:4aq7gtM60.net
>>266
同じものかわからないけどこっちで開発続いてそう
https://github.com/ImageProcessing-ElectronicPublications/hocr-tools

268 :名無しさん@お腹いっぱい。:2021/01/18(月) 18:23:18.22 ID:lqqeSLpf0.net
>>267
それだわ!
気がついたらリンク切れててそっから先追えなくなってたんだ
ありがとう!

269 :名無しさん@お腹いっぱい。:2021/01/19(火) 16:59:59.15 ID:nJ0mxE500.net
>>266
>>267
できました
めっちゃくちゃ感謝です

270 :名無しさん@お腹いっぱい。:2021/01/29(金) 07:49:55.72 ID:wxsf7Wfh0.net
今Acrobat 9 std使ってるけど、
読取革命とかの方が認識率高いとかありますか?
あとマルチスレッド対応でしょうか
Acrobat9はシングルスレッドみたいで、
PCが8コア16スレッドなのに1スレッドしか働いてません

271 :名無しさん@お腹いっぱい。:2021/01/29(金) 08:24:46.05 ID:1HVM47hB0.net
読取革命を使うのは認識率の高さではなく
校正のしやすさが目的かな

マルチスレッドはわかんね

272 :名無しさん@お腹いっぱい。:2021/02/11(木) 18:21:51.86 ID:26F+m0Y80.net
突然失礼します。
現在仕事の関係で大量の画像から主要文章を抜き出し、まとめている作業をしているのですが画像がまとめてあるファイルから一括で読みとってくれるOCRソフトは何かないでしょうか?

273 :名無しさん@お腹いっぱい。:2021/02/11(木) 19:00:46.81 ID:IHq/iUj+0.net
>>272
若干知識が必要だけどGoogleアカウント作れば無料
GDriveのフォルダにほうりこんだファイル全部処理してくれる

【GAS】OCRを使ってスキャンしたい画像の文字取得を自動化する
http://www.initialsite.com/w01/14488

274 :名無しさん@お腹いっぱい。:2021/02/11(木) 20:17:36.01 ID:26F+m0Y80.net
分かりました!やってみます!!

275 :名無しさん@お腹いっぱい。:2021/02/11(木) 21:36:37.94 ID:26F+m0Y80.net
どうにかコピペしたコマンドを実行しるところまでこぎつけましたが、いまいち使い方が分かりません(泣)
勉強してできるようにしたいと思います。

276 :名無しさん@お腹いっぱい。:2021/02/13(土) 16:42:15.51 ID:ZeIWlZfb0.net
医学者を大量にOCRかけたいのですがオススメのOCRソフトはどれになりますでしょうか?

277 :名無しさん@お腹いっぱい。:2021/02/13(土) 17:58:27.11 ID:IFB3FsXw0.net
OCR で遺伝子は認識しないだろ(ゲノムスキャン?)

278 :名無しさん@お腹いっぱい。:2021/02/13(土) 18:38:25.90 ID:ZeIWlZfb0.net
医学書です

279 :名無しさん@お腹いっぱい。:2021/02/14(日) 04:32:22.06 ID:JX8dJfP00.net
>>276>>278
スキャンが済んでないのならスキャンと同時にOCRしてしまうのが楽。
スキャンが済んでいるのなら読取革命かAcrobatかGoogle。専門用語辞書が充実していそうなのはGoogleだけど全てGoogle任せになってしまうのがストレスフル

280 :名無しさん@お腹いっぱい。:2021/02/14(日) 06:39:37.00 ID:57AdeLvf0.net
ありがとうございます

281 :名無しさん@お腹いっぱい。:2021/02/18(木) 14:26:16.02 ID:YBVmHAJp0.net
度々失礼します。
以前教えていただいたGoogleDrive方式を試してみたところ、どうにかファイル内の画像を読み込んでテキストに出力するところまでこぎつけました。

ただ、設定が悪いせいか、せいぜい2 枚を読み込んだところで変換が終了してしまいます。

手っ取り早くソフト購入を考えていますが、そこそこの精度で大量読み込みをしてくれる物を御存知の方がいればぜひ教えてください。
よろしくお願いします。

282 :名無しさん@お腹いっぱい。:2021/02/18(木) 18:53:15.29 ID:sbM29q5M0.net
ScanSnap買うのが吉かも

283 :名無しさん@お腹いっぱい。:2021/02/18(木) 19:26:00.10 ID:RZJx4jaI0.net
Kofax Power PDF Standard
https://www.kofax.jp/Products/power-pdf

284 :名無しさん@お腹いっぱい。:2021/02/18(木) 19:39:21.13 ID:PhET5XgP0.net
お金出せるなら ABBYY FineReader あたりがいいんじゃない バッチ処理もあるし
CZERのOCRエンジンがABBYYなんだが認識精度は悪くないよ
デフォルト設定でPDFにすると画像めっちゃ汚くなるけどテキストで抽出するなら関係ないだろうし

285 :名無しさん@お腹いっぱい。:2021/02/18(木) 21:18:15.99 ID:FuM14PBd0.net
テキスト抽出じゃなくて検索可能なPDFを作りたい場合のおすすめは?

286 :名無しさん@お腹いっぱい。:2021/02/18(木) 22:04:26.68 ID:/MMQ5ij10.net
画像ファイルから検索可能なPDFに変換するソフトは、いきなりPDFとかJUSTPDFとかあるな、体験版あるかな

287 :名無しさん@お腹いっぱい。:2021/02/18(木) 22:14:42.16 ID:rFCUPf3V0.net
>>285
OCR機能のついたドキュメントスキャナーでスキャン

288 :名無しさん@お腹いっぱい。:2021/02/18(木) 23:34:26.27 ID:PhET5XgP0.net
>>285
横書き文書オンリーで仕上がりの良さ最優先なら>190
フリーのツールなんで設定の難しさやUIの面倒さはある
googleにお布施も必要

簡単さで選ぶなら市販のOCRだろうけど詳しくないので分からん
とりあえずwindowsサンドボックスでABBYY試してみたが
MRC圧縮をオフにすれば画質は保たれるぽい

289 :名無しさん@お腹いっぱい。:2021/02/19(金) 14:18:04.61 ID:/LGznBXV0.net
e.Typist使ってるよ
検索可能PDFにするときのMRC圧縮はPCで見ると汚いのに、タブレットで見ると良く見えるから不思議
PCの画面を範囲指定してOCR出来る機能はふとしたときに便利
画像読み込みが500枚までしか対応しないのはクソ

290 :名無しさん@お腹いっぱい。:2021/02/19(金) 14:51:13.32 ID:pqe2wozU0.net
e.typistか読取革命で迷う

291 :名無しさん@お腹いっぱい。:2021/02/19(金) 17:56:41.05 ID:b3qLx0/L0.net
洋書死ぬほどつらい
pdf→ocr→誤字とか改行チェック→自動翻訳→翻訳チェック

292 :名無しさん@お腹いっぱい。:2021/02/19(金) 18:34:37.99 ID:zfdZU+YJ0.net
>>289の方へ
前から気になっていたのですが、500枚の読み込みというのは一度にですか?それとも上弦ですか?

293 :名無しさん@お腹いっぱい。:2021/02/20(土) 13:37:22.40 ID:0EiJ9/Or0.net
>>289
タブレットのアプリに画像補正機能があるのでは?

294 :名無しさん@お腹いっぱい。:2021/02/20(土) 22:00:35.33 ID:Z3ERY2/H0.net
>>292
例えば520枚のフォルダ読み込ませても、500枚までしか画像リストに登録されない。もちろん追加しようとしても出来ない。
分割して認識させて、後からPDFを結合させれば良いだけではあるけど

>>293
PCと違って画面が小さいから文字の輪郭のがたつきが気にならなくなる、一方で、白黒がハッキリするから綺麗に見えるんでないかなと思ってる
普通のPDFビューアアプリだし

295 :名無しさん@お腹いっぱい。:2021/02/20(土) 22:44:13.29 ID:u7vHQ+N90.net
>>294
え、単純にppiの差だったら不思議でも何でもないじゃん

296 :名無しさん@お腹いっぱい。:2021/02/24(水) 14:51:12.19 ID:aqSvsfDI0.net
TESSERACT-ocrで 紙読ませたら
「シャンプードレッサー」 が 「にャンプードジったー」 になった

297 :名無しさん@お腹いっぱい。:2021/02/25(木) 22:13:45.52 ID:cLb3BFZQ0.net
OCR精度が高くて動作が高速なソフトは?

298 :名無しさん@お腹いっぱい。:2021/02/25(木) 22:25:33.45 ID:ttwjBNUo0.net
adobe acrobat

299 :名無しさん@お腹いっぱい。:2021/02/25(木) 22:32:06.79 ID:cLb3BFZQ0.net
サブスク以外で頼みます

300 :名無しさん@お腹いっぱい。:2021/02/25(木) 23:16:42.87 ID:ttwjBNUo0.net
ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えているならe.Typist
文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらの認識性能が上

雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章の他、英語文字が入る場合や、小説や雑誌などの2段組の文章などは読取革命が上

301 :名無しさん@お腹いっぱい。:2021/02/26(金) 10:13:46.63 ID:RR89ZAlv0.net
300

302 :名無しさん@お腹いっぱい。:2021/05/01(土) 12:22:34.25 ID:wPbgt6E/0.net
tesseract OCRチャレンジ中。プログラミングの技術書PDFを何とか透明PDF付きにしたいという欲求。
飾り文字とか目次とかが壮大にこける。下のような・・・を無視したいんだけど何かうまい方法ないでしょうか。
02 はじめに・・・・・・・2

303 :名無しさん@お腹いっぱい。:2021/05/01(土) 17:39:13.89 ID:CU4T262z0.net
>>302
トランプのマーク4種を認識させるときにその文字に限定させることでうまく認識したことがあった。

304 :名無しさん@お腹いっぱい。:2021/05/01(土) 21:39:33.27 ID:wPbgt6E/0.net
>>303
ありがとうございます。300ページオーバーを一気にやるのは駄目ですね。
whitelist使う感じでしょうか。

305 :名無しさん@お腹いっぱい。:2021/05/02(日) 17:57:02.87 ID:fc3xJsqr0.net
50冊くらいの教科書、手技書等を裁断して、職場の複合機で、スキャンしてPDF化予定です。
検索可能PDFにしたいと考えています。認識率はそこまで厳密に高くなくても、キーワードで該当箇所が分かれば便利かなぁという程度です。テキストで出力などは予定していません。
分厚い表紙などは別でスキャンして中身のPDFと統合できると良いと思っています。
読取革命を第一候補に考えています。いきなりPDFスタンダードというのはOCR絡みのエンジンがパナソニックと書かれていますが、これは読取革命のものとは違うものでしょうか?ほとんど一緒というレベルならいきなりPDFの方が随分安いので良いなぁという感じなのですが、誰かわかりますか?

306 :名無しさん@お腹いっぱい。:2021/05/02(日) 18:48:29.25 ID:Xx835nqP0.net
読取革命は読取結果を修正できる
いきなりPDFスタンダードはたぶん修正できない

307 :名無しさん@お腹いっぱい。:2021/05/02(日) 20:26:16.72 ID:lQUzaBSR0.net
>>306
ありがとうございます。修正するつもりがなければいきなりPDFで良さそうですね。

308 :名無しさん@お腹いっぱい。:2021/05/02(日) 20:55:33.98 ID:ajDJAhT50.net
職場に複合機あるなら機械単体でサーチャブルPDF作れるんじゃない?
画質は高圧縮でだいたい酷いことになるっぽいが

309 :名無しさん@お腹いっぱい。:2021/05/03(月) 17:07:18.50 ID:WHA1lrAT0.net
>>308
職場の複合機見たけども、OCRっぽい設定がなかったんですよね。
調べてみると拡張モジュールなるものがあれば良いようなのですが。連休明けにまた調べてみます。ありがとうございます。

310 :名無しさん@お腹いっぱい。:2021/05/03(月) 18:31:46.14 ID:FElEuZiq0.net
読取革命などのOCRソフトは、画像を読み込み、文字認識、修正、PDFや、ワードなどに出力する。
PDFも読み込めるが、新たにPDFとして出力される。

いきなりPDF COMPLETEなどの最上位板のPDFソフトは、PDFの透明テキストを修正できる。
画像の上に、文字色が透明のテキストが貼り付けられてる。
文字を赤に変えてチェックするけど面倒くさい。
もっといい方法があるかも知れない。

311 :名無しさん@お腹いっぱい。:2021/05/09(日) 01:03:19.05 ID:jmsS93J00.net
いきなりPDFを購入したものの、肝心のスキャンしたPDF→透明テキスト付きPDFの作業でソフトが強制終了してしまいます。問題なくファイル変換できるものと出来ないものがあるみたいです。
Q&Aにはフォントを追加しているとエラー出るかもとか書いてありますが、そもそもフォントを追加なんかした事ないし、どれを消せばいいのかも分からない。というかこれが原因なのかすら分からない。

サポートに問い合わせてみていますが、返事があるのかすら怪しい。。。やはり大人しくAdobeのサブスクリプションにしておくべきだったのか。

愚痴でした。

312 :名無しさん@お腹いっぱい。:2021/05/09(日) 12:44:48.40 ID:B+KqUkb30.net
スキャナの設定で、ocrをしてるとかあるのではないかな

313 :名無しさん@お腹いっぱい。:2021/05/10(月) 22:12:57.20 ID:6JH0PhBK0.net
>>311
ストレージの空き容量を確認してみて。こういったアプリは作業ファイルを多量に作るので...

314 :名無しさん@お腹いっぱい。:2021/05/10(月) 22:38:16.43 ID:4N16DkIp0.net
jpgでスキャンするか、jpgに変換して、jpgを読み込めば大丈夫だろう

315 :名無しさん@お腹いっぱい。:2021/05/12(水) 21:30:34.59 ID:obNff0Ek0.net
まあ、10ページでエラーが出るのか、100ページでエラーが出るのか、1000ページでエラーが出るのかの場合分けだな

316 :名無しさん@お腹いっぱい。:2021/05/13(木) 16:38:29.73 ID:SLu4UeqC0.net
色々とありがとうございます。
スキャナにはOCRの機能はありませんでした。ストレージにもかなり余裕がありそうですが、ものによるのでしょうか。
何度やってもダメなPDFは4ページ、3/4の表示のところで文字認識中というところで落ちてしまいます。同じ日にスキャンしたPDF(2-6ページ程度のもの複数)はOCR化出来ました。
150ページくらいの200MB程度のものは2個/21個は変換できましたが他はダメでした。JPG経由はまだ試してませんのでやってみたいと思います。
サポセンから連絡があり、調べてみます的なお返事でした。

317 :名無しさん@お腹いっぱい。:2021/05/18(火) 18:05:36.41 ID:p+07QIeH0.net
ワクチン接種記録システムの利用者番号読取がOCRで、読取間違いが発生するそうだ

318 :名無しさん@お腹いっぱい。:2021/05/19(水) 02:26:34.81 ID:HWxuzQfn0.net
フォントはOCRBで共通でタブレットも同一機種を配布らしいけど撮影環境がマチマチで人によって得られる画像が異なってくるのでそう言う結果になるのは仕方がない。
手振れや角度とかの癖でどういう間違いが出易いとかはあると思う。手振れは持ち方でも変わってくる。
タブレットが大きいから影が映りこむけど、照明が適切か分からない。
ライトは使ってないようだったが、ライトをつけた方が認識しやすい。反射する場合はライト無しにする必要がある。
ピント合わせが出来ない場合が多すぎる。マジ糞。ピント合わせに時間かかる。
カメラが複数ついてる奴はピント合わせ速そうだけど、安いのはカメラ1個だから遅い。

撮影台に乗せて使う場合はピント合わせを固定に出来た方が故障しないし撮影一瞬で出来るしいいことづくめのはず。

セルフレジでも読み取りできないことがよくあるけど、一旦しっかり外して再びしっかり読ませれば一秒で読み取ってくれる。

319 :名無しさん@お腹いっぱい。:2021/05/19(水) 10:32:09.32 ID:JDDtGBtH0.net
フォント共通で数字のみでも読み取り間違い出るなら、100%認識のOCRなんて夢のまた夢だな

320 :名無しさん@お腹いっぱい。:2021/05/20(木) 04:54:15.76 ID:KDnYz3pE0.net
最近利用しているガソリンスタンドの料金機(セルフの店なんで)が
QRコードで割引とかあって、
まぁ、レシート出すとその季節の割引券が付くんだけど
それの読み込みが遅くてイライラするのよ

QRコードなのにクイックじゃ無い
結局読み取りのところにレシートを押しつけて、
少しずつ遠ざけていくとまぁまぁ(2回目ぐらいで)読み取るぐらいに安定したわ
レシートだから裏が透けたり、角度が付いていたりピントが合わなかったり
そう言うのに強いのがQRコードじゃないんかね?

321 :名無しさん@お腹いっぱい。:2021/05/20(木) 08:30:39.20 ID:4Fq3eRUr0.net
OCRとQRは別物だし完全にスレ違いなんだが

あえてツッコむとそれカメラがタコなだけだからスマホ変えたほうがいいよ
QRの規格に文句言うのは筋違い

322 :名無しさん@お腹いっぱい。:2021/05/26(水) 00:13:19.62 ID:kuNfd1Ht0.net
ガソリンスタンドのセルフ給油機を客が交換するってのはどういう発送なんだろうか?

323 :名無しさん@お腹いっぱい。:2021/05/28(金) 12:05:47.29 ID:P2WCflXp0.net
2000冊分くらいのpdfファイルがあり OCR済みのものとしていないものが混ざっています。これをまとめてOCRしたいのですが安くあげるにはどうしたらいいですか。
バンドル版のacrobatXはこういう目的に使えますか。
https://m.qoo10.jp/item/%E3%82%A2%E3%82%AF%E3%83%AD%E3%83%90%E3%83%83%E3%83%88-ADOBE-ACROBAT-X-10-STANDARD-%E3%83%90%E3%83%B3%E3%83%89%E3%83%AB%E7%89%88/601688005

324 :名無しさん@お腹いっぱい。:2021/06/18(金) 13:05:44.71 ID:y51nqA8T0.net
官報を機械可読で公開してくれ

325 :名無しさん@お腹いっぱい。:2021/07/10(土) 11:32:58.13 ID:oCPigeEQ0.net
Abbyy FineReader15 が7,980円
今日が最終日だよ〜♪

https://www.sourcenext.com/cp/s/2107/c_0000055494/?i=ecgt

326 :名無しさん@お腹いっぱい。:2021/07/17(土) 20:46:01.69 ID:Nx+D16Ts0.net
Windows 10上で無料利用できるAI-OCR 認識精度は95% 認識枚数は制限なし
https://ledge.ai/seagp-ai-jimy-ocr/

327 :名無しさん@お腹いっぱい。:2021/07/18(日) 02:32:22.76 ID:oQLnYNbx0.net
>>326
認識率95%ってそんなに凄いの。今使ってるの Acrobat の OCR で困ったことないんだけど、それよりもすごいのかな。

328 :名無しさん@お腹いっぱい。:2021/07/18(日) 09:04:36.93 ID:lnw1fm580.net
> ※ 認識精度は数字に関するもので、条件で左右されます。
数字だけに限定してさえ100文字中5文字は間違うってことでしょ
手書き認識も含むから活字だけならもっと認識率上がるのかも知らんけど

329 :名無しさん@お腹いっぱい。:2021/07/18(日) 09:15:41.36 ID:P3XK5s350.net
>>327
まじ?
どういう条件で読んでんの?

330 :名無しさん@お腹いっぱい。:2021/07/18(日) 16:32:03.31 ID:8SefTmjA0.net
無償OCRか。この企業、どうやってマネタイズするんだろ
情報抜いて横流しするのかな

331 :名無しさん@お腹いっぱい。:2021/07/19(月) 01:07:30.29 ID:F9XeLcaj0.net
>>326
試してみた。インストールにすごく時間かかった。
説明がなくて使いにくい。
認識実行すると文字化けの出力結果。
これは暇な人が色々試して遊ぶソフトと思った。
即、アンインストールした。

332 :名無しさん@お腹いっぱい。:2021/07/19(月) 05:34:45.46 ID:fvfQWF3L0.net
AIって自主学習して精度上がる問じゃないのん?

333 :名無しさん@お腹いっぱい。:2021/07/19(月) 07:58:50.76 ID:F9XeLcaj0.net
全ての文字が文字化けだから。コードを選ばなきゃいけないのかね。
自己学習をしなくてもある程度の精度が出なきゃ学習のための動力が大変だよ。

334 :名無しさん@お腹いっぱい。:2021/07/19(月) 08:28:19.56 ID:fvfQWF3L0.net
全てとなるともう根本的に対応してないのか…?

335 :名無しさん@お腹いっぱい。:2021/07/19(月) 10:34:39.69 ID:F9XeLcaj0.net
インストールして試してください。約1 GB のアプリです。もしかしたら私の使い方が根本的に間違ってるのかもしれない。

336 :名無しさん@お腹いっぱい。:2021/07/19(月) 16:42:09.54 ID:3A2XjCut0.net
アクセス集中で大変だったりして

337 :名無しさん@お腹いっぱい。:2021/07/19(月) 21:27:30.10 ID:8sS8G9mf0.net
アカウント作れがうざすぎ

338 :名無しさん@お腹いっぱい。:2021/07/19(月) 23:38:16.48 ID:DpU5b5C20.net
やっぱり情報抜く系みたいだな
やめとき

339 :名無しさん@お腹いっぱい。:2021/07/20(火) 01:05:44.37 ID:LR2/vrCo0.net
きっと背後に中国がいるぞ

340 :名無しさん@お腹いっぱい。:2021/07/21(水) 01:43:25.56 ID:qQ5Ez8Mv0.net
本を見開きでスキャンしたらできる本の周りの影と真ん中の影を消すソフトないでしょうか?どちらか一つでもいいです。

341 :名無しさん@お腹いっぱい。:2021/07/21(水) 09:17:53.10 ID:9Y2uwqlR0.net
マルチ乙

342 :名無しさん@お腹いっぱい。:2021/07/21(水) 09:18:19.15 ID:gZhpeJ+z0.net
さらに歪曲まで修正するのがあったような

343 :名無しさん@お腹いっぱい。:2021/07/21(水) 13:02:55.40 ID:qQ5Ez8Mv0.net
>>342
是非教えてください

344 :名無しさん@お腹いっぱい。:2021/07/21(水) 13:04:34.65 ID:qQ5Ez8Mv0.net
自分で調べたけど発見できませんでした。
念のためですがスキャン自体は Acrobat の スキャン機能 を使ってます。スキャン後の PDF の影を取るソフトです。

345 :名無しさん@お腹いっぱい。:2021/07/21(水) 13:07:50.05 ID:gZhpeJ+z0.net
OCR機能は無い

346 :名無しさん@お腹いっぱい。:2021/07/21(水) 13:12:00.06 ID:9Y2uwqlR0.net
マルチ乙

347 :名無しさん@お腹いっぱい。:2021/07/22(木) 16:50:26.47 ID:fGMCvnhV0.net
スマホのOCR、ピントが固定になるようにして使ってるけど
たまに下敷きの量が変わって距離がわずか数ミリずれるだけで認識精度50%とかになる。
レシートがしっかり幅いっぱいになるようにして撮影しなおすと95%くらい認識する。
影ができると精度かなり落ちるから今はスマホのライトOnで撮影している。

348 :名無しさん@お腹いっぱい。:2021/07/23(金) 11:27:10.26 ID:rD1VLEV50.net
読取革命DL版セールしてんね 

349 :名無しさん@お腹いっぱい。:2021/07/23(金) 14:20:26.16 ID:xlv839tH0.net
まま?

350 :名無しさん@お腹いっぱい。:2021/07/23(金) 14:33:46.10 ID:8RLvQ8nD0.net
まままーままーまま

351 :名無しさん@お腹いっぱい。:2021/07/23(金) 18:30:19.88 ID:KFQ0x8UC0.net
読取革命で認識させると文字が少し小さくなるのは何でかな

352 :名無しさん@お腹いっぱい。:2021/07/29(木) 10:14:59.19 ID:0JzdyqZz0.net
Capture2Text使っていて、>>159 と同じ症状。
どなたか、詳しい人はいませんか?
GUIだと認識できる日本語が、CLIだと化けて出力される。
英語や数字の認識には差異は無さそう。

353 :名無しさん@お腹いっぱい。:2021/07/31(土) 21:04:10.52 ID:3gNkzigk0.net
https://qiita.com/user0/items/a9116acc7bd7b70ecfb0

PowerShell で CMD と入力してコマンド実行してもいいかも。

354 :351:2021/08/01(日) 12:17:19.04 ID:EKgADGMN0.net
>>353
ありがとうございます! お陰様で、解決できました。

コマンドプロンプトからの動作は chcp 65001 で改善したのですが、
実は、UWSCのDOSCMD関数から叩きたくて、これは、何をやっても解決しませんでした。
(レジストリでAutoRun弄ってもダメ)

UWSCにはPOWERSHELL関数もあって、そちらからは文字化けせずに取得することができました。

355 :名無しさん@お腹いっぱい。:2021/08/03(火) 18:25:28.98 ID:1yBwwluW0.net
スキャンで作成したPDFをOCRで文字認識させました。
表示されている文字で検索してもヒットしませんでした。
当該文字をコピーしてテキストファイルに貼り付けると別の文字になっていました。

OCRに詳しくないので教えてほしいのですが
1、認識後の文字はもとの文字の上に透明のフォントで重ねているのでしょうか?
2.今は、グラフの線が白黒だと判別できないのグレースケールで600DPIでスキャンしています
(300DPIだと文字の周りがにじむので)。認識率を向上させるために注意する設定項目があれば教えて下さい。

356 :名無しさん@お腹いっぱい。:2021/08/07(土) 08:52:19.64 ID:rqbKqC/20.net
>>355
僕はプリンタ付属のOCRでスキャンしてますが、600dpiより300dpiのグレーが認識率高いです。
文字がにじんだ方が線が分離しなくなるので機械には読み取りやすくなるようです。
僕は数字の表だけ読み取れればいいんで英数で読み取って数字以外は捨ててます。
矩形でタブを入れ、空白を置換で削除することでExcelでも表として認識できます。

昨日は1ページスキャンして1文字だけ認識してませんでした。
もしかすると、矩形の空白を削除するときにその数字だけはみ出していて削除してしまったのかもしれません。
元が英数ならいいんですが、日本語の文字化けでずれが大きくなるので。

ブラザーの複合機ですが、新しいアプリより ControlCenter4 のOCRの方が使いやすかったです。

PDFの方は詳しくありませんが、PDFにはレイヤ機能があって重ね合わせが出来ます。
WORDでもハガキのイメージに合わせて郵便番号や宛先など配置できますよね。
文字が正しく読み取れなかったとしても、その化けた文字が配置されるので検索では本来の文字は出てこないでしょうね。

357 :名無しさん@お腹いっぱい。:2021/08/07(土) 12:24:46.27 ID:iSVP+I520.net
>>356
コメントありがとうございます。
私もブラザーのプリンターを使ってます。ブラザーの OCR ソフトは使い方がよくわからなかったので日本語の縦書きの認識もそこそこ良かったAcrobat の OCR を使うようになりました。

300 DPI の方が認識率が高いというのは新発見です。

358 :名無しさん@お腹いっぱい。:2021/08/08(日) 10:01:09.25 ID:kyf68uXo0.net
スキャンした画像をChainLPなどの画像処理ソフトで下処理してからOCRに掛ける

359 :名無しさん@お腹いっぱい。:2021/08/08(日) 13:44:29.33 ID:7AjcYiKn0.net
>>358
汚れてもないしトリミングの必要もない場合でも CHAIN LP で何かをすれば認識率は上がりますか?
上がる場合はchainLP のどの項目を使えば良いか教えていただけますか

360 :名無しさん@お腹いっぱい。:2021/08/08(日) 19:14:09.75 ID:0wTn0qmR0.net
自分で仕組、理屈を考えてみろよ

361 :名無しさん@お腹いっぱい。:2021/08/08(日) 20:38:22.55 ID:IfVfnYiT0.net
OCR前にソフト側で2値画像に変換されてしまうし
事前補正はあんまり意味ないよ
画像をどうこうするよりOCRソフトのユーザー辞書学習カスタマイズして
パターン登録するほうが効果は高い

362 :名無しさん@お腹いっぱい。:2021/08/09(月) 01:03:41.06 ID:oBYKB49n0.net
>>361
なるほど、そうなんですね。

363 :名無しさん@お腹いっぱい。:2021/08/09(月) 09:41:20.64 ID:a4Sxnc9w0.net
chainLPで検索したら漫画は16階調が一般的で一括変換出来るツールだと出て来た。
僕が16階調に加工するとき、画像の濃さを細かく調整しないとあちこち消えてなくなる現象があった。
少なくとも256階調はないとOCRには向かない。

256階調のままで600dpiを300dpiにしてくれるなら認識率が上がるかもしれない。
・・・そう言うツールではないようですね。

> V0.37-3
> ChainLPでは、画像を1ピクセルあたり1ポイントとしてPDFに配置します。つまり72dpiです。
> よって、出力サイズとして600×800ピクセルを設定した場合は、PDFのページサイズは約8.3×11.1インチとなります。
> これは、ほぼA4サイズに近い大きさです。

> ChainLP v0.38-2
> ・元画像の解像度(dpi)を引き継ぐようにしました。しかし、あまり意味はないと思います。


https://lifehack-lab.com/chainlp_set1/
> Kindle PaperWhiteで自炊本を読む場合、PDFそのままでは非常に読みにくいです。
> mobiというファイル形式に変換してあげるととても読みやすくなります。
> そこで登場するのが、「ChainLP」というソフトです。
> 各種ファイルに変換できるのですが、画像の補正、トリミングが同時にできるので、Kindle用のmobiファイルをつくるのには重宝します。

> どうやってもきれいにならない場合は、別のツールを試してみましょう。
> >こちらのページを参考に(Xnconvertというソフトです)
> Xnconvertできれいにしてから、ChainLPに再挑戦してください。

> XnConvert. 画像のリサイズやフォーマット変換からフィルタ加工まで一括処理

364 :名無しさん@お腹いっぱい。:2021/08/09(月) 10:23:52.59 ID:OqeDcUJs0.net
色々勘違いしてそうだけどChainLPでも256階調出力は可能
つってもそれだけのためにChainLP使うよりRalphaとかの方が楽だけど

あともし漫画をOCRしようとしてるなら諦めたほうがいい
capture2textみたいにフキダシ抽出の機能のあるアプリか
GCV系のAI型じゃないとほぼほぼ無理

365 :名無しさん@お腹いっぱい。:2021/08/09(月) 19:56:02.71 ID:V0NxvfPM0.net
>>361
実際やってみたの?
俺は効果ありまくったから毎回下処理してるよ

366 :名無しさん@お腹いっぱい。:2021/08/09(月) 20:52:04.70 ID:dAASpWa80.net
ドキュメントスキャナの類だとある程度スキャナドライバ側で補正かけられてるから
いうほど効果ない場合もある
機種や設定次第

ノイズの多いスキャン画像なら補正も有効だけど
設定のわかりにくいCainLPより一括処理できる画像ソフトのほうが
シンプルに分かりやすいんではないかとは思う

367 :名無しさん@お腹いっぱい。:2021/08/10(火) 00:19:46.38 ID:9pRWSzRN0.net
>>365
具体的にどんな元原稿に対してどんな効果があったか言ってくれないと効果ありありと言われてもね。

368 :名無しさん@お腹いっぱい。:2021/08/12(木) 19:07:27.37 ID:M3IwL1EP0.net
フリーで優れたocrソフトってありますか?
用途は、アマゾンキンドルで実用書読んでるんですけど、
参考になった部分をスクショで撮ってそれをocrで文字起こし、メモ帳にまとめる
ってことがしたいです

369 :名無しさん@お腹いっぱい。:2021/08/12(木) 19:17:55.60 ID:W1e/W8C/0.net
>>368
>212
https://twitter.com/shira_t22/status/1348264731610529794?s=19
(deleted an unsolicited ad)

370 :名無しさん@お腹いっぱい。:2021/08/12(木) 19:23:21.80 ID:W1e/W8C/0.net
ああごめん翻訳いらなくてスクショ起こしだけならCopyfishでいいんじゃない?
ブラウザ拡張だけどデスクトップのキャプチャもできたはず

371 :名無しさん@お腹いっぱい。:2021/08/22(日) 12:15:30.21 ID:InGHoZ6h0.net
衝撃…世界が馬鹿にした日本のFAX、実は米国でもコロナ報告で普通に使っていた
https://president.jp/articles/-/37491?page=3
> 北見工業大学教授で公衆衛生分野の情報化に詳しい奥村貴史氏が同サイトに寄稿にした記事によると、

> 同氏からの改善につながる提言に、「OCR(光学文字認識、活字を文字コードに変換するソフト)処理を前提としたフォーマットをFAXで扱う」というものがあります。
> これなら、FAXによる一元的管理機能を担保しつつ、
> アナログでデータを受信しても、
> OCRスキャンすれば直ちにデジタル化できますから、
> 入力する現場の手間を減らすことができます。

OCRでレシートや売上表読み取りしてる身からすると、
数字ですら完全には読み取れないのに
どうしてFAXなんかで送った人名を読み取れるんだと。
せめてQRコード化して送れよと。

工業大学の教授ですらこの程度の事が分からないんだな。

372 :名無しさん@お腹いっぱい。:2021/08/23(月) 11:49:45.91 ID:OlmLkjoZ0.net
いまだにFAXを使うしかない事情として
> 医療機関、自治体、保健所など複数の関係者で共通のシステムを整える必要があり、そのためには膨大なコストと時間がかかる
つってるのにQRコード化して送れとか無理でしょ


> 数字ですら完全には読み取れないのに
> どうしてFAXなんかで送った人名を読み取れるんだと。
そこはフォントの種類とサイズ次第じゃない?

FAX機が吐き出した紙をスキャンしてOCRかけるイメージなのかも知らんけど
FAX受信した複合機でそのままFax TIFFとして保存すれば
FAX形式データってほぼ G3 FAX(200x200dpi)だから200dpiの白黒データとして確保できる
200dpiあればOCR性能は充分という説もあるし
(それだけあれば完璧にOCRできるということではなく、
それ以上にしてもOCR精度の向上は望めないという意味)

カラーやグレスケでスキャンしてもOCR時は内部的に2値に変換してから処理することになるので
スキャン時に白黒(2値)を選ぶのはコスト減らすためにはあり
保存フォーマットは大体勝手にFax TIFFになるので
> 「OCR(光学文字認識、活字を文字コードに変換するソフト)処理を前提としたフォーマットをFAXで扱う」
というのも正しい

373 :名無しさん@お腹いっぱい。:2021/08/23(月) 15:49:32.12 ID:fGb2UNbz0.net
>>372
そんな反論は予想通り。

OCRできるんなら送る側が自分でOCRしてQRコードを追加で印字すればいいだろ。

パソコンから直接FAXと電話回線に繋げて送るんなら精度は高いかもしれんが、
一回印刷してからFAXに入れるんなら、読み取るときに字がくずれるしゴミも読み取ってしまう。

仮に直接FAXと電話回線に繋げてたとしても、送信に成功したかどうかってすぐわかるの?
送ったかどうかって履歴に残るの?
PDFに印刷してからメールに添付して送れば履歴残るし
PDFを印刷してスキャンしてOCRもできるし
PDFからOCRできるし
PDFのフォントと文字コードがそのまま使えて検索までできちゃうんですけど?

そもそもFAXと聞いて手書きを想定してない時点でダメだけどね。

374 :名無しさん@お腹いっぱい。:2021/08/23(月) 15:54:44.90 ID:fGb2UNbz0.net
・QRコードをFAXで送る方法
・PDFファイルをメールで送る方法

この2つだとシステムが専用だとQRコードは難しいかもしれんが
Windows使ってるならPDF印刷は標準機能だから簡単に追加できると思うよ。

そして役所は基本的にメールでやり取りしてる。相手がFAXしか使えないならFAXも使ってるけど。

コロナ補助金申請したけどExcelのファイルをメールでやり取りしたよ。
印刷した奴も郵送したけど。
郵送した理由は「印鑑がないと正式な書類にならないから。」
ようするに技術的な理由じゃなくてルールの問題なんだよ。

375 :名無しさん@お腹いっぱい。:2021/08/23(月) 19:28:55.86 ID:OlmLkjoZ0.net
>>373
FAX使ったことない人か
送信の成功失敗は履歴から分かる
普通のFAX機なら失敗しても3回なり5回なりの時間置いてリトライする機能も付いてる

現状でFAX廃止できない状況だからそれを活用しましょうってことで
FAX以外は受け付けませんってことではないでしょ
PDFながせるそれでいいだろうしメールはだめですとも書いてない

各関係団体はそれぞれの基幹システムやデータベースで既に管理してるが
そこから出力できる形式にはだいたい制限があるし書式もフォーマットもバラバラ
お役所仕事のようにExcelのこのフォーマット以外はだめです、
送信のためにもう一度体裁整えて新たに入力して下さいとかやってる暇がないので
エクスポートや印刷で出せるものをそのまま流してもらうしかないのがおそらく今の現状

アナログで対応するというのは、そこはそのまま送り手に負担を強いず
どんな書類が来ても受け側で自動でどうにかできるすげえ力技システム組んじゃいましょうってことで
FAXで受けるなら手書き書類も考慮してるだろうし
(手書きOCRの実用性はググればまあまあ出てくる)
リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

376 :名無しさん@お腹いっぱい。:2021/08/23(月) 20:18:25.89 ID:CYyOePzH0.net
>>375
> (手書きOCRの実用性はググればまあまあ出てくる)
> リソースは当然必要だろうけど大学ならAI OCR研究やってるとこと提携して
> 市販の既成OCRソフトとは規模の違う精度のものが組めるアテがあるのかもしれん

馬鹿だろお前。
大学の無能教授と無能学生になにが作れると思ってんだ?

作ることが可能ならとっくの昔に存在してるし、
今存在してないならこれから先も作ることは不可能なんだよ。
作れる人間が生まれてくるまではな。

377 :名無しさん@お腹いっぱい。:2021/08/23(月) 21:54:40.53 ID:YrGASWyP0.net
うるせえ
よそでやれ

378 :名無しさん@お腹いっぱい。:2021/08/23(月) 22:10:01.75 ID:OlmLkjoZ0.net
FAXに続きスマホも使ったことない人なのか
https://i.imgur.com/gyeNbob.jpg

googleのこのOCRエンジンがGCV登録すればAPIで使えるので
個人でも高精度OCRアプリが作れる時代ですよ

お金出せば使えるそこそこ運用実績のあるシステムもググれば出てくる
(存在してる)
https://www.tegaki.ai/

379 :名無しさん@お腹いっぱい。:2021/08/23(月) 22:12:17.86 ID:OlmLkjoZ0.net
あっ紙に書いたID 自分のじゃないやん間違えちゃった
痛恨のヒューマンエラー

380 :名無しさん@お腹いっぱい。:2021/08/23(月) 22:46:53.84 ID:CYyOePzH0.net
俺はGoogle検索しただけで50万円請求されたからね。Googleから。2回ほど。
馬鹿は50万でも一千万でも請求されてろ。

381 :名無しさん@お腹いっぱい。:2021/08/23(月) 22:53:28.53 ID:CYyOePzH0.net
> Cloud Vision API には画像解析のための各種機能があります。どの場合でも、ご利用いただいた分だけお支払いいただきます。最低料金などは設定されていません。

> TEXT_DETECTION 画像内のテキストに対して光学式文字認識(OCR)を実行します。

> 1,001〜5,000,000 ユニット/月
> テキスト検出 $1.50

あら、お安い。
> 1,000 ユニットあたりの料金

5,000,000 ユニットの料金は$7,500

382 :名無しさん@お腹いっぱい。:2021/08/23(月) 22:54:59.36 ID:CYyOePzH0.net
日本円だと82万円だね。お安いね。

383 :名無しさん@お腹いっぱい。:2021/08/24(火) 08:18:42.85 ID:6FahnTPL0.net
50万2回請求ってw
規約も読まずにOCRしまくっちゃったの?

> 日本円だと82万円だね。お安いね。
500万ユニットが月に処理する回数として妥当値なのか知らんけど
運用費用としてはありなんじゃないの
日本中のコロナデータ集積して人力入力させてる人件費を考えたら

384 :名無しさん@お腹いっぱい。:2021/08/24(火) 09:19:52.10 ID:NY7D9FCw0.net
>>383
>Google検索しただけで

字も読めないほど耄碌したの?

OCRする人件費がないから日本中の自治体でワクチンの発注ができなくなったのを忘れたの?

385 :名無しさん@お腹いっぱい。:2021/08/24(火) 09:58:03.25 ID:6FahnTPL0.net
人に説明するの下手な人か
今更だが触っちゃいけないタイプだったな
ゴメンな?独り言の邪魔しちゃって

386 :名無しさん@お腹いっぱい。:2021/08/24(火) 12:44:38.28 ID:NY7D9FCw0.net
>>385
「Google検索しただけで」では説明が下手ですか。

Google検索を一日中繰り返していたらブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。
チャットで交渉出来たので支払いは免れましたが、「今後このようなことがあれば業務利用とみなし、契約を結んでもらいます。」との事。

業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは >>378>>383 も認めている。

387 :名無しさん@お腹いっぱい。:2021/08/24(火) 14:12:24.41 ID:6FahnTPL0.net
???
ごめん何言ってるかサッパリわからない
どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

> 業務でGoogleの機能を使えば毎月80万円程度のお金がかかることは > >>378>>383 も認めている。

Cloud Vision API は Google Cloudプラットフォームにアカウント登録して
クレジット カードまたは銀行口座情報を入力して初めて使えるサービスだぞ
業務か個人ユースかに関係なく使った分だけの従量課金で
手順踏んでAPIキー取得してAPI叩かなきゃ従量カウントは上がらないし
「Google検索しただけで」勝手に請求が来るような代物ではもちろんない

あと80万かかるのは月に500万ユニット使った場合の話でしょ?
処理回数に応じてそれ以上にもそれ以下もなる
こっちは君が言ったからランニングコストはとしてはありじゃない?って返しただけで
500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ

388 :名無しさん@お腹いっぱい。:2021/08/24(火) 14:23:54.92 ID:NY7D9FCw0.net
>>387
> ???
> ごめん何言ってるかサッパリわからない
> どういう状況でGoogle検索したら50万も請求が来るのか全く理解できない

一日中Googleのホームページ(https://www.google.co.jp/)のテキストボックスに検索したいテキストを入力して検索ボタンをクリックすることを繰り返したら
ブラウザに請求書が表示されてそれが50万円で請求者はGoogleとなっていました。

389 :名無しさん@お腹いっぱい。:2021/08/24(火) 14:31:13.96 ID:NY7D9FCw0.net
>>387
> あと80万かかるのは月に500万ユニット使った場合の話でしょ?
> 500万ユニットがコロナのデータ集積に毎月かける回数として妥当なのかは知らんよ

ユニットが何を意味するか分からんけど一つのブロックだと仮定すると
1ページで30くらいのユニットがあると考えられるので
10万枚処理すれば500万ユニットに近い数字になると思われる。

Googleより
> 米国での感染者数は増加傾向にあり、平均で1日147,420人の新規感染者が報告されている。
147,420*30=4,422,600/月

アメリカの感染者数が毎月442万人出てる計算だから
仮に1ページ1ユニットで計算しても500万ユニットは妥当な数字。

日本の感染者数がアメリカより少ないと言うなら、ユニットが1ページ30で計算すればいいんじゃね?

390 :名無しさん@お腹いっぱい。:2021/08/24(火) 17:32:00.46 ID:6FahnTPL0.net
一日中つったって手動で検索繰り返した程度で50万請求が来るような検索回数になるとはとても思えないんだけど
マルウェアが裏でF5アタック繰り返してたとかじゃないの知らんけど

https://cloud.google.com/vision/pricing?refresh=1
ユニットは1枚の画像に対し適応する機能タイプ別に発生する
1枚の書類(画像)に対してテキスト検出(OCR)しかしないのであればユニット数は1
結果はjson形式ファイルで画像中にブロックがある場合はで個別に分けて取り出せる
https://cloud.google.com/vision/docs/ocr?hl=ja

391 :名無しさん@お腹いっぱい。:2021/08/24(火) 18:53:54.94 ID:U1hPfsKA0.net
うるせえ
よそでやれ

392 :名無しさん@お腹いっぱい。:2021/08/24(火) 18:57:00.72 ID:NY7D9FCw0.net
>>390
おまえさあ、Google検索してて「私はロボットではありません」って表示出たことある?

その表示が出るまでに何回検索してるか分かる?
そして検索にいくらかかったか分かる?

著作権裁判だと単に製品の代金だけじゃなく懲罰的請求をされるって知ってる?
アメリカだと自分でコーヒーこぼしただけで3億円も請求されるんですよ。
50万円って実質無料でしょ。

393 :名無しさん@お腹いっぱい。:2021/08/24(火) 19:06:08.39 ID:ubSdBvKx0.net
詭弁 答えのない問題に対して他の場所で出た答えを持ち出して
その答えはあの問題と同じだよと根拠もないのに言い張ってるだけのキチガイ
お前の言ってることは何の答えにもなってない

394 :名無しさん@お腹いっぱい。:2021/08/24(火) 19:33:29.79 ID:6FahnTPL0.net
何言ってるのかさっぱり分かんない
やっぱ会話無理な人か

>>391
ゴメンねもうやめるわ

395 :名無しさん@お腹いっぱい。:2021/08/24(火) 19:35:22.71 ID:NY7D9FCw0.net
>>393
答えは最初っから言ってるだろ。Google検索したらGoogleから50万円請求されました。

お前が信じないだけだ。
ソースは出せない。

お前は企業がどういうときに金を請求するか知ってる?
費用が掛かった時だよ。
チンピラがたまたま目の前にいた通行人に金を請求するゆすりたかりとは違うんですよ。

じゃあ、どういう場合に「私はロボットではありません」って表示を出すか分かる?
無駄な費用を抑えるためですよ。

金を請求するのと「私はロボットではありません」と表示するのは目的が同じ。
お金ですよ。
かかった分請求するか、最初からかからないようにするかの違いだけ。

俺が50万円請求された証拠は出せないが、「私はロボットではありません」と表示される問題は無数にソースがある。
どれくらい検索していたかもその証言から推定できる。
そしたら、少なくともどれくらい使ったらGoogleが許容できない費用がかかっているかも推定でき、
50万円を請求するとしたらどれくらいの検索をしたかも推定できるはず。頭のいい人なら。

日本人は、どれだけ使ったらいくら請求と言う計算はできるけど、
いくら請求されたらどれくらい使ったかっていう計算は出来ない。
そう言う典型的日本人が>>393

396 :名無しさん@お腹いっぱい。:2021/08/24(火) 20:12:01.67 ID:PyFmfN7N0.net
論点1 QRコード化が可能か不可能か
論点2 人名が読み取れているか否か
論点3 手書きに対してOCRが有効かどうか
論点4 送信に成功したかどうかが分かるか

1 現場にしか分からないが個人単位では不可能ではない
2 現場にしか分からないが個人単位では不可能ではない
3 現場にしか分からないが個人単位では不可能ではない
4 現場にしか分からないが個人単位では不可能ではない

これだけの話なのに論点5のgoogle検索しただけで50万請求された人がいる
が一番どうでもいいし馬鹿らしいんだが 自覚しろよ

397 :名無しさん@お腹いっぱい。:2021/08/24(火) 20:15:34.99 ID:PyFmfN7N0.net
当然論点6のOCRの活用が現場で可能かどうかも現場にしか分からない
こんな所で無能だなんだ言ってないで現場に連絡取る位の努力しろよカス

398 :名無しさん@お腹いっぱい。:2021/08/26(木) 22:54:38.68 ID:fktTc4eK0.net
日本語横書きで時々アルファベットの引用を含んでいる文章をAcrobat の OCR で認識させるとアルファベットの一部の認識が失敗します。オプションは日本語文章を選んでおります。アルファベットもうまく認識させる方法はないでしょうか。

399 :名無しさん@お腹いっぱい。:2021/08/27(金) 20:30:24.89 ID:939FgqXL0.net
この車のナンバーって人工知能で解析できんかね。
http://himado.in/492909

400 :名無しさん@お腹いっぱい。:2021/09/11(土) 09:26:02.33 ID:XEPKqxnl0.net
CloudのAI OCRではGoogleのCloud Visionが優れていたが
最近AzureのCognitive Serviceを試してみたところ
文字の認識誤りの少なさではさらに上回る

ただし課題もあり、右から左へ改行していく縦書き文書を
左から右へ認識するので、行の順序が逆になる
読取順序をbasicからnaturalへ変えても同じ

幸い出力のjsonには座標情報が含まれているので
スクリプトによる後処理で行を並び替え
ついでにルビも削って整えているが
この辺をうまくやってくれるGUIがほしいところ

401 :名無しさん@お腹いっぱい。:2021/09/11(土) 10:34:50.20 ID:LOlOzN870.net
そのスクリプトは公開してるの?
PythonでGUI作れるかも。

402 :名無しさん@お腹いっぱい。:2021/09/11(土) 11:06:47.97 ID:XEPKqxnl0.net
>>401
公開するほど大したことない
AzureのAPIとのやりとりはPythonで
後処理はluaでやっている(速いしYAMAHA使いなので)

小ネタで、Google Cloud Visionには
Microsoft Automate Desktop が何気に対応していて
フォルダ内の画像に一括OCRをかける程度なら
ノーコードで簡単にGUI化できる

403 :名無しさん@お腹いっぱい。:2021/09/11(土) 14:41:17.75 ID:e30+Z8z90.net
e.Typistは終了
読取革命も終了
企業向け帳簿用以外の個人用OCRはもうおしまいだ

404 :名無しさん@お腹いっぱい。:2021/09/15(水) 20:58:46.28 ID:Vw0PVGR20.net
日本語OCRはくそ

405 :名無しさん@お腹いっぱい。:2021/09/16(木) 07:00:29.94 ID:oHPqQDLA0.net
ニーズはあるはずなのに程よくまとまったアプリがない
スクリプトでGoogleなりAzureなりのAIを使えば
認識精度は高いけど、求めるのはそれじゃない

画像をクラウドへ送りたくない向き用に
いわば認識エンジンをローカルへダウンロードできる
Docketの仕組みもあるし、
誰か小綺麗にパッケージ化してくれたら買うのにな

406 :名無しさん@お腹いっぱい。:2021/09/17(金) 00:22:23.73 ID:0acrvs2j0.net
>>405
それ、tesseract以外で作るのなら、エンジンライセンスだけで安くて数十万かかるんじない。買うって法人で買うの?

407 :名無しさん@お腹いっぱい。:2021/09/17(金) 02:47:20.06 ID:7J187VR90.net
自前で日本語認識エンジン作って遊ぼうとしてるけど、かなり難易度高い。
特に日本語は文字種が多くて、しかも英単語とか普通に混じってくるし。
売り物としたら数十万の売値になるくらい、計算機回してるわ

後半(文字の場所が分かっていて、それをテキストにする)はできたけど、
前半(どこに文字のboxがあるか)を当てるところで苦しんでる

408 :名無しさん@お腹いっぱい。:2021/09/17(金) 07:14:06.31 ID:pFveJpOG0.net
>>406
それがMicrosoft AzureのDockerなら
目安として1,000枚あたり112円の完全従量制で
個人でも検討範囲に十分入るんだ
エンジンはローカルで、クラウドとは
課金のための小容量の通信が時折発生するくらいで

409 :名無しさん@お腹いっぱい。:2021/09/17(金) 12:13:11.15 ID:wHT5xdlK0.net
Dockerってそういう使い方できるのか、ちょっと触ってみようかな。

410 :名無しさん@お腹いっぱい。:2021/09/18(土) 12:21:57.09 ID:q+UM7OU/0.net
>>407
CenterNet を試してみては如何ですか?
物体の中心を特徴点として検出した後、幅・高さのサイズを予測する手法です

411 :名無しさん@お腹いっぱい。:2021/09/18(土) 14:19:37.46 ID:kRyIOOu20.net
OCRも光学読み取りの精度にこだわりすぎずにBARTなどの文脈推定を入れればトータルの性能が上がる気がする

412 :名無しさん@お腹いっぱい。:2021/09/18(土) 14:25:05.85 ID:nHCGcW6c0.net
BERTっていうのね これ面白そうだ
小説でpre-trainedなモデルってあるのかな

413 :名無しさん@お腹いっぱい。:2021/09/18(土) 14:40:51.41 ID:Bzc3NP9C0.net
https://nlp.ist.i.kyoto-u.ac.jp/?BART日本語Pretrainedモデル

414 :名無しさん@お腹いっぱい。:2021/09/18(土) 18:05:35.08 ID:eBkRmb3c0.net
>>410
サンクスです。良い手法を教えていただきました

今やってるモデルは、u-net ベースで、CenterNetの中心ヒートマップを使ってる
感じです。
これを参考に改造して作ってます。
https://github.com/tanreinama/OCR_Japanease

lossを調整したら、ほぼうまく行くようになってきました。
完成したら公開しますので、また来ます。

415 :名無しさん@お腹いっぱい。:2021/09/19(日) 08:55:39.56 ID:nf9M18go0.net
>>414
お役に立てたようで良かったです。成果を楽しみにしております。

416 :名無しさん@お腹いっぱい。:2021/09/30(木) 21:55:51.09 ID:VNbgOTa80.net
>>270
Acrobat pro DC (2015年の製品版)をまだ使ってるんだけど、
横書きの整備マニュアル370Pを
Canonの複合機TR9530のADFで地道にスキャンして(400dpiカラー)
CanonのPDFソフトでPDF化(OCR有)したものと、
それをAcrobatで再OCR化(圧縮無し)したものを比べてみた。

417 :名無しさん@お腹いっぱい。:2021/09/30(木) 21:56:43.99 ID:VNbgOTa80.net
検索は全て完全一致無しのオプションで。
検索文字「バッテリ」
Canon  286件
Acrobat  262件

検索文字「ボルト」
Canon  290件
Acrobat  270件

検索文字「注意」
Canon  506件
Acrobat  215件

検索文字「交換」
Canon  419件
Acrobat  418件

検索文字「目」
Canon  66件
Acrobat  77件

418 :名無しさん@お腹いっぱい。:2021/10/22(金) 18:41:13.88 ID:KWvJbojp0.net
キヤノンの優秀だね。自社エンジンなのかなぁ

419 :名無しさん@お腹いっぱい。:2021/10/22(金) 22:01:30.34 ID:CBrjiuuX0.net
ぺパレス電子化コラム - OCRソフトの比較
ttps://pepaless.com/column/180614_01/
画像部分とか、網かけ部分とかの認識も優れているかどうかはわからないけどね。

420 :名無しさん@お腹いっぱい。:2021/10/27(水) 11:37:37.49 ID:UgMif3Au0.net
>>419
コレ三年前の記事かよ。
つってもソフトは当時のバージョンとほとんど同じだから、実害はなしか。

『読取革命』も最新版だからって、とくに画期的に変わった訳でもあるまいに。

421 :名無しさん@お腹いっぱい。:2021/12/02(木) 01:05:23.86 ID:0IUMVg7L0.net
Tesseract OCRのリリース5.0.0がでたわよ!
https://github.com/tesseract-ocr/tesseract/blob/main/ChangeLog

422 :名無しさん@お腹いっぱい。:2021/12/11(土) 14:03:43.57 ID:m2OgodYX0.net
読取革命16買って少し使ってみたけど、白抜き文字の認識(日本語)泣けるほど弱い。総合的にみて、Canonスキャナ付属Capture PerfectとOCR精度はあまり変わらない気がする。白ぬき文字については進化が止まっていることを実感させられる。泣けてきた。

423 :名無しさん@お腹いっぱい。:2021/12/11(土) 14:30:29.15 ID:+ocplaTK0.net
本当の評価ポイントは
校正のしやすさなんだがなあ

424 :名無しさん@お腹いっぱい。:2021/12/11(土) 16:24:54.51 ID:Q8aFwsdH0.net
以前の読取革命15体験版の感想だけど

読んdeココみたいな認識結果や候補文字を種別ごとに色分け表示する機能が無いからから
外見が似た文字の見分けが付かず
校正に苦労する印象だった
カタカナ「に」と漢数字2、長音符号とハイフンとダッシュと漢数字1、数字1と英字エルとかね
いちいち別ソフトにコピペしてコードポイント確認する作業した記憶ある

16で改善されてますか?

425 :名無しさん@お腹いっぱい。:2021/12/11(土) 21:50:27.92 ID:m2OgodYX0.net
>>424
認識結果の文字種を色分けすることはできなさそう。ソフトが間違って認識してるかもという文字が赤色になるだけ。認識結果のテキスト表示フォントは変えられる。
HPには認識結果を読み上げる機能があるとなっているが、アイコンがグレイの状態で読み上げられない。ヘルブにも読み上げ方法の記載はないが、ver15応用編のヘルブにはPC talkerがいるように書いてある。もし16にそれがあてはまるなら、優良誤認だろっていう感じ。
あと、話題がずれるが、読み取った結果でpdf出力する場合(透明テキストでなはなく)、フォントが、MS明朝かゴシック(等幅かP)しか選べないのはビックリした。

426 :名無しさん@お腹いっぱい。:2021/12/11(土) 22:54:22.88 ID:Q8aFwsdH0.net
>>425
返答ありがとうです
とても参考になりました

表示フォント変えられるなら、改善待つより校正用のフォントを自作する方が早いのかもしれないですね

427 :名無しさん@お腹いっぱい。:2021/12/12(日) 00:58:57.76 ID:flVhFSAg0.net
miguフォントを使ってみな

428 :名無しさん@お腹いっぱい。:2021/12/12(日) 01:04:33.72 ID:flVhFSAg0.net
読取革命を10年以上使い続けて
それなりのノウハウがたまってきたんで
そのうち小出しに紹介したい

429 :名無しさん@お腹いっぱい。:2021/12/12(日) 08:42:52.12 ID:DPqdfiih0.net
表を表のままocrできたりしない?

430 :名無しさん@お腹いっぱい。:2021/12/12(日) 15:02:19.21 ID:6Ne5KHfK0.net
>>429
領域の属性をテキストとか画像とか表とか設定できる。
各行の背景が白、グレイ、白といった表は読取革命16でエクセル出力したら、一つのセルに全部入ってしまってダメだった。Just pdf4ではうまくエクセル出力できたが(一つのセルに表の1要素が入ってくれる)。
実線で区切られる表なら、うまくいくのかもしれないが試してない。427氏に期待したい。

431 :名無しさん@お腹いっぱい。:2021/12/12(日) 17:38:08.22 ID:flVhFSAg0.net
すまねえ、すまねえ……
得意分野は小説のテキスト化なんだ……

432 :名無しさん@お腹いっぱい。:2021/12/12(日) 20:38:10.99 ID:HW00Chvv0.net
>>431
話しことばの"いるんだ"などは
どのように処理っされてますか?
etypist使いですが毎回、認識エラー候補になり、確認が面倒です。

433 :名無しさん@お腹いっぱい。:2021/12/12(日) 21:56:15.22 ID:flVhFSAg0.net
待ってくれ

どうやら俺が持っているノウハウの方向性と、皆の期待している方向性とが違う可能性が高いようだ

実は俺は>>76なんだ

校正作業するのが前提でその効率化のノウハウなんだ

434 :名無しさん@お腹いっぱい。:2021/12/12(日) 22:53:11.11 ID:VxJSq+w60.net
OpenCVとTesseract-OCRで作る表のOCRツール rev1
https://ymt-lab.com/post/2021/table-recognition-tool-rev2/

435 :名無しさん@お腹いっぱい。:2021/12/13(月) 11:36:19.13 ID:jLNnEax80.net
>>433
最近自炊小説をetypistでテキスト化(そのあと合成音声化)を始めたものです
校正作業の効率化ノウハウをぜひ教えてください!

436 :名無しさん@お腹いっぱい。:2021/12/15(水) 21:24:42.83 ID:dHfR+Ceb0.net
まずはデカいモニタ必須
マクロ登録できるキーボード エレコムのTK-DUX30BKおすすめ 同機能のソフトで代用可

読取革命15 体験版しか使ったことない
Oracle VM VirtualBox等 ごにょごにょ

437 :名無しさん@お腹いっぱい。:2021/12/17(金) 00:57:11.07 ID:NfrEGe8e0.net
いま流行りの AI を使って認識率を高めるような OCR ソフトはないのかな。業務用じゃなくて個人用で。
Google の OCR ソフトは認識率はいいのかな。Google Docに変換しないと使えないという不自由さはさておいて。

438 :名無しさん@お腹いっぱい。:2021/12/17(金) 19:30:14.86 ID:gQDiVMg+0.net
>>437
pythonやpowershellなどでスクリプトを組めば
googleなりAzureなりのAIを利用したOCRそのものは
そう高くなく、認識精度もごく高い
(画像1000枚あたり100円台)

現状、見栄えの良いGUIがないだけ

439 :名無しさん@お腹いっぱい。:2021/12/17(金) 20:45:06.62 ID:NfrEGe8e0.net
>>438
ありがとうございます.

>pythonやpowershellなどでスクリプトを組めば
両方とも経験がないのでこれから勉強しますが,参考になるスクリプトのHPはどこかにないでしょうか?

アクロバットのOCRのようにもとの文字の上に透明文字を配置してくれるのでしょうか.もとの資料上にハイライトや検索が必要なので.

440 :名無しさん@お腹いっぱい。:2021/12/17(金) 21:15:37.54 ID:CWuXF4+80.net
手前味噌ですがコレなどw

https://github.com/dinosauria123/makepdf

441 :名無しさん@お腹いっぱい。:2021/12/17(金) 21:20:54.87 ID:CWuXF4+80.net
こちらも

https://remoteroom.jp/diary/2017-10-12/

442 :名無しさん@お腹いっぱい。:2021/12/18(土) 14:14:33.30 ID:dtKgeMNR0.net
>>440,441
ありがとうございます。
440は439の内容は同じですか。

Cは昔使った記憶があるのでうがwindowsの環境で動かす方法を忘れました。
ハードルが高そうです。
目的にOCR処理の前に環境を整え使いこなすまでに時間がかかりそうで、逡巡します。

443 :名無しさん@お腹いっぱい。:2021/12/18(土) 14:40:57.61 ID:AGBm6fvC0.net
430のgithubの中にwindows用実行プログラムもありますw

444 :名無しさん@お腹いっぱい。:2021/12/18(土) 14:43:57.28 ID:AGBm6fvC0.net
Google Cloud VisionのAPIキーが必要です。

https://syncer.jp/cloud-vision-api

445 :名無しさん@お腹いっぱい。:2021/12/18(土) 21:04:03.07 ID:dtKgeMNR0.net
>>444
ありがとうございます。
研究してみますね。

446 :名無しさん@お腹いっぱい。:2021/12/19(日) 01:15:52.64 ID:SmDRr8Ij0.net
ここでヒントもらった、機械学習で文字認識する方法
惜しいところまで来たけど、あともう一声がうまくいかない。
文庫本見開きを与えて、3箇所くらいミスる。特にふりがなとかページ番号
とかのちっさくて近接してるところが鬼門。
Googleとかに投げれば簡単なんだけど、やっぱり自前で解けると
何かと捗るんで是非とも完成させたい

447 :名無しさん@お腹いっぱい。:2021/12/19(日) 12:59:45.91 ID:rFaLUd6N0.net
>>436
やはり大きなモニターは必須ですよね。。小さいノートPCで作業しているのできついです。
キーボードへのマクロ登録は、どの作業を登録しているのですか?

448 :名無しさん@お腹いっぱい。:2021/12/19(日) 21:57:43.76 ID:slxgE1fB0.net
校正作業を効率化

>>436の続き

条件は>>76
今回は二段組の場合

https://light.dotup.org/uploda/light.dotup.org10755.jpg
スキャン画像をこんな風に作り変える

染みゴミ取り漂白
傾き補正
二段組ページを上下分割余白消し
14ページ分を左右上下に張り合わせて一枚にする
横につなげるときは右から左ね

これ以上ページを増やしたら読取革命で読み込めるけど
テキスト保存したとき字数(行数)?制限で後ろのほうが削られてしまう
たぶん

読取革命の設定こまごま
後述

キーボードマクロ
後述

449 :名無しさん@お腹いっぱい。:2021/12/19(日) 22:20:59.74 ID:slxgE1fB0.net
1ページづつ校正していたら手間取りすぎる
まとめちゃえ

450 :名無しさん@お腹いっぱい。:2021/12/20(月) 21:26:34.83 ID:f979t7aJ0.net
e.typist使いの私は、マウスにマクロつけてる。
 ・単語登録
 ・次ページ送り+一括置換+全文解析

451 :名無しさん@お腹いっぱい。:2021/12/21(火) 10:24:13.91 ID:qnmpXEEu0.net
>>448
ノウハウ助かります!
>>450
e.typistでの「次ページ送り」はマウスで次ページをクリックする以外にショートカットキーなどがあるのですか?

452 :名無しさん@お腹いっぱい。:2021/12/21(火) 20:20:01.46 ID:QXL1RUnR0.net
>>450
alt{la} down return f7
をマウスのボタンに割り当てました。

453 :名無しさん@お腹いっぱい。:2021/12/21(火) 22:30:27.69 ID:XB9tp3vX0.net
校正作業を効率化

左右上下につなげるソフトはこれ
ImageMerge

読取革命を立ち上げて

オプション環境設定
チェックを入れるもの 
 一般 未確定・・・
 表示 初期 ページ幅
    倍率 ページ幅
    連動

画像読み込み後
右クリックから属性変更
チェックを入れるもの
認識 文字種 ひらがな カタカナ 漢字第一 数字 ユーザー定義 単語辞書
(漢字第二とアルファベット、記号はチェックしない。必要な文字はユーザー定義欄に入れる)

レイアウト認識 1枚づつやったほうがいいと思う
認識したレイアウトを確認 削除統合で整形

文字認識
一行に一文字とかしかない場合読取ミスがあったりするので確認訂正
空白行等も確認
文章を読むのではなく俯瞰して形で見比べる

行頭の字下げスペースとかは後で

454 :名無しさん@お腹いっぱい。:2021/12/22(水) 16:55:07.37 ID:mm615h1N0.net
>>452
ありがとうございます!!
読取革命と違って、カーソルキーのみで次の画像に移動できなくて困っていました。

>>453
読取革命も使用しているので参考にさせていただきます。

455 :名無しさん@お腹いっぱい。:2021/12/22(水) 20:50:42.00 ID:JoFQcdng0.net
>>453
ちょうど数日前からShiftJISの一覧表から使う文字と使わない文字の選別を試していたのですごく納得です
第2水準は見た事ある文字ほとんど無いし
あっても一般的には特定の熟語でしか出現しないものが多い
薔薇、葡萄、林檎、珊瑚、蜘蛛、楕円、琉球…
テキストエディタの正規表現色分け試してる最中でした

456 :名無しさん@お腹いっぱい。:2021/12/22(水) 22:32:05.67 ID:HGKSXGSe0.net
校正作業を効率化

ここまででいったん作業状態の保存

今度は文字置換(透明テキストが不要な場合のみ)

下記を確認無しで問答無用で最初に置換



□は全角スペース

□□ → □
『 → 「
□「 → 「
□( → (
ぱ → ぱ
ぷ → ぶ
ぽ → ぼ
っば → っぱ
っぶ → っぷ
っぼ → っぽ
っだ → った
っで → って
1つ → う
。つ → う
、つ → う
」つ → う
』つ → う
!…… → !…
1…… → !…
ー…… → !…

457 :名無しさん@お腹いっぱい。:2021/12/22(水) 22:32:44.79 ID:HGKSXGSe0.net
これをキーボードマクロで1ボタン一発置換にしている
600行くらいのマクロ (ショートカットやキー入力を順番にレコード)

表示文字のフォントは前に紹介した Migu 1M が大変便利
(似た形の文字の区別に主眼を置いたフォント)
もっといいのがあったら教えてね

458 :名無しさん@お腹いっぱい。:2021/12/23(木) 23:18:30.24 ID:OTHMdVZm0.net
ごはんかいじゅう

459 :名無しさん@お腹いっぱい。:2021/12/25(土) 08:51:53.07 ID:i+O0OTqP0.net
miguフォントを教えていただいた方、
ありがとうございました。
ノートでもパとバが見分けられるようになりました

460 :416:2022/01/06(木) 21:16:52.24 ID:Ih0Nt3Hq0.net
検索は全て完全一致無しのオプションで。OCR化は圧縮無し。
スキャナはキャノンDR-S130使用(誤差拡散は線の太さ中の設定)

検索文字「バッテリ」
Canon (カラー286件・299件)(誤差拡散244件)(グレー302件)
Acrobat (カラー262件・268件・266件)(誤差拡散283件・279件)(グレー273件・271件)
新型Acro    (カラー295件・294件・294件)(誤差拡散276件・276件)(グレー302件・298件)
KOFAX (カラー276件・280件・291件)(誤差拡散286件・295件)(グレー283件・293件)
Eタイピスト (カラー306件・306件)(誤差拡散301件)(グレー307件)

461 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:17:41.87 ID:Ih0Nt3Hq0.net
検索文字「ボルト」
Canon (カラー290件・296件)(誤差拡散258件)(グレー300件)
Acrobat (カラー270件・271件・272件)(誤差拡散273件・277件)(グレー272件・275件)
新型Acro (カラー261件・272件・276件)(誤差拡散179件・160件)(グレー279件・276件)
KOFAX (カラー291件・303件・302件)(誤差拡散317件・317件)(グレー301件・301件)
Eタイピスト (カラー253件・247件)(誤差拡散247件)(グレー248件)

462 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:18:28.20 ID:Ih0Nt3Hq0.net
検索文字「注意」(白黒反転文字の注意と、周囲を文字の大きさの長方形の枠で囲まれた注意の2種類)

Canon (カラー506件・490件)(誤差拡散278件)(グレー467件)
Acrobat (カラー215件・217件・215件)(誤差拡散217件・214件)(グレー216件・216件)
新型Acro (カラー214件・216件・216件)(誤差拡散220件・215件)(グレー215件・217件)
KOFAX (カラー429件・431件・422件)(誤差拡散415件・419件)(グレー406件・414件)
Eタイピスト (カラー219件・219件)(誤差拡散217件)(グレー219件)

463 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:19:37.59 ID:Ih0Nt3Hq0.net
CanonもKOFAXも白黒反転文字の注意は認識できたりできなかったり。
差がついたのは、周囲を文字の大きさの長方形の枠で囲まれた注意を認識できるか、できないかで差がついた。
Canonは誤差拡散(線の太さ中)になると、OCRの精度が落ちました。(文字によっては落ちないものもあった。)

464 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:33:48.76 ID:Ih0Nt3Hq0.net
KOFAXレポ(OCRは優秀だが癖がある)
〇単独のファイルを開いてOCRした場合
上書きOCRした場合
元々のOCRが消されないで二重にOCRされる。
(検索ヒット数が極端に多くなる。(2倍ぐらいになる)
OCR情報を全て消してからだとOCR可能。

→しかし、どちらのやり方でも上書き保存だと
ファイル容量がなぜか倍ぐらいになる。(大きいファイルのみ)
→対策
KOFAXのエクスポート機能で出力すると原本と殆ど同じ大きさのファイルで出力される。
〇複数PDFファイルを結合してOCRした場合
他ソフトでOCR未処理の処女ファイルはOCR化できる。
他ソフトでOCR処理済みのファイルは、Acrobat等で非表示テキストを削除しても、何故かOCR認識できない。(上書きOCRされない。元のOCRのまま)
KOFAXで非表示テキストを削除して再OCR化した場合は、考えつかなかったので試す前に試用期間が終わってしまった。

465 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:38:26.46 ID:Ih0Nt3Hq0.net
新型AcrobatとKOFAXとEタイピストは、全て試用verのものです。

466 :名無しさん@お腹いっぱい。:2022/01/06(木) 21:47:34.36 ID:Ih0Nt3Hq0.net
KOFAX(Power PDF Advanced)

467 :名無しさん@お腹いっぱい。:2022/01/17(月) 00:21:08.46 ID:4mdkimZz0.net
Canonの複合機のソフト「IJ Scan Utility」(ライトは不可)
の「PDF編集」で画像を読み込んでOCR化PDF作成可能
https://ij.manual.canon/ij/webmanual/ScanUtility/W/LiDE%20400/1.1/JP/SU/su-965.html
https://ij.manual.canon/ij/webmanual/ScanUtility/W/LiDE%20400/1.1/JP/SU/su-971.html
 
各種制限は上記リンク参照で(いちどに100P迄等)
試してみたら
ビットマップ不可
マルチTIFF不可

圧縮は
他社スキャナー作成の600dpiのTIFF(100Pで10G)
標準圧縮→100Pで200MB弱に
TIFF読み込み3分
PDF保存17分

OCRの結果は
シャドウを増やしてスキャンしたからか、注意の検索結果だけ355件に落ちた。
それ以外の検索結果は変わらず。

468 :名無しさん@お腹いっぱい。:2022/01/17(月) 07:30:34.87 ID:4mdkimZz0.net
複合機=プリンター複合機

469 :名無しさん@お腹いっぱい。:2022/01/24(月) 00:38:20.88 ID:F2x9Gu0W0.net
読取革命買ったのに期待通りの性能じゃなくてがっかり。
scansnapで読み取った後に行うOCR処理よりも優れてると思ったけど寧ろ劣ってるわ。
読取革命買った時のためにOCR処理せずに読み取ってたのがなんか無駄だったな

470 :名無しさん@お腹いっぱい。:2022/01/24(月) 05:30:43.70 ID:a7AiMsCc0.net
悲しいなあ

471 :名無しさん@お腹いっぱい。:2022/01/24(月) 23:01:40.72 ID:v/V7BEgB0.net
KOFAXもOCR会社買収してたりするから、
プリンター会社もOCRソフトウェア経験者引き抜いたりしてるんでは?

OCRソフトは、試用版を使った感じでは、
表形式の文書をスキャンしてエクセルに変換するのは
原本に応じて、色々認識範囲を任意に変更できたりして得意そうな気がしたけどね。
ビジネス向きかもしれんね。

472 :名無しさん@お腹いっぱい。:2022/01/24(月) 23:52:10.63 ID:v/V7BEgB0.net
PDF同士の結合は、たぶん結合前じゃなく結合後の総ファイル容量だと思うんだけど、

Acrbatは2G迄
KOFAXは3G迄

だった。それ以上だと何回か繰り返したけどエラーが出た。
画像を結合して変換する場合はわからん。

473 :名無しさん@お腹いっぱい。:2022/02/19(土) 03:56:35.97 ID:1i5A+HZD0.net
おまいらありがとう
ここで教えてもらった手法を元に
機械学習でOCRするやつの前段が完成した
https://i.imgur.com/fnV1SQd.png

後段は文字の連結を拾ってutf8とかで符号化するんだけど
これは事前に確認したところではいけてるので、もうちょい

474 :名無しさん@お腹いっぱい。:2022/02/19(土) 06:41:57.66 ID:EHOGoR7G0.net
>>473
文字の切り出しの手法は、何を使いましたか?

475 :名無しさん@お腹いっぱい。:2022/02/19(土) 15:59:36.83 ID:1i5A+HZD0.net
>>474
CenterNetの手法で、バックボーンにEfficientNet v2を使っています。
文字の中心位置とボックスと縦横を出すのと同時に、
中心位置まわりに384次元の特徴量を取得してます。
プレ学習として、384次元の特徴量を文字コードに1対1で変換してます。

後段では、特徴量を連続させて、文脈依存で文字コードに変換させるのを予定してます。

476 :名無しさん@お腹いっぱい。:2022/02/20(日) 07:54:02.16 ID:lLW2TQdp0.net
>>475
頑張りましたね。
手書き文字だと、どんな感じに抽出できますか?

477 :名無しさん@お腹いっぱい。:2022/02/20(日) 15:26:54.12 ID:YPHg717Q0.net
>>476
https://i.imgur.com/YEOWcgA.png
https://i.imgur.com/0rUVrYT.png
これくらい

手書きは学習データを用意するのがめっちゃ大変なので、
十分学習はできてない気がする。いまのところおまけ程度の
精度しか出てません。
手書きは文字が分裂して認識しやすいので、相当たくさんの
手書きデータを元に学習させないと上手くいかないと思われます。
やり方としては今の延長線上でいけそうな気配はしてます。

478 :名無しさん@お腹いっぱい。:2022/02/21(月) 06:41:18.52 ID:mGEzXi/K0.net
>>477
良い感じで抽出できてますね。GitHubにソースなどを上げて欲しいです

479 :名無しさん@お腹いっぱい。:2022/02/21(月) 11:29:34.65 ID:e3F9aiKE0.net
>>473
すばらしい。

リリースの暁は、日本語文書き出しの行頭一文字空白も認識させてください。

480 :名無しさん@お腹いっぱい。:2022/02/22(火) 23:37:13.04 ID:KG6iI0vy0.net
>>478
まだ前半だけだけどとりあえずソース
https://github.com/lithium0003/findtextCenterNet

学習済み重みはreleaseのところにリンクがあるです
文字の大きさは、20pixel-200pixel位で覚えさせてるので
見かけの大きさがそのくらいになる様にリサイズするとよいです。
カラーは適当に処理するはずですが、上手くいかない場合は
コントラストとかいじる必要があるかも。

481 :名無しさん@お腹いっぱい。:2022/02/25(金) 01:47:43.46 ID:oU6IT1Qa0.net
神アプリ誕生の予感...

482 :名無しさん@お腹いっぱい。:2022/02/26(土) 02:15:28.14 ID:d9ue173/0.net
>>480
のモデルで、iPhoneとかiPadで推論できるようにしました
https://testflight.apple.com/join/X68qbEsJ

iPhone13とかの最新デバイスだとまともに動くと思うのですが
昔のデバイスだと微妙かも。落ちる場合はCPU onlyにしたら
遅いながらも落ちなくはなります。

483 :名無しさん@お腹いっぱい。:2022/02/27(日) 01:31:27.11 ID:Zp2vBZkX0.net
>>482
Android しか持っていないので試せないです。残念。

>>477
文字のある領域を示すのに IIIF manifest の形式を使うのが標準的なようですが、対応してますか?

484 :名無しさん@お腹いっぱい。:2022/02/27(日) 23:10:43.63 ID:1WOIRC0G0.net
>>483
IIIF manifestの形式は知りませんでした。どこかよい説明のリンクありますでしょうか。

Androidでも機械学習モデルが簡単に動けばいいのですが。iPhoneの最近のやつは
推論エンジン積んでるのでかなり速く認識できます。

485 :名無しさん@お腹いっぱい。:2022/03/05(土) 01:38:16.55 ID:iWInWTln0.net
いまだによくロシア企業のOCR使えるな

486 :名無しさん@お腹いっぱい。:2022/03/06(日) 22:12:54.20 ID:p5crT8Gx0.net
AcrobatでOCRした透明テキストの修正ってどうしてます?
Acrobat上だとやりづらすぎて

487 :名無しさん@お腹いっぱい。:2022/03/10(木) 08:35:47.81 ID:cWyR5z8H0.net
漫画翻訳再加工でおすすめのありますかね
グーグルのカメラ翻訳みたいなのが一番なんだけどさすがに無理か
これしか見つからない
https://www.imagetranslate.com
https://github.com/minux302/manga_global

488 :名無しさん@お腹いっぱい。:2022/03/30(水) 19:16:25.05 ID:aBrCbYCH0.net
>>469
ありゃダメだよ
ま、値段を考えたら自ずと理解できると思うけどね

489 :名無しさん@お腹いっぱい。:2022/03/31(木) 19:28:57.72 ID:0TmFtm2N0.net
読取革命を経理業務で使ってる人いる?
領収書や請求書なんかの文字認識や精度はどの程度なのか気になってます

490 :名無しさん@お腹いっぱい。:2022/03/31(木) 20:59:05.31 ID:gur9KTQl0.net
認識させた後どうやって使うつもりなの?

491 :名無しさん@お腹いっぱい。:2022/04/03(日) 10:55:17.93 ID:AGhKdTzD0.net
読取革命を業務で使ってる人なんていないと思う
そのレベルのOCRだから

492 :名無しさん@お腹いっぱい。:2022/04/03(日) 14:38:33.39 ID:OgQuX8lP0.net
まさに革命やな。

493 :名無しさん@お腹いっぱい。:2022/04/03(日) 20:05:43.65 ID:Jsg5j8K40.net
そもそも、読取革命みたいなレベルのソフトを法人が使うわけないやろw

494 :名無しさん@お腹いっぱい。:2022/04/03(日) 21:08:08.14 ID:rMkt3H120.net
それこそ革命やで。

495 :名無しさん@お腹いっぱい。:2022/04/03(日) 22:51:40.78 ID:TpRPDKza0.net
滑り芸か?

496 :名無しさん@お腹いっぱい。:2022/04/04(月) 06:49:29.29 ID:YzNd9QN20.net
ごめんなさい。ふざけすぎました。

497 :名無しさん@お腹いっぱい。:2022/04/21(木) 20:39:05 ID:vYl46slD0.net
streamed高いからなあ
自分で出納帳読み込んで仕訳作成できれば
streamedなんか使う必要ないんだけど
そんな優れた市販のOCRソフトが無いんだよね

498 :名無しさん@お腹いっぱい。:2022/04/22(金) 12:05:06.71 ID:xT58YArZ0.net
まあ出納帳Excelで作ればOCR化なんて挟む必要もないんだけどな

499 :名無しさん@お腹いっぱい。:2022/04/23(土) 12:38:43 ID:SDF278rq0.net
Google の OCR 使いたかったらPDF ファイルを Google ドライブにあげてGoogle ドキュメントで開けばいいと思ってたんだけど文字認識していない
どうすれば使えるんだったっけ?
誰かわかる人教えてください

500 :名無しさん@お腹いっぱい。:2022/04/23(土) 12:39:18 ID:SDF278rq0.net
この PDF はスキャンしただけの画像です

501 :名無しさん@お腹いっぱい。:2022/04/23(土) 13:39:01 ID:vfksCYOj0.net
>>499
PDFではやった事ない
自分はPNGでやってる

502 :名無しさん@お腹いっぱい。:2022/04/23(土) 15:47:28.78 ID:SDF278rq0.net
>>501
https://support.google.com/drive/answer/176692?hl=ja&co=GENIE.Platform%3DDesktop

Google の説明では PDF ファイルも文字認識するのでなんだけど

503 :名無しさん@お腹いっぱい。:2022/04/23(土) 16:29:35.50 ID:SDF278rq0.net
>>501
498だけそ,1ページだけ抽出してpng形式変換した後,Google ドキュメントで開いたけどやっぱ文字認識してない.

504 :名無しさん@お腹いっぱい。:2022/04/23(土) 18:16:25 ID:vfksCYOj0.net
>>503
特に問題無くできるけどなあ・・・
ttps://i.imgur.com/ooEoPEj.png
設定見てもOCRを阻害しそうな項目は見当たらないし・・・

ごめん、わからん

505 :名無しさん@お腹いっぱい。:2022/04/23(土) 18:33:13.03 ID:wmkK3m2e0.net
ヘルプに書いてあるいくつかの条件は確認してるのですね

506 :名無しさん@お腹いっぱい。:2022/04/23(土) 19:28:16 ID:SDF278rq0.net
>>504
https://imgur.com/a/pFWtlW7
これなんですがそちらの環境で文字認識しますか?

507 :名無しさん@お腹いっぱい。:2022/04/25(月) 21:32:24.29 ID:/wxbOJYz0.net
そういや、読取革命16を買って、ほとんど使ってないわw
修正面倒臭いから

508 :名無しさん@お腹いっぱい。:2022/05/05(木) 02:00:37 ID:MOkzV1Bk0.net
PDF エレメントプロの OCR はアクロバットのOCRに比べてどうでしょうか
経験がある方がいれば教えてください

509 :名無しさん@お腹いっぱい。:2022/05/07(土) 14:36:40 ID:UgcE4ImC0.net
国会図書館、OCR処理プログラム及び学習用データセットを公開
https://srad.jp/story/22/05/05/1624259/

510 :名無しさん@お腹いっぱい。:2022/05/07(土) 14:41:33 ID:UgcE4ImC0.net
モルフォAIソリューションズが国立国会図書館の最新AI技術を活用したOCR処理プログラムの開発を完了
https://www.jiji.com/jc/article?k=000000053.000064140&g=prt

511 :名無しさん@お腹いっぱい。:2022/05/09(月) 08:09:09.82 ID:zcEHCKRp0.net
Google の OCR が優秀でもスキャンした画像の上に非表示の文字を載せてくれないので自炊用には使えないと思う。
自分は自炊用にはAcrobat の OCR を使っているけどこれよりも 認識率が高いOCR ってありますか?

512 :名無しさん@お腹いっぱい。:2022/05/23(月) 11:27:12 ID:7qUjQCGH0.net
読取り革命14を使用しています.PDFに透明テキストで出力していますが,デフォルト(自動)ではフォントサイズが小さくて選択したときに表示文字列よりも小さくななります.
メニューの「結果」で領域ごとの設定できますが300頁の専門書の自炊では領域ごとの設定ですと手間がかかりすぎます.

手動でPDFに出力する透明テキストのフォントサイズを全ページ一括で変更したいのですが,そのような設定は可能でしょうか.

513 :名無しさん@お腹いっぱい。:2022/05/23(月) 17:39:34 ID:AEOqr8aw0.net
読取革命はマジで使えない
あれはめちゃくちゃ評判悪いぞ

514 :名無しさん@お腹いっぱい。:2022/05/23(月) 20:52:29 ID:7qUjQCGH0.net
>>513
お言葉ですけど自分はスキャナー 添付の OCR ソフト、アクロバット 添付の OCR ソフト、Google の OCR ソフト、e.Typist、本格読み取りなども全部試して縦書きのアルファベット 混在、図表混在のOCR 認識は読取革命が群を抜いてるという結論に落ち着きました。読取革命の強みは1ページを領域ごとに認識方法をカスタマイズできることです。読取革命 の評価が低い人はマニュアルが分かりにくいためにおまかせ設定だけで使って性能を100%引き出してないのだと思います。

私の質問の解決方法が見つかればほぼ完璧です。

515 :名無しさん@お腹いっぱい。:2022/05/23(月) 21:03:06 ID:7ETshV7p0.net
スキャンスナップとどっちがいい?

516 :名無しさん@お腹いっぱい。:2022/05/23(月) 21:03:45 ID:AEOqr8aw0.net
あれは、手直しに手間暇がかかりすぎて使えないという評価が定着してるのだが
文字だけならともかく、図表や表に記入された文字などの読み取りはまったくダメダメで手直しに苦労する

517 :名無しさん@お腹いっぱい。:2022/05/23(月) 21:24:15 ID:7qUjQCGH0.net
>>515
ScanSnap は試したことがないので分かりません

518 :名無しさん@お腹いっぱい。:2022/05/23(月) 21:29:16 ID:7qUjQCGH0.net
>>516
領域に分けてそれぞれずっとか表とか横書き縦書きとか指定すればかなり認識精度は高いです。簡単認識設定で標準の領域設定を使い、図表が混在しているページだけ手で領域を複数に分割して設定すれば割合効率的にできます。自動レイアウト機能で認識させるとおっしゃるように手直しが大変ですね。

他のソフトは読取革命臍のカスタマイズの機能がないので縦書きのアルファベット図表混在は使い物になりませんでした

横書きの英語はアクロバットが一番いいです
Google のは認識はいいのですがレイアウトがぐちゃぐちゃになるのと元の PDF の上に非透明テキストを重ねる機能がないのでつかえないです

519 :名無しさん@お腹いっぱい。:2022/05/24(火) 00:11:00 ID:nP066gSa0.net
>>518
そんなことしてられんわ
メンくさい

520 :名無しさん@お腹いっぱい。:2022/05/24(火) 00:54:53 ID:cADfl0Dk0.net
>>519
だから君には無理なの

521 :名無しさん@お腹いっぱい。:2022/05/24(火) 10:52:15 ID:nP066gSa0.net
>>520
そんなんだから読取革命は顧客が離れてるのに
バカだねぇ、あんたもw

522 :名無しさん@お腹いっぱい。:2022/05/24(火) 13:35:33 ID:cADfl0Dk0.net
>>521
顧客が離れてるのは事実だと思うが、顧客離れとソフトの可能な事は同じじゃない。

縦書き、アルファベット混在、図表混在という条件で認識率の高い別のソフトがあげることができるか?
できたらあなたの意見を認めよう

523 :名無しさん@お腹いっぱい。:2022/05/24(火) 13:59:59 ID:KekWsjEY0.net
横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
もうスクショでいいわって思った

524 :名無しさん@お腹いっぱい。:2022/05/24(火) 14:41:38.54 ID:cADfl0Dk0.net
>>523

> 横だけど、OCRソフトってのはできる限り修正の必要がないものでないと実用的ではない
→それは 使用目的によるんじゃない。めんどくさいならスクショ でもいいや、という目的ならあなたの言う通りだろ。
自分の場合は絶対に文字起こし が必要なんで読取革命程度の手間だったらOCR を使う。と言うか それ以外に選択肢がない。

> 俺は読取革命を使ってみたことがあるが、図表混在の文字の修正がハンパなく手間だった
→ちゃんと複数の領域を設定して、各領域毎に最適な属性設定やった?

ぶっちゃけた話、読取革命はマニュアルが使いにくいんで俺も6~7年前に紙のカード明細のExcel への取り込みようにひと月ほど集中的に使ってからはずっと使わんかった。

昨年から専門書の自炊始めたんだけどAcrobat の OCR で十分だと思ってた。
だけど透明のテキスト 文字をコピペして使わなきゃいけない事情になって誤認識の多さに閉口した。それで色々調べて読取革命の性能 引き出す使い方を紹介しているネットの記事を見てこういう風に使うのかというのがわかった。

525 :名無しさん@お腹いっぱい。:2022/05/24(火) 15:35:09.82 ID:aJH4exft0.net
目指すところが違うんだろうな

完璧なテキスト化を目指すためには多少の手間は惜しまないか
少しでも手間をかけるくらいなら完璧とまではいかなくてもいいか

526 :名無しさん@お腹いっぱい。:2022/05/24(火) 16:03:36.35 ID:cADfl0Dk0.net
透明のテキスト 文字をコピペして使うことが必須なんで、認識用設定時に手間を惜しんでコピーした後に修正に手間をかけるか、それとも認識用設定に手間をかけてコピペした後は修正なしにできるかの選択。認識用の設定の手間というのもそんなに大したことない。

527 :名無しさん@お腹いっぱい。:2022/05/24(火) 16:50:45.74 ID:5b9IkS690.net
>多少の手間は惜しまないか

多少なんてもんじゃないのがミソなw
まぁ暇人には使えるソフトってことでしょ

528 :名無しさん@お腹いっぱい。:2022/05/24(火) 17:56:05.13 ID:cADfl0Dk0.net
>>527
暇?
暇ではないぞ、仕事で使ってるから

君は漫画小僧だな

529 :名無しさん@お腹いっぱい。:2022/05/24(火) 18:35:40.13 ID:aJH4exft0.net
論理的合理的思考ができるかどうかだな

530 :名無しさん@お腹いっぱい。:2022/05/24(火) 19:47:58.91 ID:5b9IkS690.net
それができない奴が使うんだろうな

531 :名無しさん@お腹いっぱい。:2022/05/24(火) 20:10:20.97 ID:cADfl0Dk0.net
>>530
プッ、君が出来てないよ

532 :名無しさん@お腹いっぱい。:2022/05/24(火) 22:01:22 ID:uwTIOOOb0.net
ID:cADfl0Dk0
こいつ、朝から晩まで張り付いてるみたいだけど単なるキチガイか?
プっとか言ってるけど、オツムやられてるっぽいw

533 :名無しさん@お腹いっぱい。:2022/05/24(火) 23:54:55 ID:cADfl0Dk0.net
>>532
朝じゃないよ,昼からだよ(笑)

534 :名無しさん@お腹いっぱい。:2022/05/25(水) 07:20:56 ID:W3iKtSQ90.net
どっちでもいいけど、頭おかしい自覚はしておいた方が 笑

535 :名無しさん@お腹いっぱい。:2022/05/25(水) 10:29:01 ID:wWoQec/h0.net
ID:5b9IkS690、uwTIOOOb0、W3iKtSQ90
こいつらは悪口しか言えないやつだな。

社会問題になってる、ネットで攻撃衝動を発散するしかない御可哀想な奴らだ(笑)

536 :名無しさん@お腹いっぱい。:2022/05/25(水) 11:57:42 ID:i/AJgx3d0.net
どっちもバレバレだよ

537 :名無しさん@お腹いっぱい。:2022/05/25(水) 13:13:20 ID:f5GblV+t0.net
>>535
性格悪そう

538 :名無しさん@お腹いっぱい。:2022/05/25(水) 13:14:26 ID:3nRqErRs0.net
>>512
で、
>手動でPDFに出力する透明テキストのフォントサイズを全ページ一括で変更したいのですが,そのような設定は可能でしょうか.
は解決したの??

539 :名無しさん@お腹いっぱい。:2022/05/25(水) 13:17:26 ID:wWoQec/h0.net
>>538
してません(:_;)
悪口書き込むやつと、それへのレスだけです。
トホホですね(´;ω;`)

540 :名無しさん@お腹いっぱい。:2022/05/29(日) 09:17:29 ID:dezXzM1d0.net
これが革命って奴やな。

541 :名無しさん@お腹いっぱい。:2022/05/29(日) 13:00:28 ID:qWf9pQE10.net
革命詐欺w

542 :名無しさん@お腹いっぱい。:2022/06/01(水) 12:57:24 ID:ktMvq3Ub0.net
511です。
バージョン16にアップデートするとフォントサイズが小さすぎる問題は解決していました。表示上のサイズと透明テキストのサイズはほぼ一致してます。

543 :名無しさん@お腹いっぱい。:2022/06/18(土) 20:26:54 ID:2jCbEwjL0.net
>>498
そりゃ当たり前
PCなんて使えない高齢者がいっぱいいるんだから
そのためのOCRだよ

544 :名無しさん@お腹いっぱい。:2022/06/19(日) 06:08:07 ID:nQI82VN80.net
手書きを補正してあってんのかあってないのかわかんないデータが完成するより普通に入力した方が早いと思う

545 :名無しさん@お腹いっぱい。:2022/06/19(日) 08:00:38 ID:SMFRVfVR0.net
普通に入力してもtypoはあるし
校正抜けは自分で入力したもののほうが起こりやすいという罠もある

546 :名無しさん@お腹いっぱい。:2022/06/22(水) 20:32:48 ID:aWOqOAmW0.net
仕事で手書きの帳票の入力をしているのでOCRを使って自動化したく、いくつか無理のものを試してみたのですが上手くいきませんでした
入力内容は型番と数字だけなので、型番の登録とかができれば精度も上がると考えているのですが、いいOCRツールがあれば教えてください

547 :名無しさん@お腹いっぱい。:2022/06/22(水) 22:38:51 ID:cbR9tsx10.net
ないんだな、これが(画像略)
ほんとにみんなそれを欲しがってると思うよ

548 :名無しさん@お腹いっぱい。:2022/06/23(木) 07:46:57 ID:F2BXam9K0.net
>>546
>>480 のリンク先はみた?

549 :名無しさん@お腹いっぱい。:2022/06/25(土) 00:23:31 ID:M5gx6zVR0.net
>>546
ソリューションとして何百万円で売ってるようなものだからなあ。

550 :名無しさん@お腹いっぱい。:2022/06/25(土) 03:38:17 ID:0PVpsHFx0.net
>>546
手書き文字は、かなり難易度が高い。
字体に個人差が大きいのと、文字ごとの区切りが取りづらい
型番がアルファベットなら、学習データを用意すれば可能性はあるけど、
本質的に1とかIとかlを手書き文字から読み取るのは無理ゲーなので
近い登録型番を引っぱってくるとかの方がよさそう。

551 :名無しさん@お腹いっぱい。:2022/06/25(土) 11:36:36 ID:XawCiBfQ0.net
達筆こと汚い殴り書きすら判読できるOCRキボンヌ

552 :名無しさん@お腹いっぱい。:2022/06/26(日) 00:59:41 ID:u0oZCNU/0.net
20年くらい前に
東芝が郵便局に納入してる手書き宛名OCRが有能という話聞いたのを思い出したので
ぐぐてみたらこんなのでてきた
www.it-innovation.c
o.jp/wordpress/wp-content/uploads/2021/08/Session6_AAcon2_2021
0827_tdslj.pdf
手書き「IOデータ」がエロデータに変換される恐怖・・・

553 :名無しさん@お腹いっぱい。:2022/06/26(日) 13:06:43 ID:MrxyXubs0.net
郵便局でバイトしてたときの、宛名OCRの精度の感覚は
フォントだと100%、手書きで95%くらい当たってた
手書きだと3-10とかを漢数字で縦書きされると辛い様子(三が12と見分け付かない)
あと、達筆は無理なので弾かれてたな

554 :名無しさん@お腹いっぱい。:2022/08/06(土) 23:14:15.46 ID:KxBYYb3L0.net
>>480 の後半部分がだいぶ進んだ
https://i.imgur.com/W5JwUh8.png

もうちょい1とかが認識できるといいんだけど

555 :名無しさん@お腹いっぱい。:2022/11/11(金) 16:50:50.83 ID:wJwec+Hh0.net
ユーザーローカルの無償のOCRはどうですか?

556 :名無しさん@お腹いっぱい。:2022/11/11(金) 18:04:01.27 ID:rp6GMXxX0.net
手書き文字をgoogle driveにアップしてドキュメントに変換するとOCRされる
わりと認識されるようだ

557 :名無しさん@お腹いっぱい。:2022/11/16(水) 01:13:33.38 ID:S5so+53A0.net
凸版印刷、明治期から昭和初期の手書き文字を
解読するAI-OCRを日本で初めて開発
https://www.toppan.co.jp/news/2022/11/newsrelease221111.html
https://www.toppan.co.jp/news/2022/11/sto3as000000876e-img/TOPPAN_221111_img1.jpg

558 :名無しさん@お腹いっぱい。:2022/11/26(土) 08:06:32.03 ID:D8kis3AF0.net
>>557
どうせソリューションで1000万円以上

559 :名無しさん@お腹いっぱい。:2022/12/22(木) 04:52:11.23 ID:D7BYsnDs0.net
OCRかけたPDFで、Googleドライブで閲覧するときは、文字選択も検索もできるんだけど、ドライブから他のiPadアプリへインポートすると、文字選択も検索もできなくなります。

対応策知ってる方いたら教えてもらえないでしょうか。

560 :名無しさん@お腹いっぱい。:2022/12/25(日) 14:05:23.99 ID:UNDWLpRR0.net
バージョンが違うとかじゃね?

561 :名無しさん@お腹いっぱい。:2023/01/05(木) 23:31:26.85 ID:/v8QR8d30.net
>>509
https://twitter.com/NDLJP/status/1610557944952946688
NDLOCRについては国立国会図書館月報2022年11月号の特集記事でも紹介しています。
(deleted an unsolicited ad)

562 :名無しさん@お腹いっぱい。:2023/01/08(日) 20:04:39.43 ID:5uNVO8JT0.net
スマホのグーグルレンズだとかなり正確なのに
PCの画像取り込みでグーグルドキュメントだとまったく認識できないのはなぜかわかりますか?

563 :名無しさん@お腹いっぱい。:2023/01/09(月) 20:16:16.65 ID:2gSKg0450.net
>>561
>>509
自炊技術総合スレでこれに関していろんな人が議論しているけど、結局外部の人間が使いこなすのは至難であると言う状況
日本の it 開発に関する公金の使い方は最悪

564 :名無しさん@お腹いっぱい。:2023/01/09(月) 20:31:05.78 ID:+xJlSjJo0.net
余計なGUI作っで金と取るより、遥かにいいよ。
Python あれば コマンドラインで動くんでしょ。
十分だよ。

565 :名無しさん@お腹いっぱい。:2023/01/09(月) 20:47:53.13 ID:2gSKg0450.net
>>564
Python でも動かし方がわからないみたいよ

動かし方であーだこーだ時間を使うよりは有料でも使いやすいインターフェースがあった方がいい
こういうのは所詮道具だから

566 :名無しさん@お腹いっぱい。:2023/01/11(水) 20:40:11.59 ID:RZPLrb1r0.net
規制された?

567 :名無しさん@お腹いっぱい。:2023/01/15(日) 15:43:45.29 ID:d/Jt3FpO0.net
>>562
多分AIチップの有無

568 :名無しさん@お腹いっぱい。:2023/01/16(月) 10:13:41.53 ID:ARaKc39v0.net
制限された?

569 :名無しさん@お腹いっぱい。:2023/01/17(火) 08:02:43.09 ID:JLVUHZYJ0.net
制限きつくなった

570 :名無しさん@お腹いっぱい。:2023/01/19(木) 20:26:45.79 ID:WqtzRSbq0.net
TEST

571 :名無しさん@お腹いっぱい。:2023/01/21(土) 01:51:12.94 ID:OCOnSa520.net
>>562
スマホのカメラのレンズは顔認識にはじまり、そのレンズ通して画像(映像)からフォントやらワンタップで楽々と認識+特定できるようになるかもしれない。
既にある気もするけど。googleとかやりそうだし。
AIと言うと、KRITA Paintって無料(フリーウェア)のペイントアプリで超簡単お手軽に消したい任意の人や車をこの画像みたいに消せるのがなんだかすごい。
コラージュには欠かせないツールかもしれない。
https://i.imgur.com/HPssPV5.png
GIGAZINEで知った。

572 :名無しさん@お腹いっぱい。:2023/01/23(月) 09:06:58.16 ID:IEgo6gO30.net
test

573 :名無しさん@お腹いっぱい。:2023/01/23(月) 18:07:45.55 ID:uTX11U8P0.net
非破壊型ScanSnapに添付のソフトでPDFに透明テキストを付けていたが性能が悪いので
読取革命の体験版を入手して試してみた
テキストは大体正しく読み取れているが不満点2つ
・ページの枠等でゴミ文字が大量に発生
・元のPDFの画像を再エンコしてしまっている

574 :名無しさん@お腹いっぱい。:2023/01/23(月) 20:37:55.46 ID:uDMkpynR0.net
>>573


> ・ページの枠等でゴミ文字が大量に発生
たぶんページ番号とか上の方にある見出しとかを言ってると思うんだけど本文だけを領域に指定したテンプレートを使って、それを簡単認識という一種のマクロで読み込ませればいい

> ・元のPDFの画像を再エンコしてしまっている
これは何とかしてほしいよね

575 :名無しさん@お腹いっぱい。:2023/01/24(火) 14:53:20.86 ID:pgLtZU8s0.net
レスありがとうございます。「簡単認識」というのは何ですか?
読取革命15の体験版を使っています

576 :名無しさん@お腹いっぱい。:2023/01/24(火) 14:55:11.57 ID:pgLtZU8s0.net
読取革命15の体験版を使ってみて不具合と思うこと

1. 複数のjpgをいれたフォルダーを用意する
2. 「画像ファイルを開く」でそのフォルダーを指定して「画像ファイルを追加して読み込む」に
チェックを付けた上でCtrl+Aで全ファイルを選択して開く
3. 複数ページとして読み込まれる
4. ところが「レイアウト」も「認識」も「保存」も最後のページしか処理できない

現行バージョン16ではどうですか?

577 :名無しさん@お腹いっぱい。:2023/01/24(火) 20:12:23.68 ID:JDh+ktVS0.net
ちょっと何言ってるかわからない

578 :名無しさん@お腹いっぱい。:2023/01/24(火) 20:24:39.65 ID:pgLtZU8s0.net
では逆に質問させてもらえますか
1ページが1つのjpgで、ファイル名に連番ついているものが多数ある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか

579 :名無しさん@お腹いっぱい。:2023/01/24(火) 21:23:07.42 ID:ea8a85HJ0.net
15で、すべてのページを選択して、認識など順番に処理をしてくれている
左に並んでいる取り込まれた画像は選択された状態になっているのか
なっているなら、体験版の制限かもしれない

580 :名無しさん@お腹いっぱい。:2023/01/24(火) 21:42:05.66 ID:cUHZCYDc0.net
>>578
マニュアル読んでないならとりあえず『かんたんモード』使っとけ
メニューバー>表示>かんたんモードへ>入力>認識>保存

>>575
何処か分からないならF9キー押せ
そこに前もって処理手順を登録しとけば実行ボタン押すだけで全部やってくれる

581 :名無しさん@お腹いっぱい。:2023/01/24(火) 22:13:55.01 ID:pgLtZU8s0.net
>>579
取り込んだ後左に並んでいる画像は全部選択された状態になっています
Ctrl-Aを使って全部選択し直してもやはり最後のページしか処理できない
制限しているのか体験版だけの不具合かわからないけど動作確認はあきらめた

582 :名無しさん@お腹いっぱい。:2023/01/24(火) 22:26:30.24 ID:N6mW9c+00.net
>>575
体験版は使ってないんで分からないけど16正規版ならば、メニューで、認識→簡単認識、で設定画面を呼び出せる。
領域をカスタム設定して保存し、それをテンプレートとして簡単認識内に登録すれば後は自動で全てのページをそのテンプレートでやってくれる。
領域ごとの設定ではできるだけ自動認識を使わず、縦書きとか横書きとか半角とか全角とか細かく指定する方が認識が良い

一つの領域内に横書きと縦書きが混在した場合にはテンプレート処理できないので、1回簡単に意識を実行させた後、少数の例外ページだけ手作業でレイアウトを修正する

575の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。読み込み後コントロール A で全選択すれば全てのページの処理をしてくれる

簡単モードじゃなくて標準モードを使うこと

こんなとこですかね

583 :名無しさん@お腹いっぱい。:2023/01/24(火) 22:28:05.47 ID:N6mW9c+00.net
続き

Amazon のレビューでかんたん認識についての説明がありましたので転載しときますね


五点目は、「かんたん認識」機能です。
文庫本や単行本で、レイアウトが単純なものは、この機能を使うことで、かなりの短時間で文字認識を完了させることができます。
この機能は、ひとつの認識レイアウトをテンプレートとして保存して、「かんたん認識」機能で全ページに適用するというものです。
例えば、通常、文庫本の場合、見開きの上下端の部分に、ページ数や書籍名・章題などの文字情報が含まれています。この部分に関しては、基本的に文字認識する必要がない無駄な情報なのですが、自動で文字認識させると、この部分まで認識してしまいます。
「かんたん認識」機能を使えば、あらかじめ、上下の端の部分を認識しないレイアウトをテンプレートで設定しておいて、そのレイアウトに従って一度、全ページを文字認識してくれます。
もちろん、挿絵や図表があるページに関しては、認識がグチャグチャニなるので、その後で修正が必要になりますが、いちいち、手作業で無駄な認識部分を消す必要がありません。
また、レイアウト認識にテンプレートを使うことによって、レイアウト解析の時間も不要になりますから、文字認識の処理が速くなります。
テンプレートは、書籍ごとに作った方が、精度が高いので、その点はひと手間はかかりますが、それ以上にメリットが大きいと思います。
上手に使えば、精度の高い認識結果を得るのに、300Pの本で30分くらいですみます。(そのうち手作業は10分程度)≫

584 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:02:35.33 ID:pgLtZU8s0.net
>>582

>576の最後のページしか認識しない問題は画像ファイルを読み込ませた後左側のサムネイルページで最後のページしか選択していないことが原因だと思う。

「標準モード」の「ファイル」の「画像ファイルを開く」を使いました
580に書いたように左側の画像サムネールは全部選択状態になっています
体験版の制限事項にはそんなことは書かれていないので体験版の不具合かな

585 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:11:41.54 ID:pgLtZU8s0.net
体験版も無いのでバージョン16のメニュー構成がどうなっているのかはわかりませんが、
バージョン15の「標準モード」の「ファイル」の「画像ファイルを開く」と同等の方法で複数ファイルを
一括処理をできるようになっているのでしょうか

586 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:14:09.31 ID:JDh+ktVS0.net
入門ウィザードの話なのか、かんたん認識の話なのか、画像ファイルを開くからの話しなのか、それら以外なのか

587 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:17:36.44 ID:JDh+ktVS0.net
画像ファイルを開くからのだったら手順を踏まないと一括の認識変換はできないぞ

588 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:23:00.30 ID:JDh+ktVS0.net
まずは入門ウィザードでやってみろ

589 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:26:48.79 ID:N6mW9c+00.net
>>585
それとは違う


アマゾンのレビューはバージョン15のレビューなので、15でも「かんたん認識」はあると思う。レビューで簡単認識の機能は想像できるでしょう

もう少し詳しく知りたかったら15のマニュアルは公開されてると思うんでやり方探してみて

16の場合でも体験版はある筈。私は実際それで試してから購入したから
体験版というより使える期間に制限があるだけで機能制限はなかったと思う

590 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:35:17.61 ID:pgLtZU8s0.net
どんな方法でもいいですけどバージョン16において、
1ページが1つのjpgで、ファイル名に連番が付いているような多数ファイル(ページ)がある場合
それらをまとめて読み込んでまとめてOCR処理することはできますか
というのが質問です

少なくともバージョン15の体験版ではできない

591 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:36:01.14 ID:pgLtZU8s0.net
>>589
16の体験版は入手できないでいる
https://faq.sourcenext.com/app/answers/detail/a_id/12598/

15の体験版はインターネットアーカイブの古いページから何とか見つけ出したもの

592 :名無しさん@お腹いっぱい。:2023/01/24(火) 23:50:01.11 ID:JDh+ktVS0.net
入門ウィザードだ

593 :名無しさん@お腹いっぱい。:2023/01/25(水) 00:03:44.68 ID:DyKQ5Whb0.net
入門ウィザードは15の体験版で既にやっているがやはり最後のページしか処理されない

594 :名無しさん@お腹いっぱい。:2023/01/25(水) 00:12:50.70 ID:GkG6ZGoO0.net
>>590
答えはイエスだよ

バージョン16の体験版はなかった。試用期間というのは私の記憶違いで、返品が可能という条件だった。

私の場合はバージョン14を使っていて不満足なところがあったのでサポートに問い合わせたところバージョン14のサポートは既に終わっており回答できないが、バージョン16を勧められバージョン16でも満足する機能がなければ返品に応じるということだった。バージョン16で満足する機能があったので返品はしなかった。

バージョン16のマニュアルはここにあるよ
https://ftp.sourcenext.co.jp/k7_patch/sn-update/manual/SAESJ/manual.pdf

589ができればいいなら購入したほうが早いんじゃない?かんたん認識であなたの不満点は解決されると思うから

595 :名無しさん@お腹いっぱい。:2023/01/25(水) 00:14:58.98 ID:qoKngNmd0.net
そうか
俺の体験版15では全ページ一括OCR出来てるから何かを間違えてるんだろうな

596 :名無しさん@お腹いっぱい。:2023/01/25(水) 00:45:52.30 ID:qoKngNmd0.net
そう言えば設定によっては
レイアウトや認識結果を削除とかなんかしたあと
もう一度読み取ろうとしても読み取ない不具合か仕様あったようななかったような

597 :名無しさん@お腹いっぱい。:2023/01/25(水) 00:46:29.68 ID:qoKngNmd0.net
だいぶ前のあやふやな記憶

598 :名無しさん@お腹いっぱい。:2023/01/25(水) 02:54:28.10 ID:GkG6ZGoO0.net
>>590
かんたん認識はマニュアルの121ページ

599 :名無しさん@お腹いっぱい。:2023/01/25(水) 08:45:03.18 ID:DyKQ5Whb0.net
>>594
ありがとう
16のマニュアルを見たが62ページ(PDFの63/177)に「複数ファイルを指定する場合」と
書かれているが15のマニュアルにも同じことが書かれている
本来であればその方法でできるはず
15と16は比較表を見るとスペックにほとんど変更がないから15の体験版でできなければ16でも
怪しいと思い質問したした次第です

600 :名無しさん@お腹いっぱい。:2023/01/25(水) 09:06:59.69 ID:GkG6ZGoO0.net
できなければ製品として成立しないんだからできる。体験版の機能制限か、アーカイブがこわれているかのどちらかでしょう。

601 :名無しさん@お腹いっぱい。:2023/01/25(水) 11:24:59.54 ID:DyKQ5Whb0.net
複数のjpgを無劣化で1PDFに作れるから体験版でもOCRに掛けることはできる
しかしJPGを1つ読み込んだ時とそのJPGから作ったPDFを読み込んだ時とで比較すると
透明テキスト付PDFの品質が違っていた(どちらも再エンコであることは同じだったが)

そこで16を注文をした(435のように体験版を使い続けることもできるんだが)

まともな体験版を出せよ

602 :名無しさん@お腹いっぱい。:2023/01/25(水) 11:36:38.79 ID:6QPp+WbY0.net
パナソニックは15で開発終了してるんだな
ソースネクストにまともな開発能力ないしまあ残当

603 :名無しさん@お腹いっぱい。:2023/01/25(水) 12:36:18.41 ID:GkG6ZGoO0.net
なんだかんだ言っても日本語縦書きをまともに処理できるOCR ソフトは読取革命しかないように思うんだけど、他にある?あったら教えて

Googleやndlは透明テキスト処理ができないんで対象外ね

604 :名無しさん@お腹いっぱい。:2023/01/25(水) 15:18:16.75 ID:DyKQ5Whb0.net
>>603
スキャナーに付いて来たPower PDF Standardを今まで使ってきたが縦書きでも取れるし
一応だが実用にはなっていた
「サンプルzip」というファイルをアップしてみた。3つファイルが入っている
https://20.gigafile.nu/0505-d1645eba1bec6bdf5e13dcdefdcd7d45a

・某所のOCRテスト用サンプル。元はPNGだが「画像梱包」で無劣化PDF化したもの
・読取革命15体験版で透明文字付PDFに保存したもの
・Power PDF Standardで検索可能化

読取革命は画像を再エンコするのでファイルサイズがかなり大きくなってしまっている
Power PDF StandardはPDF内の画像ファイルを全く変えないのがいいところ

605 :名無しさん@お腹いっぱい。:2023/01/25(水) 15:46:40.80 ID:GkG6ZGoO0.net
>>604
ファイルサイズが大きくなったらアクロバットのファイルの最適化またはファイルの縮小をかけると劇的にサイズが小さくなるよ。

画質はほとんど劣化しないけれどよく見ると文字のエッジが微妙に変化しているので自分は2種類の方法でファイルサイズを小さくした後実際に目で見てファイルサイズの小ささと画質の良さのバランスが良い方を残している。

606 :名無しさん@お腹いっぱい。:2023/01/25(水) 16:08:45.17 ID:DyKQ5Whb0.net
PDFが対応している画像についてはそれを勝手に書き換えないのがベスト
技術的に難しいことではないはず

しかしパナソニックからソースネクストに変わってしまったら今後あるかもしれないバージョンアップでも
改善されることは絶望的だね

607 :名無しさん@お腹いっぱい。:2023/01/25(水) 18:10:59.18 ID:nVR442uK0.net
ずっとe.typistの高圧縮PDF(MRC圧縮)にしてるわ
iPadで読むには十分。つか文字のエッジはガタつき気味だけど、クッキリとするから読みやすい。
AcrobatのClearScanにしてたときもあったけど、やたらと読み込みが遅いのが出来たことがあって止めた

608 :名無しさん@お腹いっぱい。:2023/01/26(木) 12:36:37.20 ID:COtm4ckg0.net
余所でやってください。

609 :名無しさん@お腹いっぱい。:2023/01/26(木) 17:20:39.24 ID:nsE1OjFq0.net
久しぶりにeTypistとFineReaderを使ったら、あまりのポンコツぶりに驚いた。
PDFなんてAcrobat DCの方が認識率いいぞ。
みんなが知らないと思われるxdw文書もDocuworksの方が認識率が良くて驚いた。

610 :名無しさん@お腹いっぱい。:2023/01/26(木) 18:29:58.68 ID:bNrtAqo/0.net
テスト

611 :名無しさん@お腹いっぱい。:2023/01/27(金) 16:14:23.09 ID:2XDvwiTP0.net
読取革命の「PDFを解析して入力」というものは何に使うためにあるんだろうか
透明文字付PDFの誤認識文字を後から直すためかとも思ったが
直して保存すると画像文字と透明文字との位置が違ってしまうし

612 :名無しさん@お腹いっぱい。:2023/01/27(金) 17:17:29.64 ID:CmzK49I30.net
PDFを入力してもunicode文字が全部下駄文字になってしまうんだよな
20年間unicode化せずにやって来て
今更対応させる体力も無くソースネクストに丸投げして終了

613 :名無しさん@お腹いっぱい。:2023/01/30(月) 16:10:52.67 ID:HCAjqo0j0.net
読取革命においてPDFから無劣化でJPG等を取り出せる場合にはPDFを開くのではなく
取り出した画像ファイルを(複数)開く方がよいようだ

603の例で言うとサンプルの元のPNGは462x412ピクセル
それを無劣化PDFにして読み込むと1925x1716ピクセルのJPGに変換されてしまう(300dpi
の入力設定の時)
だからOCR後の透明文字付PDFのサイズも大きくなってしまうし2回エンコードされるから
画質も劣化する
どういう計算根拠でそのサイズに拡大しているのかは不明
PDF以外の画像ファイルを開いた時にはサイズが変更されることはない

614 :名無しさん@お腹いっぱい。:2023/01/31(火) 06:21:19.62 ID:WKam88fi0.net
>>613
単にPDFがweb閲覧用に減量化済みの低解像度なものだからじゃないの?
そのサンプルPDF内のPNGは72dpiだから300dpiに変換するとそのサイズになる
300/72*462 = 1925
300/72*412 = 1716.666…

615 :名無しさん@お腹いっぱい。:2023/01/31(火) 17:27:31.67 ID:WvcTDH8i0.net
計算はその通りですね

PNG形式ファイル自体にはdpiは指定できずそれを「画像梱包」のデフォルトでPDF化したら
72dpiのPDFが作られたようでした
試しに「画像梱包」で300dpiを指定してPDF化したらそれを開いて読取革命で作成した透明文字付
PDF中にPNGとほぼ同じピクセル数のJPGが作られていた(ファイルサイズも小さい)

616 :名無しさん@お腹いっぱい。:2023/02/01(水) 10:23:43.08 ID:D6WMl7M10.net
読取革命の不便な点・・・・

dpiが設定されていないファイルを複数まとめて開いた時にページ一覧のCtrl+Aで全部のファイルを選択
してもまとめて「解像度の設定」をできず1ページずつ設定しなければならない

事前に何かツールを使って対象ファイルにまとめてdpiを設定しておけばよいのだけれど

617 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:37.87 ID:NpVHOxya0.net
>>163
オタクは気持ち悪いなら規制してほしいの?寂しいの?

618 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:40.86 ID:o27UQapf0.net
>>415
過度に攻撃的な発言では通らない

619 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:41.50 ID:DGJIob8I0.net
>>159
まだ2回なのに心臓の調子悪いんだがなんで品評会がなんJを自民倒すのが目的の連中がフェミ的な装いでっていう住み分け

620 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:42.46 ID:o27UQapf0.net
>>59
配信者程度なら単なる内輪ノリなんじゃないのノリなんだろ

621 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:42.95 ID:3udZnQSa0.net
>>137
ここの奴らは全方位に喧嘩売るスタイルなん

622 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:43.19 ID:QFgq0UQN0.net
>>186
俺はダッピも叩くし言葉狩りフェミも叩くそして表現の自由を唱える人間はかんたんに政府批判の自由を主張するのはナンセンスだわ

623 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:43.97 ID:pVtVzfob0.net
>>450
明確なスポンサーみたいなのはしゃーないカスが口出して話になる相手じゃない

624 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:45.72 ID:gvbk18Bb0.net
>>21
なんか居着いてるよな???

625 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:49.58 ID:OgAfQ5SI0.net
>>231
ちょっと言いすぎたゴメン~くらいにしか夢見れんクソ雑魚弱者男性煽って女叩きさせてくれ

626 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:52.94 ID:6kKyI80L0.net
>>373
なるたけ正論を言うのはそういう層だよな

627 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:54.44 ID:HQ2yQocM0.net
>>379
それ相手がイケメンじゃないと面白くないっていうセンスがというか育ち悪そう

628 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:56.23 ID:vDh1NJpi0.net
>>304
これが当たり前なんだよな今回こそ自民党負けると本気で思っていることの言ってるだけでおもろないな

629 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:56.61 ID:gAmWCN6a0.net
>>88
重症化はせずワクチン接種者のほうが数字は多くなるかな一個目があってるや

630 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:46:59.51 ID:6TlAKEg00.net
>>298
なんかあったんだよな

631 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:00.33 ID:6TlAKEg00.net
>>399
その前提条件を共有してねーな

632 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:03.73 ID:kriD7p+W0.net
>>287
当時30代〜40代ここ主力層40代〜60代ってことは

633 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:04.52 ID:v3rSe3Av0.net
>>79
そいつは言葉をぼやかすことで自分を守ってるだけのインチキだしなんで知恵袋はBBAばっかだと思ってんの?

634 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:06.45 ID:JSwILUjZ0.net
>>196
明らかに女性蔑視的な意識を持っているという点が

635 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:14.31 ID:EiWeQjiH0.net
>>331
前提としてイジリだからいいなどとは言ってんだ?

636 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:16.37 ID:N9eOp+yy0.net
>>24
なんだわたしじゃないの?🤔

637 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:16.41 ID:dxED2bM00.net
>>238
・LGBTは声だけデカい詐欺師紛いのやつが増えすぎたんだよ

638 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:21.36 ID:vD1IRxbb0.net
>>168
どの分野でも素人に毛が生えた程度も知らないなこの男

639 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:23.29 ID:10zhXYvF0.net
>>199
まぁお互い様だなネット社会に引きこもって日本時間に合わせて生活しているジェームスですよろしく

640 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:24.44 ID:JlDpbEP+0.net
>>294
ワイも昔突き落とされたわいやそんなのどうでもいいわけないでしょ

641 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:26.85 ID:ho4QJzAV0.net
>>61
加藤純一とかコレコレ好きですっていってるようなフェミって大概ツイフェミのことだ

642 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:42.44 ID:bzKu1I5H0.net
>>6
天動説が採用されたから大丈夫だと思ったんだよ

643 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:42.59 ID:JBvqyuSy0.net
>>228
なんでここを政治板だと思ってないとここまで言えんぞ

644 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:44.24 ID:m3VsX+2R0.net
>>140
俺が名前聞いた事がない

645 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:48.72 ID:p6zCo2Ok0.net
>>154
少しくらい仲良くするのはナンセンスなように虚カスでは?

646 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:53.06 ID:Ib9D+sCE0.net
>>241
鏡を見ろと言いたい所だがこいつは認めんうえにしつこく蒸し返すからゴミクズなんやな

647 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:47:59.64 ID:4E6fDqc/0.net
>>445
どれがいけなかったんじゃ?

648 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:00.44 ID:4E6fDqc/0.net
>>92
今の30〜50代ってことかな

649 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:02.55 ID:J5ZTk60q0.net
>>399
キャンプ場じゃなくてハゲだったらセーフやったな

650 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:04.23 ID:EOKCtPbw0.net
>>431
ソシャゲ界隈で使われてんだよなあ

651 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:07.36 ID:SGCUtWas0.net
>>114
駄目だ虚カスは何屋さんなんですね

652 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:09.42 ID:I/ZsHeKR0.net
>>14
なめやがってというAAを添えていたのか?

653 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:21.61 ID:gQBMZXO00.net
>>377
肌の色が一番わかりやすい例ではあるけど今はよりナイーブ

654 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:23.29 ID:jHhBizY20.net
>>293
岡村がモテないと思ってたのが原因だな

655 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:32.11 ID:Br8Pge1y0.net
>>435
無職でもホームレスでも人権はあるから大丈夫だよ

656 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:35.42 ID:7ufN3WsU0.net
>>263
そんなことを言っても確実に大問題になるw

657 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:48:47.81 ID:gUSwtnEL0.net
>>166
これが正しさの議論から逃げようとしてる

658 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:12.69 ID:KtHgkpSV0.net
>>113
その延長線上で使ったんだろうが配信で言ってたから核廃棄に同意したけどそんなタマじゃないか?今や唯の犯罪者やもんな

659 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:20.68 ID:lcfdBlwS0.net
>>190
世論調査でも立憲共産党の失望離れだろうなぜひ集めてバトルさせてみても

660 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:21.38 ID:9F3rtUd+0.net
>>41
腕前的には規制するに決まってんだろうけど絶対に流されるなよ

661 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:31.76 ID:QHe/8kPD0.net
>>200
ちょっとフェミっぽいこと言ってきたんだ

662 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:32.20 ID:YzA8t+PG0.net
>>233
そのために経済を犠牲にするのが歴史から見ても普通は自衛隊日報偽造やGDP改竄はどうでもいいですわ

663 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:41.34 ID:PYhaGyXX0.net
>>149
APEXは喋りだけじゃ固定つかんが実力があれば違ったのかもしれないじゃない

664 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:49.06 ID:zJIjfKys0.net
>>370
増悪をエネルギーにしてた芸人いたなー

665 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:49.46 ID:KUsdIpu80.net
>>172
めっちゃオコじゃんだいたい小選挙区なんだな

666 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:49:50.48 ID:38GYP0tU0.net
>>132
今までの発言お咎め無しなのがやたらと持て囃したんだから当たり前

667 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:10.52 ID:pd1YBStZ0.net
>>253
自民党への求心力を高める為に敵を設定してそれを日本社会が受け入れたからとか

668 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:14.35 ID:0hJTLZXO0.net
>>263
腐女子がカッコいいとでも思っていたとか

669 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:15.57 ID:6XrO12ZK0.net
>>435
本人に差別的な意味ではないよ

670 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:24.31 ID:1K7oAtvR0.net
>>311
本当にシャレにならんわあれ

671 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:38.47 ID:20ORKs/x0.net
>>429
何もしててあーそう言えばええやんなんでソロでいくんや?

672 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:47.72 ID:OfWb1xj50.net
>>249
そうしないと明言してるんか?

673 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:48.00 ID:aqverq2H0.net
>>235
昔みたいに趣味の延長線上ならまだ許されてたんだろうな

674 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:52.68 ID:YE2cKFib0.net
>>177
叩いてるのはどうかと思うとダサすぎるな

675 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:50:54.04 ID:FE21hNAY0.net
>>95
ワクチンのおかげつってるのに契約続けてたのか?

676 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:11.53 ID:SSPmLApD0.net
>>74
動画見たらおばさんがず~っと発狂して長文多レス女叩きしてるから遅いとしか

677 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:12.71 ID:kIeBSugG0.net
>>411
ほんとジャップってのはその手の書き方が

678 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:20.67 ID:5E8q91Yd0.net
>>431
民主党も原発の時の方がいいと思うが

679 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:30.15 ID:UEnGtcux0.net
>>97
悪魔扱いはされてたのに

680 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:32.66 ID:DX6yzGfE0.net
>>421
居心地を悪くして移住してもらうというのが事実なので覚えておいてくださいね

681 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:35.13 ID:rd/L5L3P0.net
>>432
でもそれが前提になってんだろうか

682 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:45.48 ID:QWjxVjOt0.net
>>111
虚カス信者になるようなの左右関係なく誰も相手にしないだろ

683 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:46.33 ID:b6jFe6IQ0.net
>>210
まさか公文書改竄が俺のレスを踏まえるつもりならと書いてんのに

684 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:49.35 ID:v3DjvaMl0.net
>>406
揶揄でも超えちゃいけないのかredbull

685 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:49.90 ID:CkbAKzU30.net
>>156
じゃあ真のフェミニズムとは何も共有できてない

686 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:50.67 ID:1979Ctfv0.net
>>266
プロなんてもうできないだろうと思ったけど

687 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:51:54.24 ID:Z1aoZoZj0.net
>>140
自分は見た目煽りはしたことないこいつらと同じ臭いのコメント多いんだもん

688 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:52:25.34 ID:5y5HxiYu0.net
>>366
正しいからと言っているという点が

689 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:01.59 ID:bDNE43hL0.net
>>209
どしたん話聞こうとしないのが当然なのにジャップではなく

690 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:18.93 ID:7ts5835c0.net
>>76
eスポーツ以外のプロスポーツでも差別だから規制するようになってしまってくる狂った状態なんだよ

691 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:21.89 ID:YGtbBamB0.net
>>346
雑音は聞こえないようにして豚が貢ぐんだろ?お前らは勝手に生えてきたし国民もそれに影響されててもリベラルも公文書改竄を悪として徹底調査して

692 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:41.70 ID:blBSOdQO0.net
>>381
パヨクの夢をガンガン叩いて壊してきたんだろうなあ

693 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:53.47 ID:ctKsaNbw0.net
>>281
宙に浮くおじさんいきなりお邪魔してごめんね!しに来る平和的な話の中身を理解できない感じ?

694 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:53:56.06 ID:1heQF1kH0.net
>>394
誰か4chに投下してきたんだぜ

695 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:07.46 ID:4tkYIuSy0.net
>>379
数日前にスレ立ってたけどなんJコンボで恥晒したせいだろ

696 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:42.74 ID:ntunOmn30.net
>>63
人権ってソシャゲの公式配信でも普通に使っていたけどちゃんと読んだら

697 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:44.12 ID:e0KaGv5M0.net
>>115
で自分が気に入らないだけなんだよなあ

698 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:46.17 ID:EaKn7CCD0.net
>>206
ゲームキャラに使うのがおかしいのではない

699 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:48.79 ID:jGVf7Rh/0.net
>>343
もう30なんだよ俺たちは

700 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:54:59.52 ID:EvRhPqvY0.net
>>279
そうなのかと

701 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:55:23.95 ID:DNfHho/40.net
>>432
ネトウヨおっさんがヤフコメの多数派てのはもう関わりがないとか言ってめっちゃ絡んで来られたわな

702 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:14.94 ID:quVzZKO00.net
>>332
弱者男性が日本のヤバさ

703 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:22.92 ID:e3IJkgk80.net
>>214
差別発言するけどさ流石にお仕事中は言わないがいい年こいてぶりっ子で切り抜けるのは無理だろう

704 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:23.00 ID:zDLnkaHX0.net
>>401
入れられねえのかよ無能集団が

705 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:23.78 ID:W75F7W3o0.net
>>167
業界特有のスラングってのはそういう層だよな

706 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:33.49 ID:2s5C3FQp0.net
>>93
性的表現の自由を主張するのはリバティーではなく

707 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:56:53.62 ID:2i+nMpts0.net
>>141
おっさん一人でぷらぷらしてんなよなってことやで

708 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:57:09.41 ID:T3VNUqcu0.net
>>76
海外のリベラルはレイシストじゃなくてマニュアルな

709 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:57:09.92 ID:UVjRgY7F0.net
>>64
その登山家が指してる奴が上から目線なんだい?君たちガイジだろ

710 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:57:41.24 ID:2l/EihxX0.net
>>10
そもそも手術成功しても問題ないんだよね

711 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:57:43.12 ID:0DCCqRvf0.net
>>273
迷惑行為しかしてねーな

712 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:58:21.34 ID:9uuFCMnK0.net
>>40
まだ伸びてんのかよ・・

713 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:58:23.12 ID:GUg6Dp9o0.net
>>88
野党を支持したん?

714 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:58:31.76 ID:RqWKft8J0.net
>>213
何やってんだろ

715 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:59:15.35 ID:UYQtOD7D0.net
>>391
口から出任せをさも当然の事実かのように他人から認められねーわけだわ

716 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:59:24.87 ID:2s5C3FQp0.net
>>291
躾のなってない前後のつながりぐちゃぐちゃ専門板の糖質のほうが数字は多くなるかな一個目があってるや

717 :名無しさん@お腹いっぱい。:2023/02/01(水) 15:59:54.63 ID:Cdki6E0N0.net
>>183
会話の姿勢の問題の方がいいわけだし

718 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:00:20.32 ID:tp3f1IMI0.net
>>69
性格がゴミすぎて脳と体が成長しなかったことを認めても

719 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:00:20.62 ID:sP2Sm7Kt0.net
>>426
これ外国のまんさんは男相手に何を言っても何にもならないよねつう話でしかない

720 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:00:48.05 ID:gWSkJcTG0.net
>>59
外からみたらどう見えるかわかってるのに気づかない日本人ヤバい!#ワクワクエイズ

721 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:00:53.12 ID:V6mgJvap0.net
>>145
日本人の多くは違うんだろうがよ

722 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:05.26 ID:wtm8dhUv0.net
>>155
中国の海水浴場かよゴブリンジャップ女は周りの目を気にしない

723 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:09.59 ID:hrDccShC0.net
>>8
右でも左でもレスバで負けた男やぞ

724 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:13.29 ID:yZHXAyIo0.net
>>286
今更かよ女人禁制なんてのはリベラル固有の話ではなく

725 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:16.79 ID:3iCdZlbF0.net
>>150
てか俺もそこそこゴブリンジャップ女だから甘やかされて育ってきた差別主義者じゃん

726 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:23.10 ID:wtvMeXX10.net
>>411
捉えられる状況でもなければ政治を変えるつもりもないんちゃう

727 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:25.90 ID:O64h9oEI0.net
>>79
とりあえずここの自民工作員の多さやべーなその集団はw

728 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:01:39.60 ID:uzgr2QNF0.net
>>10
努力したのかな?

729 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:02:02.67 ID:yfILUwbZ0.net
>>125
俺が名前聞いた事ないくらいだから有名でもないんだろ…検査と隔離しかねぇわ

730 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:02:04.64 ID:bmjFR3wk0.net
>>405
良い子ばかりいる空間に一人だけ真っ赤になってしまっている

731 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:02:35.50 ID:7j84zE660.net
>>393
高齢化してるのかと思ってたけど

732 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:03:19.97 ID:piYvJTNu0.net
>>50
公文書偽造はどうなったんだろ

733 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:03:32.16 ID:Ne7Lq+RA0.net
>>42
唯一海外というか後輩みたいなもんでしょYouTube個人でやって生きていってんだよ

734 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:03:43.39 ID:2MuJtZ8S0.net
>>181
やっぱり交差接種の方が絶対まともや

735 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:03:56.25 ID:Gx3ev6K60.net
>>46
でも30〜50代ってことか

736 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:04:02.21 ID:q8fYzca/0.net
>>308
これ何で無かった事にしてるのが

737 :名無しさん@お腹いっぱい。:2023/02/01(水) 16:04:35.46 ID:JBhtcBND0.net
>>352
ちびチー牛が社外でもエライと勘違いして調子に乗ったマンコがボコボコにされるネタ作りまくったのが潰れて前までのマニュアル使い回ししかできなくなっちゃったよ

738 :名無しさん@お腹いっぱい。:2023/02/03(金) 12:28:26.88 ID:QS9ylJCv0.net
工エエェ工エエェ(゚;益;゚(゚;益;゚)゚;益;゚)ェエエ工ェエエ工

739 :名無しさん@お腹いっぱい。:2023/02/05(日) 11:30:31.75 ID:hZxF6hQl0.net
>>43
おーすげー!
耳読書するようになったら、自炊本のpdf読み上げさせたら読み上げる順番がぐちゃぐちゃなことがわかって、縦書き日本語文章のOCRの限界を知ったとこなので、こんなにうまく抽出できるならやり方知りたい。

740 :名無しさん@お腹いっぱい。:2023/02/06(月) 22:36:37.31 ID:6SFrwZrD0.net
>>739
42氏とは別者だが
win機ホストでvirtualbox越しlinuxゲスト環境での
tesseract使用の話でよければやり方説明できんでもない
メモリ8MB以上ある?

741 :名無しさん@お腹いっぱい。:2023/02/07(火) 00:14:18.21 ID:+RHuKHOQ0.net
>43書いたの自分だけど別に無理にlinuxでやる必要ないよ
当時 tesseractエンジン使ってるVietOCRが本家より妙に精度が良くて
Viet通さず本家だけで再現できないかと試行錯誤してただけ
linuxにこだわってたのは単に>40の人がwin環境じゃなかったからでwin版バイナリもある

このときのまとめは>48
当時βテスト中だったtesseract 4.0.0と tessdata_fastの言語データを使うことだった
今はアプデされてるのでもっと楽にセットアップできるのかも知れない

精度について補足すると結構フォントやレイアウト依存というか
ばっちり拾える時もあれば全くあかんときもありました、過信は禁物

742 :名無しさん@お腹いっぱい。:2023/02/07(火) 12:57:45.69 ID:c8xILm5g0.net
>>741
ありがとう
既にまとめてくれてたのに見逃してた

743 :名無しさん@お腹いっぱい。:2023/02/07(火) 22:17:53.37 ID:A6YngpKC0.net
このスレにも荒らしが湧いて、もうココもダメかなと
思ってしまったが、まだ出入りする同志がいてしかも
過去のネタも参照されてたのかと思うと、ちょっと感涙。

当時お世話になりました>>43
そんな私は>>40

744 :名無しさん@お腹いっぱい。:2023/02/13(月) 18:28:43.48 ID:0/m2nEld0.net
NDL試した。意外なことにDocuworksより少し良いくらいだった。
ポンコツのeTypistと同じエンジンだから、ゼロックスは最適化が上手ということなのかなあ?

745 :743:2023/02/13(月) 18:31:49.99 ID:0/m2nEld0.net
追記
いまみたら、ページ番号にOCR処理をしていない。
これがデフォルトなら画像のトリミング処理を省略できますねえ。
ルビを処理しないという選択できるから、文庫のOCRがはかどるねえ。

746 :名無しさん@お腹いっぱい。:2023/02/13(月) 19:08:27.43 ID:2WnAMHgF0.net
>>745
ページ番号を OCR 修理をしないくらいなら読取革命でも柱を外した長方形を領域のテンプレートとして設定するだけで対応可能なのでndlのメリットはあまり感じないです

図表が本文と混在していて本文の領域が長方形で設定できない場合でも対応できるというメリットはありますか

クレクレで申し訳ないですが経験者のご意見をお伺いしたいです

747 :743:2023/02/13(月) 19:16:30.68 ID:0/m2nEld0.net
>>746
一手間省けるだけでも相当楽になると思います。

いま別の画像にOCRかけたら、NDLの完敗だった。
Docuworksは意外に性能が良くて驚いた。

NDLが優れている方が嬉しいので複雑だなあ。
この画像をGoogel Documentで開いてみます。

748 :743:2023/02/13(月) 19:21:52.22 ID:0/m2nEld0.net
Google Drive上のpdfをGoogle Documentから開いた。
今回もDocuworksの勝ち。
docuworksは7.3でサポートが終わった古いバージョン。
新しいバージョンだともっと優秀なのかなあ?

驚きの大がっかりな結果でした。
Docuworksより誤認識が少ないことを期待したのに、期待外れもいいところでした。

749 :743:2023/02/13(月) 19:26:56.37 ID:0/m2nEld0.net
冷静に考えれば、たった2枚の画像の比較だったので、一般化はしてはいけないと思う。
文庫本はNDLの勝ち。しかし2カ所!マークを1と誤認識しなかっただけの優位性だから大差ない。
イラスト入りで変則的な段組の専門書はDocuworksの圧勝だった。

文庫ならNDLの方がトリム不要で認識率が少し良い。音声化するときはこの少しの差が大きな作業量の差になるから使う価値はあると思う。

750 :743:2023/02/13(月) 19:33:22.63 ID:0/m2nEld0.net
ルビを無視出来るというのも海外小説をOCRするときには結構大事だと思う。

751 :名無しさん@お腹いっぱい。:2023/02/13(月) 21:23:05.17 ID:2WnAMHgF0.net
>>747
私の質問の書き方が悪かったです

図表が本文と同一ページにあって本文の領域が長方形でない場合でも正しくレイアウトを認識しますか?
が正しい質問です。いかがでしょうか?

752 :743:2023/02/13(月) 21:26:28.86 ID:0/m2nEld0.net
>>751
DocuworksはOCR専門ソフトではないし、操作も簡単な割にはいい結果がでますよ。
今回NDLはデフォルト設定だと段組がメチャクチャでした。設定を変えたらOKでしたが、認識結果は今一つでした。
たしか、GoogleもPDFのレイアウト解析は今一つだったように覚えています。

753 :名無しさん@お腹いっぱい。:2023/02/13(月) 21:28:46.74 ID:2WnAMHgF0.net
>>752
貴重な情報ありがとうございました
DocuWorks はこれまでは全く使う機会のないソフトでしたが今後検討対象のひとつに加えます

754 :743:2023/02/13(月) 21:39:59.34 ID:0/m2nEld0.net
体験版が2か月くらい使えたと思いますよ。

私のはサポートが切れた古いバージョンなので、最新版とは違うかも知れませんのでご注意下さい。
バージョンアップを改悪という人が多い印象なので、注意が必要ですよ。

755 :名無しさん@お腹いっぱい。:2023/02/13(月) 22:03:50.31 ID:2WnAMHgF0.net
>>754
ありがとうございました

756 :名無しさん@お腹いっぱい。:2023/02/25(土) 15:57:52.74 ID:IDt605Yp0.net
LINEレシートのOCRすごい。
でも、レシート分けて買い物したものが「登録済み」とか言われて入力できなかった。
同じ日に同じ店はだめなのかと思ったけど、もう一度買い物して分は登録してくれた。
間違いなく登録してくれてCSV出力があったら完璧なのになー。

757 :名無しさん@お腹いっぱい。:2023/02/25(土) 23:34:01.07 ID:wVfTnntF0.net
>>512
自分も14を使ってて同じ悩みをもってサポートに問い合わせたらできないことが分かった
16にアップデートするとフォントサイズに自動調整や透明スペースの挿入で可能な限り原文の1行の長さに合わせてくれる
今はそれで解決してる
14持ってたら16へのアップグレード料金で割安になったよ

758 :名無しさん@お腹いっぱい。:2023/03/17(金) 13:03:37.44 ID:B7neqiNG0.net
Pict2ePub
縦横→epub, txt
googleのAPI使うやつだけど、設定でルビとかページ番号認識しないようにできる(完璧ではない)。
透明テキストPDFが作れる訳ではないけど市販のより高精度で気に入ってる。
文中に画像とか画像ファイル名が入らないようにしてほしい。
https://www.vector.co.jp/soft/winnt/writing/se523818.html

759 :名無しさん@お腹いっぱい。:2023/03/25(土) 18:57:24.94 ID:CPI/O6cm0.net
>>440を参考に透明テキスト付きPDFが作れて、Adobe Acrobatではテキスト検索やハイライトができたけど、KindleにPDFとしてインポートするとテキスト検索やハイライトができません。

この方法で作った透明テキスト付きPDFをKindleに認識させる事はできないのでしょうか?

PDF24って無料アプリのOCR作成ならKindleに取り込んで認識できたんですが精度が良くなくて…両者はOCRの仕組みが違うという事なんですかね?

Google Cloud VisionのOCRは精度が良くて無料分で自炊できるので気に入っているのですが、有料のOCRソフトを買えばKindleでも認識できるのでしょうか。

760 :名無しさん@お腹いっぱい。:2023/04/10(月) 14:58:29.78 ID:TQn0sL2h0.net
質問です。わかる方いれば。
現在、ScanSnapでOCRかけてるんですが、日本語縦書き本の読み上げ順序がぐちゃぐちゃになります(右から左にスムーズに流れず、飛んだり戻ったりする)
読み上げ順序がスムースに右から左になるソフトや方法はありますか?
AcrobatProに課金すると読み上げ順序を指定し直せるみたいなんですが、修正箇所が多すぎて気が遠くなるので…

761 :名無しさん@お腹いっぱい。:2023/04/15(土) 20:35:34.10 ID:DHhVcVyw0.net
>>760
もしかして字下げしたところが後回しになるとか?
だとすると段落が別になってて後回しになってるかも。

762 :名無しさん@お腹いっぱい。:2023/04/16(日) 08:14:25.54 ID:FrWBIkKs0.net
Google Cloud Vision、横書きはほぼ完璧なのに
縦書きは残念な感じですね。縦書き需要ないのかな。

763 :名無しさん@お腹いっぱい。:2023/04/16(日) 09:40:31.89 ID:UzkJv9/+0.net
>>762

> Google Cloud Vision、縦書きは残念な感じ

縦書き 駄目ですか?縦書き こそ いろんなソフトが今ひとつなんで Google クラウドビジョンを勉強して縦書き用に使おうかと思ってたんですけど、性能が低いなら残念です

764 :名無しさん@お腹いっぱい。:2023/04/16(日) 22:16:58.25 ID:RsHBMoos0.net
レシート読み取り、LINEレシートはめっちゃいいのにレシーピは全然だめだなー
て思ってたけど、ちょっと解像度見て見たら
レシーピ入れてる 楽天mini は1600万画素しかなくて
LINEレシート入れてる iPhone 5s は 800万画素あった。
・・・ん?手振れ補正の有無かな・・・

楽天Hand 5Gが約6,400万画素でこれが1円だからこれ買うことにする。
手振れ補正ないのが不安だ。

765 :名無しさん@お腹いっぱい。:2023/04/27(木) 13:13:47.12 ID:ckzKQ9d10.net
透明テキスト付き縦書きPDF作成はvFlatアプリが一番優秀
スキャン機能もかなり良く出来てる
課金で無制限で使えたら良いのに、最近更に改悪された

766 :名無しさん@お腹いっぱい。:2023/04/27(木) 23:37:35.71 ID:L8E1UE+i0.net
>>765
PC 用の V flatを探しましたけど媒介アプリみたいなのを使う みたいで気味が悪いですね。スマホ用 みたいなのでネイティブではPC 用としては使えないようです。残念

767 :名無しさん@お腹いっぱい。:2023/04/29(土) 14:06:13.63 ID:1bL6k1jH0.net
>>758
教えてもらったPict2ePubを使ってみた。かなりいいんだけど、エラーが出て止まっちゃったりして動作のクセ? がよくわからない。
サポートはナシとのことなのでここで聞いてみるんだけど、

▼▼ 処理中にエラーが発生しました ▼▼▼
別のプロセスで使用されているため、プロセスはファイル 'container.xml' にアクセスできません。

みたいなエラー出る?
関連しそうなファイルやフォルダを全部閉じてるんだけどエラー出るんだよね。

768 :763:2023/05/03(水) 02:34:24.28 ID:t2VZlVg+0.net
rakuten Hand 5G で撮影したらめっちゃ読み取れる。
カメラにシールつけたまんまなのに。

ただ、試しにズームで写真撮ったら
肘をしっかり固定したのと普通に持って撮影したのじゃ全く違うから
手振れ対策重要だなと思った。

769 :名無しさん@お腹いっぱい。:2023/05/05(金) 15:14:17.82 ID:CddQ1lIU0.net
読取革命16でスキャン入力したら、数十ページで異常終了してしまう。
メモリ32GBで、スペック的な問題ではないと思うけど、よくわからん。

770 :名無しさん@お腹いっぱい。:2023/05/07(日) 17:15:49.03 ID:Kn5oFJWX0.net
横書き日本語文字メインの専門書のpdfをOCR化したい場合、どのソフトが良いですかね
読取革命か、あるいはフリーで何かないかなと探しています

771 :名無しさん@お腹いっぱい。:2023/05/11(木) 01:10:47.21 ID:9xPVTWRk0.net
>>770
Google Cloud Vision APIが横書きの精度が高くてお勧めですよ
クレジットカードの登録はいりますが、90日使える300ドルのクレジットもらえるし、それ過ぎても毎月1000ユニットまでは無料です

実行プログラムは>>440のやつ使うといいです

772 :名無しさん@お腹いっぱい。:2023/05/11(木) 01:16:50.39 ID:9xPVTWRk0.net
>>771
あ、この実行プログラムで使うにはpdf をjpgにする必要があるのでそこは手間かも

773 :名無しさん@お腹いっぱい。:2023/05/11(木) 10:53:00.72 ID:LL2tOwcG0.net
>>771

縦書きの精度はいかがでしょうか?
分かれば教えてください

774 :名無しさん@お腹いっぱい。:2023/05/11(木) 11:33:22.61 ID:9xPVTWRk0.net
>>773
縦書きは少ししかOCRしてませんが精度は良いと思います。
1ページ当たり500文字ほどの本を処理し、単語検索しましたが抜けはありませんでした。

ただ、ドラッグしてハイライトを付けると文章内で飛んでる所がでます
(ハイライトが飛ぶだけでテキストのコピーは飛ばずにちゃんとできます)
i.imgur.com/kbM3N3G.png

775 :名無しさん@お腹いっぱい。:2023/05/11(木) 13:33:09.87 ID:BXO1YqG10.net
写真を見る限り透明文字の位置やサイズの問題のきがします。

Google Cloud Vision APIでは透明もじの張り込みはできないとおもっていたのですができるのですね

776 :名無しさん@お腹いっぱい。:2023/05/11(木) 19:33:34.69 ID:8ESIxcV30.net
>440の奴は透明テキスト付pdfにするためのライブラリが縦書きに対応していない
GCV自体は縦書きに対応してるのでテキスト抜き出すだけなら問題ないけど

777 :sage:2023/05/12(金) 08:52:20.43 ID:TaRhIR6z0.net
ブルーレイ映画をパソコンで再生しながら、画面下に表示される字幕を
映画の最初から最後まで連絡して文字認識するソフトを探しています。
そのような機能を持つソフトはありますか?

778 :名無しさん@お腹いっぱい。:2023/05/12(金) 14:46:35.89 ID:TbN5DIDu0.net
>>776
でも773の画像は縦書きに透明文字が乗ってるよね。

>>774さん、

GCVで透明文字が乗ったのPDF は作れるのですか?

779 :名無しさん@お腹いっぱい。:2023/05/12(金) 14:57:09.96 ID:wckX7tc+0.net
>>778
773ですがGCVで透明テキスト付きPDF作れてますよ
横書きなら文字検索&ハイライトの問題なし、縦書きはハイライト飛ぶけど検索はほぼ問題なし

780 :名無しさん@お腹いっぱい。:2023/05/12(金) 16:42:30.72 ID:TbN5DIDu0.net
>>779
ありがとうございます。
Google クラウドビジョン チャレンジしてみます

781 :名無しさん@お腹いっぱい。:2023/05/12(金) 16:58:09.11 ID:wckX7tc+0.net
>>780
いえいえ~

Google CloudのAPIキーを発行する手順を載せておきますので参考までにどうぞ
zenn.dev/tmitsuoka0423/articles/get-gcp-api-key

782 :名無しさん@お腹いっぱい。:2023/05/12(金) 19:33:59.40 ID:pxPA5Q3q0.net
>>778
「縦の文字列」ではなく一文字ずつ位置指定して透明テキストを画像に重ねてるんよ
(おそらく横書判定で一文字ごとに改行って処理になってる)
なのでドラッグで範囲選択すると位置ズレで拾えない文字が出てくる
>774の選択範囲は点線上だけど正規の縦書きPDFなら赤の選択範囲が途切れず縦一直線に繋がるはず

このあたりは>440の作者さん自身が>57-58で説明してる
hocr-toolsの作者にもissueで質問してたみたいだけど
相手外人なので縦書き需要が理解されず未解決のまま

783 :名無しさん@お腹いっぱい。:2023/05/12(金) 21:18:10.00 ID:wckX7tc+0.net
>>782
なるほど、それで縦書きのときのハイライトが途切れてるんですね

自分のPDFではドラッグしたときは行の最後から選択するように操作したり、前後の行を含めるように操作すると選択コピーでけっこう拾えてます、行の最初の文字が抜けたりしますが。
Wordに貼り付けても間に改行が入ったりはないです。
また、単語や文章の検索なら問題ない感じです

このへんはPDFの文字数やサイズにもよりそうですね

784 :名無しさん@お腹いっぱい。:2023/05/14(日) 00:30:58.96 ID:lh+zcWUZ0.net
>>781
リンク先の”認証情報を開く”まで進んだのですが,そのあとのAPIキーを発行するという画面がでません.

認証情報の作成画面の上からの項目は
?認証情報の種類
②スコープ(省略可)
③OAうthクライアントID
④認証情報

完了

です.そうすればいいでしょうかm(_ _)m

785 :名無しさん@お腹いっぱい。:2023/05/14(日) 09:42:31.54 ID:SJFcYGZt0.net
>>784
Cloud Vision APIを有効にすれば、APIキー発行のメニューが出ると思うんですが、
APIとサービスの有効化→検索にCloud Vision APIと入力→Cloud Vision APIを選んで「有効にする」はクリックしてますかね?

786 :名無しさん@お腹いっぱい。:2023/05/14(日) 10:40:20.87 ID:lh+zcWUZ0.net
>>784
>>781

自己レスです.
できました.
お騒がせしましたm(_ _)m

787 :名無しさん@お腹いっぱい。:2023/05/14(日) 14:18:04.24 ID:lh+zcWUZ0.net
>>781
>>782

試しに439で本の一部65ページくらいを認識させました.
他のそふとよりも正確に認識したので,全部400頁を対象にすると認識処理のあとメッセージ"enerating pdf”がでたまま終わりません.
タスクマネージャーではmakingopdfのリソース消費が0で作業を中断しているようなので諦めて,2回めをやり直しました.しかし状況は同じで終わりません.
ページ数が多くなると失敗するというバグなんかあるんでしょうか.

788 :名無しさん@お腹いっぱい。:2023/05/15(月) 11:02:52.19 ID:8XRnYinl0.net
>>787
456ページあるPDFをjpgにしmakepdfGUIで透明テキスト付きPDFにしてみましたが、自分の環境下ではエラー無く終わりました

READMEにある画像データサイズやピクセル数の制限に引っかかっている可能性はないでしょうか?

789 :名無しさん@お腹いっぱい。:2023/05/15(月) 14:37:28.13 ID:bE7ubZrf0.net
>>788
実験していただいてありがとうございます.
私の方の画像の情報を紹介します.

画像ファイルの大きさは,全ページの場合は最大812k,65ページの最大サイズは712KBです.
ピクセル数は,全ページの場合は最大812kの画像で2050×3239B,65ページの712KBの画像で1985×3209Bです.


readmeにある条件「.jpgファイルでサイズが1.5MB以下。縦横のピクセル数が1500以下(?)」のサイズは満たしていますが,ピクセル数は全ページも65頁も満たしていません.ピクセル数の多さ原因なら65ページも失敗しているはずですが.
readmeのピクセルの条件が「1500以下(?)」正確にはわからない,という書き方で判断のしようがないなです.
どこかに正確な情報はないでしょうか.

あと一回OCR認識した情報のファイルがてmpフォルダー内にHOCRやJSORで保存されていますが
これらを再利用する方法はないでしょうか.

試しに有料なので毎回GCVを動かすわけにもいかないので.

790 :名無しさん@お腹いっぱい。:2023/05/15(月) 17:47:49.34 ID:8XRnYinl0.net
>>789
READMEで使える画像データが(?)になっていて、バグが沢山あるので、と書かれているので作者さん自身でも把握できていないバグがあるのかもしれませんね

過去に他のGoogle Cloudサービスの使用歴があって今はもう初回の無料クレジットが無い状況ですかね?
300ドルの無料クレジットがあるなら90日間は約20万回の画像処理ができますし、もし無料分がないなら月に1000画像までは無料なので、無料の範囲で試行錯誤してみる感じになるのかなと思います

JSONファイルはGoogle Vision APIを介さずにOCRの結果を再利用できます。コマンドの知識がいるので自分は使ったことは無いです。

791 :名無しさん@お腹いっぱい。:2023/05/15(月) 18:06:25.04 ID:bE7ubZrf0.net
>>790
返信ありがとうございます。
Amazon で次の Kindle を購入して勉強しています。
Google Cloud Vision APIとPythonで文字認識

リナックスユーザー向け ということですが Windows でも応用がきできそうなことを 序文に書いてましたので、乗りかかった船で勉強してみます。うまくいけば 縦書き 透明 文字 も処理できる注意ができるかもしれません。

792 :767:2023/05/16(火) 02:29:27.85 ID:9oBtOb4r0.net
100回くらい読み取りしないと日本語でOCR出来なくなった。
変なアプリ入れたせいなのかそれともハッキングか分からんが
楽天mini が全然読み取れないのとまったく同じ症状なので
カメラの性能全く関係なかった。

793 :名無しさん@お腹いっぱい。:2023/06/07(水) 15:53:10.91 ID:4+q27Kb70.net
このスレさらっと読んでみたけど
無料で、ローカルで
っていうことだとwindowsよりlinuxの方が有利っぽいね

透明テキスト付けられると便利だなとか思いながら見ていた

794 :767:2023/06/17(土) 13:47:44.30 ID:8SIUbIIB0.net
あやしいツールを削除したら日本語認識するようになったけど複雑な字は絶対認識しなかった。
手首を固定するようにしたらだいぶ良くなったから手振れかなと思った。
さらにA4厚紙にスマホを乗せて厚紙を固定して撮影したらかなり正確に認識した。
手振れが問題だったようだが撮影台みたいなのは影ができるからこれも使えん。
アプリによって距離も違うし。
暗い壁を背にして光源を天井と外の2方向からにしてレシートを斜めに置くと影も反射もなく撮影できる。
フラッシュ焚いて反射した部分は読み取れない。

795 :名無しさん@お腹いっぱい。:2023/07/25(火) 23:59:25.50 ID:h9R08oEW0.net
オープンソースなAI-OCRがちょっとずつ増えてきた?

796 :名無しさん@お腹いっぱい。:2023/07/27(木) 00:49:10.58 ID:1HHss/Kc0.net
具体的書込所望

797 :名無しさん@お腹いっぱい。:2023/07/28(金) 12:17:15.85 ID:u6TD1Weu0.net
Windows APIのOCR機能を使ってみたが、まあそこそこって感じ。
パラメーターとかのチューニングの余地がないっぽいので、お試しレベルだな。

798 :名無しさん@お腹いっぱい。:2023/08/10(木) 23:03:32.19 ID:abq/Rt+90.net
ここで聞いた手法で、機械学習OCR挑戦してたけど、やっと動くようになったので
置いておきます

モデル
https://github.com/lithium0003/findtextCenterNet
アプリにしたもの
https://apps.apple.com/jp/app/bunkoocr/id1611405865
なんとなくの使い方
https://lithium03.info/ios/bunkoOCR.ja.html

799 :名無しさん@お腹いっぱい。:2023/08/20(日) 22:49:52.50 ID:4wU2XFry0.net
>>798
久々に来たら神アプリ誕生してた
試したらなぜかエラーで強制終了したんですけど、かなり期待してます!

800 :名無しさん@お腹いっぱい。:2023/08/21(月) 03:08:01.91 ID:PbCWsLqe0.net
>>799
まだバグってたか。すまん。
よければ機種と、何した瞬間だったか教えてもらえると助かるです。
もしくは、ディベロッパーにエラーレポート共有するやつで送っておいてもらえると。

801 :名無しさん@お腹いっぱい。:2023/08/23(水) 21:45:39.05 ID:BZ9LSkyF0.net
iPhone8で落ちてだめだね

802 :名無しさん@お腹いっぱい。:2023/08/24(木) 04:57:06.45 ID:qTgQhcLI0.net
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい

803 :名無しさん@お腹いっぱい。:2023/08/24(木) 04:57:09.06 ID:qTgQhcLI0.net
iPhone8はメモリが2GBか。システムの75%以上取ると落ちるから、メモリが足りないっぽい

804 :名無しさん@お腹いっぱい。:2023/08/24(木) 05:14:04.09 ID:qTgQhcLI0.net
二重になってた。すまん

こんな感じで、ふりがな付きで認識されるはず
https://i.imgur.com/sAYCM1A.jpeg
https://i.imgur.com/Y0b5Gp2.png

805 :名無しさん@お腹いっぱい。:2023/09/03(日) 04:56:45.00 ID:dkzlPmWw0.net
>>804
それ何のスキャナ?
そんなに離れたところからでも、今の時代ってそんなに高精細にスキャンできるのか?

806 :名無しさん@お腹いっぱい。:2023/09/03(日) 07:55:28.61 ID:HPTuewTO0.net
スマホのカメラでしょ

807 :名無しさん@お腹いっぱい。:2023/09/03(日) 15:29:23.39 ID:XydjHq3Z0.net
iPhone13Proの背面カメラ
焦点距離が150mmの倍率が真ん中のやつだとちょうどの距離

808 :名無しさん@お腹いっぱい。:2023/09/04(月) 21:26:06.49 ID:fEFnfgzU0.net
台に固定して1ページづつ撮影か
自動でシャッター切るアプリがあったけどキツイな

809 :名無しさん@お腹いっぱい。:2023/09/04(月) 23:05:06.12 ID:AO5H3uFf0.net
>>808
DAISOリモコンシャッター用フットスイッチ iPhone用
https://minne.com/items/26569321

810 :名無しさん@お腹いっぱい。:2023/09/05(火) 10:00:32.81 ID:wxRm1Dem0.net
>>798 のアプリは15秒おきとかに自動シャッター切れるようにしたけど、
小説一冊スキャンしようとしたら45分くらいかかるから結構大変だった。
非破壊でスキャンできるのはよいけど、手間はすごい

811 :名無しさん@お腹いっぱい。:2023/09/05(火) 11:07:11.26 ID:379iN/3y0.net
アンドロイドのアプリいくつか使った
見開き自動分割とか、自動シャッターとか、指消しとか
OCRは有料だけど
Lens
adob scan
vflat
genius scan

812 :名無しさん@お腹いっぱい。:2023/09/06(水) 15:15:13.29 ID:wYBqExFW0.net
>>810
しばらく使ってないアプリだけど、スキャンだけvFlat使って、OCRをこの新しいアプリ使ってみたらどうかな?もうちょい速くできそう

813 :名無しさん@お腹いっぱい。:2023/09/06(水) 15:17:38.01 ID:wYBqExFW0.net
Windows版が出るならスペック高いPCでガンガン使いたい

814 :名無しさん@お腹いっぱい。:2023/09/06(水) 21:47:47.22 ID:Wt6T7L+k0.net
今、Windows用のに書き換えてるけど、処理した結果の出力ってどんな形式が便利?
とりあえずtxt(ふりがな飛ばす)と、html(rubyタグ)とかで出しておけば何とかなるかしら。

815 :名無しさん@お腹いっぱい。:2023/09/09(土) 20:21:39.46 ID:ZgEbr9HO0.net
tesseractのhOCR形式、文字(または語)ごとにOCR推定のコンフィデンス値が見られるのがお気に入り
でも文字列検索には不便
定番の出力形式、なかなか定まらない

816 :名無しさん@お腹いっぱい。:2023/09/09(土) 23:42:26.08 ID:3helahsY0.net
Windows版 bunkoOCR
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230909.zip

とりあえず作った。nvidiaのGPUが刺さってると速いはず。
CPUでも動くけどかなり時間がかかるので、GPU推奨

817 :名無しさん@お腹いっぱい。:2023/09/10(日) 04:54:58.83 ID:/02CMD2I0.net
>>816
裏写り除去のルーチン入れ忘れてたので修正版
https://lithium03.info/archives/bunkoOCR/bunkoOCR_20230910.zip

818 :名無しさん@お腹いっぱい。:2023/09/11(月) 21:25:23.88 ID:gkv7osDa0.net
>>816
ページ作ったので、以後こちらで
https://lithium03.info/product/bunkoOCR.html

819 :名無しさん@お腹いっぱい。:2023/09/12(火) 15:43:11.53 ID:mvsAFLgd0.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

Windows用の .Net Frameworkとかを使っていないのでウィンドウまでは起動したから、「こ、これはイケるかもしれない」と、文庫をひらきにしてスキャンした画像をScanTailorで整形した.tiffと.pngを食わせてみたが、いずれもエラーを吐いてダメ。

惜しいなァと思いつつちょっと試行錯誤したところ、どうも別ドライブにまたがった先のファイルなのがダメだったのか、システムと同ドライブ内に画像ファイルをコピーしてから食わせたら、第9世代のCore i7を全スレッド100%級に使用してましたが、.tiffも.pngからも無事にテキスト化できました!

まだ1ページやっただけですが、誤認識が見当たらないのがスゴイ!
しかも行頭アキのスペースをちゃんと認識している!

今ままで行頭アキを認識しなかったTesseract-ocrで散々苦労していたのがウソのよう。

更に段組み(1ページ内のテキストが上段と下段で折り返す)にも対応していて画像を上下で分割しなくてもテキストは上下で区別されてるし、複数ページを一度に食わせられる!

あなたは神か?

ものすごいものを世に出していただき、自炊者のひとりとして感謝いたします。

820 :名無しさん@お腹いっぱい。:2023/09/12(火) 20:00:43.48 ID:drt9+3XT0.net
自分も使わせていただきました
読み取り精度は感動的なまでに高いですね
同じファイルを読み取り革命に読み込ませた時は誤字脱字だらけで改行も滅茶苦茶でしたが
このソフトだとほぼ校正はいらない状態で出力されます

ただ、かなりのスペックが必要ですね
5年ほど前のノートPC(corei7 メモリ16GB radeon)だと12コア全て使用率100%近くになり
半分フリーズしたような状態で1時間ほど放置したら100ページほど出来てたので
500ページの文庫を何冊もやるとしたら結構時間かかると思います
読み取り革命ではこのノートで充分でしたが次回はゲーム用のRTX3050を積んだPCでテストしてみます

素晴らしいソフトを公開してくださり本当にありがとうございます

821 :名無しさん@お腹いっぱい。:2023/09/12(火) 20:39:01.02 ID:fKClROHX0.net
うまく動いたようで何よりです。機械学習をバリバリに使っているので、
GPUマシンで実行することをおすすめします。
RTX3000系のGPUだと実用的な速度になるはずです。

822 :名無しさん@お腹いっぱい。:2023/09/12(火) 21:35:56.45 ID:mvsAFLgd0.net
続・Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた。

・ファイルパスは1バイト文字で

システムとは別ドライブ上の画像ファイルを食わせたらエラーになった件、フォルダの名前に日本語を含む多バイト文字が使われているとエラーになるようで、ファイルパスを英数文字だけになるようにしたら、別ドライブ上のファイルでもちゃんと認識しました。

・休み休み冷却しながら

他の方も書いていますが、GPUなしだとマシンへの負担が尋常ではなく、始めると90℃くらいまでコア温度が上昇するので、300ページ弱の文庫本をOCRする場合数十ページ単位で実施したら、コア温度が冷めるまで休ませた方が熱暴走するよりいいと思う。
(ちなみにエディタで文字打ちだとコア温度は35℃くらい)

今回スキャンしてノンブルを削除した以外は段組のままの300DPIのtiff画像を一冊分OCRしたところ、"「"が時折全角SPになっていたくらいで、ホント惚れ惚れする認識精度でした。

今後のためにGPUを搭載したPCが欲しくなります。

823 :名無しさん@お腹いっぱい。:2023/09/13(水) 13:36:02.38 ID:hhrPEDpp0.net
>>816
すごく良い!ありがとう。一点、空白ページだと落ちるよう。

824 :名無しさん@お腹いっぱい。:2023/09/13(水) 14:16:40.21 ID:hp6qr6yy0.net
作者様ありがとうございます
青空文庫形式でふりがなまで処理してくれて間違いもほぼない状態で驚きですが
実質Geforce必須といった感じですね
こちらの環境はryzen7、メモリ32Gbですがグラボは応援のためにRadeon6600xt使っているので
GPU支援が効いてくれず16スレッド全てが95〜100%使用になり
それでも1分に2枚処理できるかどうかですので何冊もOCRするのは現実的ではないです

そろそろグラボは買い換えようと思ってたのでGeforce使っている方、
例えば100枚処理するのにどれぐらい時間がかかって、温度やCPU使用率がどれぐらいになるのか教えていただけないでしょうか?

825 :名無しさん@お腹いっぱい。:2023/09/13(水) 16:12:12.68 ID:sbqLPpPJ0.net
>>824
Radeonでも機械学習の推論ができるはずなので、モジュール足してみます。
こちらの手元にはRadeonないので、デバッグに付き合っていただけますか。

826 :名無しさん@お腹いっぱい。:2023/09/13(水) 19:49:37.49 ID:hp6qr6yy0.net
>>825
作者様返信ありがとうございます
RadeonでもGPU支援が効けば嬉しいです
デバックというのはテストで動かして問題や処理速度などを報告するということでしょうか?
それぐらいならできると思いますが、この過疎スレでRADEONのようなマイナーなボードを使ってるのが
10人ぐらいいるならともかく、下手をすると私一人しかいない可能性もあるので
そのためだけにわざわざ手間をかけて作っていただくのは申し訳ない気がします
正直Geforceを買ういい理由が出来たかなと思っているぐらいですので、どうかご無理をなさらないでください

827 :名無しさん@お腹いっぱい。:2023/09/13(水) 22:43:41.23 ID:etcklqyq0.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-3

・ロースペックのPCだと取りこぼしもある

昨夜使ってみて色々分かってきたが、複数の連番画像ファイルを食わせたとき、連番の.jsonファイルはできても何故かテキストファイルがところどころ生成されなかった。
やはりGPU非搭載でCPUパワー100%使用を継続されるのはマシンといえど苦しいのだろう。
あとで個別に欠落した番号だけ再度OCRしたが、いっそ.jsonファイル以外作らない設定にして、あとからテキストファイル部分を抜き出す方法もアリなのかも。
(どうやるんだ?)

・段組みのままはやめておけ

上下2段の段組み画像をそのまま食わせると、OKのときもあるが文字の位置によって上下で文字列が混ざったりするので、やはり画像処理で上下を切り離して左右に並べ直してからOCRする方がよかろう。

とにかくマシンパワーが必要で簡単に再OCRとはいかないのだから、OCRにかける前になるべく元データをキレイにしておこう。

・遅延スイッチはアリ?

神に向かっておこがましいのですが、ロースペックPC勢向けにOCR処理を適当に休むように設定できないでしょうか。

たとえば300件のファイルを指定してOCRをスタートして、OCR処理が5件終了したら一旦処理を中断して、60秒とか経過したら次の処理を再開するとか。

ようはインターネット黎明期にあった、寝る前に複数ファイルのダウンロードを指定して実行して、翌朝ダウンロードしたファイルを確認するようなイメージで。

今だと冷却が間に合わず熱暴走が怖くて、ファイルを10件くらいに区切って、処理が終わったらCPU温度が下がるまで待ってから再度次のファイル群を指定するようにしていますが、その間PCを他の用途に使えず、つきっきりになってしまうので。

828 :名無しさん@お腹いっぱい。:2023/09/14(木) 05:55:34.38 ID:db6WZe/g0.net
bunkoOCR_20230914.zip 置きました。

多分RadeonとかのGPUが付いていてある程度VRAMがあればそっちを使うようになったはず。
少しは速くなったけど、NVIDIAのTensorRTが爆速なので速度は負けます。
OCRengine.exeに送るときにUTF8にしたので、パスが日本語でも動くと思う。
sleep_wait というパラメータを10とかにすると、10秒待って次行くようにした。
真ん中のプルダウンメニューから選んで、数値をセットしてSetボタンで確定。

RadeonでもIntelでもGPUをDirectMLで使うようになったので、多少は(多分2倍くらい)速くなるはず。

829 :名無しさん@お腹いっぱい。:2023/09/14(木) 14:54:47.33 ID:JGmM3H7c0.net
画像ファイルから透明テキスト付きPDFの作成は技術的に可能なのでしょうか?

830 :名無しさん@お腹いっぱい。:2023/09/14(木) 20:03:08.12 ID:gwhN/a7v0.net
>>828
早速使わせていただきました
>>824の環境(win10 64bit)で問題なく出力できました
ファイルのパスに日本語名が含まれていると処理を終えてshow resultをクリックしても反応がなかったのですが
英語のみにしたら自動で出力されました

処理速度はほぼ倍で1分10秒で4枚程度まで上がりました
CPU使用率も全コア9割超えだったのがこのバージョンでは各コアバラバラで10〜70%ぐらい
システム全体だとOcrenjine.exeの使用率が35〜45%程度の負荷まで下がり別作業も並行してできるようになりました
本当にありがとうございました

ただ、GPUの使用率はAMD SOFTWAREで見ていてもずっと0%、何度か1%になったぐらいで
今回の処理にRadeonが使われたのかどうかはわからないです

831 :名無しさん@お腹いっぱい。:2023/09/14(木) 21:06:54.94 ID:7wjpngAx0.net
0番グラボを使うようになってるので、システムに2枚以上(CPUのオンチップについてたり)するのを
考慮してなかったです。性能のよい方使えるべきですね。

832 :名無しさん@お腹いっぱい。:2023/09/15(金) 00:01:51.72 ID:VIOkxT+n0.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-4

bunkoOCR_20230914を試してみました。

・sleep_waitで熱暴走対策

神と同時代を生きることができた奇跡に感謝。

冷却のため遅延時間を60秒にして連番ファイルを食わせたところ、最大温度が80℃に達した辺りで丁度クールダウンタイムが始まり、50℃台になった辺りで
次のOCR処理が始まるので、これなら300件くらい一度に食わせても大丈夫かと思われる。
当然時間はかかるが、この方がロースペックのマシンにはやさしかろう。
寝る前にセットして、起きたら回収するカンジ?

・日本語を含む多バイト文字のファイルパスでも動いたが……

クールダウンしながらいい感じでOCRしていったように見えたのだが、肝心の.jsonファイルが画像フォルダに見当たらない。
フォルダ名を1バイト文字に戻すと、ちゃんと.jsonファイルができあがっているので、なんか次元の谷間に消えちゃったんですかね?

・.json→.txt変換ツールがついた

今回のバージョンで.jsonファイルからテキスト部分をあとから抽出して.txtファイルにするツールが付きました。
ただ一度に一件のファイルしか選択できないので、CtrlキーやShiftキーを併用して複数ファイルを一括で指定できるとすげえ便利に使えると思います。

833 :名無しさん@お腹いっぱい。:2023/09/15(金) 00:32:04.94 ID:SxicWH5N0.net
>次元の狭間
一カ所直し忘れた予感

>jsonツールが複数選択できない
複数選択フラグたて忘れた

テストしてもらえて助かります。ちゃんとテストしたはずなのに、公開するとバグが見つかる不思議

834 :名無しさん@お腹いっぱい。:2023/09/15(金) 03:30:01.32 ID:SxicWH5N0.net
bunkoOCR_20230915.zip アップロードしました。

>>833 の内容を直しました。
そのほか、NVIDIA以外のGPUの場合、
一番よさそうなGPUが1.8GB以上のメモリがある場合にDirectMLで動くと思います。

835 :名無しさん@お腹いっぱい。:2023/09/15(金) 20:00:00.84 ID:rObGG81S0.net
>>834
連日のアップデートありがとうございます
今回のバージョンでRadeonのGPU支援でのOCRができました
CPU使用率が2割ぐらいになり、代わりにRadeonの使用率が100%になりました
ファンが1000rpmでGPUの温度は80度前後で推移していたので長時間動かしても問題なさそうです
1分に4枚程度の処理速度はGeforceに比べるとすごく遅いんでしょうが、それでも私にとっては大感謝です

836 :名無しさん@お腹いっぱい。:2023/09/15(金) 23:28:48.12 ID:yvCdDh3I0.net
試してみて感動したので使用報告です。

環境 Core(TM) i5-12600K メモリ32GB(一部RAMディスク) GeForce RTX 3060Ti 
Windows11 bunkoOCR_20230915 使用

小説を1冊試してみました。(昔自炊したラノベ)
…うっかり事前にノンブル個所トリミング忘れ。
1.ノンブルが上の右か左の隅だったからか、生成されたtxtファイルの先頭1行目がノンブルだったので、chatgptさんに聞いて、一行目削除しながらtxt結合をパワーシェルで実行。
2.結合したtxtファイルの改行を全部消して、” ”もしくは”「”の前に、改行を挿入(なんかもうちょっとスマートな方法ありそう)
これでほぼほぼいけるtxt完成。半分くらい試読したけど、文字は9割8分がた認識OK。※”|”が”I”になるのと行頭の”「”の認識不良はちょこちょこあったけど読むのに支障はない。

報告
360ファイル一気に追加したら、「bunkoOCR.exe」がフリーズ。
右上の×でタスクの終了したら、「OCRengine」は動きはじめて、150ファイル程度jsonを出力して、消えた。
3回ほど試して同じ症状でした。
※「bunkoOCR.exe」のタスクを終了しないと5分ほど待ってもjsonの出力ははじまりませんでした。
なんとなくですが、ファイルパスを保管する配列の制限な気がします。"R\小説名 第01巻¥001.jpg"を360ファイル一気に追加するとフリーズしましたが、フォルダ名を変えて"R\a¥001.jpg"にすると追加できました。

久しぶりに携帯で自炊した小説読もうとしたら、画面が縦長になったこともあり文字が小さく読みにくく、読取革命の体験版を試して絶望してたところでした。
素晴らしいソフトありがとうございます。

837 :名無しさん@お腹いっぱい。:2023/09/15(金) 23:42:25.98 ID:yvCdDh3I0.net
追記;
正確には、こういう流れで試したので、2バイト文字とかではなく、パス長かなぁと判断した次第です。
1回目:"R\小説名 第01巻¥image-001.jpg"
2回目:"R\aaa¥image-001.jpg"
3回目:"R\a¥001.jpg"

838 :名無しさん@お腹いっぱい。:2023/09/16(土) 00:39:42.67 ID:ECc3An080.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-5

bunkoOCR_20230915を試してみました。

・Wineのエラーが出たああああああああ

ついに完全体が使えると思ったところで正直これはくやしいが、もともとWindows用のソフトを勝手にLinuxで動かしているので、直してとは言うまい。

エラーログの一部ですか、意味ありげな矢印があやしい?
---------
00000138 (D) E:\home\XXXX\ダウンロード\bunkoOCR_20230915\bin\OCRengine.exe
0000013c 0 <==
00000144 0
00000148 0
0000014c 0
00000150 0
00000154 0
00000158 0
0000015c 0
-----------

念のため、ver.914を消さないでおいてよかった。

幸い.jsonファイルから.txtに変換するツールの新バージョンは複数ファイルを一括選択できるので、テキスト化ツールをver.915に差し替えてver.914でOCRすることになろうか。

うーむ残念。

839 :名無しさん@お腹いっぱい。:2023/09/16(土) 02:52:37.88 ID:Cnx2YXrY0.net
GPUの判定のために、DirectXの関数を呼ぶようにしたのがよくないのかしら。
サーバー上には旧バージョンも保持しているので、ファイル名変えて落としてください。

というかLinuxで動くと便利かもしれないとも思った。

840 :名無しさん@お腹いっぱい。:2023/09/16(土) 19:07:38.27 ID:Cnx2YXrY0.net
>>0836
ひょっとして、半濁点とかの正規化の問題なのかも。そういった文字が入ってそうですか?

841 :名無しさん@お腹いっぱい。:2023/09/16(土) 23:02:23.97 ID:eNgZ5CS80.net
すごい精度ですね。文庫をtxtにして適宜加工、voiceoaekで出力して車で聞かせて頂いています。ありがとうございます。
私だけかもですが、起動して初回に、ふりがな無しのテキスト出力だけ選択、他の出力のチェックボックスを外して実行すると、jsonだげ出力されてtxtが出力されないみたいです。複数ファイルの時は二つ目からはtxt出力されてる。

842 :名無しさん@お腹いっぱい。:2023/09/16(土) 23:35:20.39 ID:VKdO3VUp0.net
>>840
とりあえず。以下でテストしました。
プログラム本体は、以下のパスにて実行"R:\bunkoOCR_20230915\bin\bunkoOCR.exe"
起動した[bunkoOCR.exe]にドラッグ&ドロップでファイルの追加
ファイル名は”007.bmp”~"325.bmp"までの計316ファイルを一回で追加
※今回はトリミングした時に一部表紙や白紙のファイルを除いていますので連番ではありません。

ファイルの位置を以下のフォルダ直下に置いて追加。
・”R:\新しいフォルダー” フリーズ
・”R:\aaaaaaaaaaaaaa” フリーズ
・”R:\aaaaaaa” 追加成功
・”R:\aaaaaaa\aaaaaaa” フリーズ
・”R:\a\a” 追加成功

フリーズの判定は、”タスクマネージャーでCPU・ディスクアクセスの数値が0になり、メモリの数値も変動しなくなって10秒程度経過したこと”としました。
1回だけは、フリーズ状態で5分程度放置しております。

最後に"半濁点"・"2バイト文字"・”ー”の可能性を考慮して、
ファイル名を”新ォダー001.bmp” ~”新ォダー316.bmp”にリネーム
・”R:\aaaaaaa” フリーズ
・”R:\a” 追加成功 

なので、ファイル名の半角・全角とかではなく、総パス長なのかなという想像ですが、プログラムは10数年前に大学時代に軽く触った程度なので自身はあまりない

843 :名無しさん@お腹いっぱい。:2023/09/17(日) 00:27:10.29 ID:6FdPC6Jr0.net
>>0841
検証ありがとうございます。

追加したときに、左側のリストに待ち行列が並ぶはずですが、フリーズしたときは
ここに追加されている状態でしょうか。
追加されていた場合は、bunkoOCR.exeの画面の一番下に出ているログはどんな文字で止まっていますか。
OCRengine.exeとやりとりして処理をさせているのですが、OCRengine側のどこを今処理しているかが
この部分に順次表示されています。

844 :名無しさん@お腹いっぱい。:2023/09/17(日) 01:44:43.68 ID:hTcgI3oY0.net
>>843
直前の表示で止まってます。”prosess start”もしくは”ready”など
ドロップインドロップした瞬間に、左側にスクロールバーが表示されますが、ファイル名は1行も追加されません。

あと、”jsonToText.exe”に”R:\小説名 第02巻” の”001.jpg.json”等ファイルを一気に追加は動作しました。が、
"bunkoOCR.exe"に”R:\小説名 第02巻” の”001.jpg”等ファイルを一気に追加はフリーズしました。

845 :名無しさん@お腹いっぱい。:2023/09/17(日) 02:08:02.28 ID:6FdPC6Jr0.net
>>0837
Ubuntu 22.04でWineを入れて試して見たところ、CPUモードだとちゃんと動くっぽい
OCRengine.exeの方をコマンドラインで動かして、readyって表示されるところまで行かない感じですか。
多分GPUのロード処理で新しく追加したところが怪しいのですが、いま良いGPUはお仕事中なので
別のLinuxでしか試せなくてよくわからん感じです。GPUが空くまでお待ちください。

>>0841
こちらで検証してみたら、原因がわかりました。
処理すべきファイルのリストを、OCRengine.exeに送って処理してるのですが、
多数のファイルが一気に追加されたときに待ち行列が溢れる状況になり、
(パイプで送っているけども標準入力のバッファがいっぱいになる)
追加が途中で詰まるようです。
バッファサイズは4Kバイトらしいので、ファイル名を短くするとバッファに入りきるため
固まらないようです。
この部分の処理を調整しましたので、あとでアップロードしておきます。

846 :名無しさん@お腹いっぱい。:2023/09/17(日) 02:43:37.83 ID:6FdPC6Jr0.net
bunkoOCR_20230917.zip アップロードしました。

一気にファイルを追加したときに固まるのを修正しました。

847 :名無しさん@お腹いっぱい。:2023/09/17(日) 18:47:17.09 ID:Y9TuI/LZ0.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-6

bunkoOCR_20230917を試してみました。

・今度は動いた!?

神のubuntu環境では動いたらしいし、これがあるからLinux版を作って欲しいとか安易に言えんのよな、GMバリエーション並に種類だけはあるから……とダメ元でVer.917を試したところ、起動しても『重大な問題が発生したため……云々』という例の文言が出てこない。

え? もしやと思って別ドライブの.tifファイルを複数指定してみると、OCRが始まった!
やった、さすがは神! と思ったら、プロセスはちゃんと仕事してたのに.jsonファイルができていない……。
また次元の谷に落ちたか?

↓さすがにファイルパスが長かったのでしょうか?
E:\media\xxxx\62F8754E43FDBE64\■■■■\●● ●●●●\ノンブル除去済み種\out\1009.tif

まあ動くだけいいかと起動ドライブ側のファイルを指定したら、いつもの文言が出てダメだった。
というか何で最初の1回だけ動作したのだろう?

ウィンドウは起動するが、ステータス欄の『process start』が出た辺りで例のエラーメッセージが出てしまう。再起動してみたがやはり同じ。

ま、まあLinux者としてはVer.914にバッファ問題を解決したjsonToText.exeの併せ技で十分しのげるから、高望みは慎もう。

848 :名無しさん@お腹いっぱい。:2023/09/17(日) 18:49:35.65 ID:6FdPC6Jr0.net
bunkoOCR_20230917b.zip アップロードしました。

>>0837
GPUの判定処理を分離して、失敗した場合CPUフォールバックするようにしました。
多分sshでX転送してると思うのですが、ディスプレイが存在しない場合WineでD3Dの
関数が失敗します。この場合は、どっちみちDirectXだと速度が出ないのでCPUに落としています。

849 :名無しさん@お腹いっぱい。:2023/09/17(日) 18:53:34.19 ID:6FdPC6Jr0.net
>>0846
すみませんjsonファイル作るときに20230917だと上書きのミスがあるかもです。
元ファイル確認してください。末端のヌル文字を抜き忘れてjsonが足せてないファイルに書いた可能性が。

850 :名無しさん@お腹いっぱい。:2023/09/17(日) 21:56:52.74 ID:Y9TuI/LZ0.net
>>848
>>849
折角神に骨折っていただいのに、残念ながらVer.917bでも起動後にエラーが出てダメでした。

あとjsonToText.exeで対象ファイルを一括選択したくて。Ctrl+Aを押しても反応せず、Shift+→でまとめて選択しようとしても、なんか反応が遅いです。

851 :名無しさん@お腹いっぱい。:2023/09/17(日) 22:52:44.22 ID:6FdPC6Jr0.net
>>0849
エラー出るけども、別のexeに分けたので無視して続けるとそのまま処理できませんか?
jsonToText.exeでCtrl+Aが効かないのは、wineの方が悪い感じがします。Windows11だと効くので。
なんかフラグ足したらましになるとかありますかね(クラシックモードなら効くとか)

852 :名無しさん@お腹いっぱい。:2023/09/18(月) 00:44:25.25 ID:kMx4hZfp0.net
>>851
エラーが出てもあまりにも堂々とウィンドウが出ているので、ファイルを選択して食わせるまではできるのですが、ステータスに"Host version: 5.10.0-25-amd64"と出て、そこから先がいくら待っても進まないですね。残念ながら。

jsonToText.exeでCtrl+A不可の件、大変失礼しました。
連日のように付き合っていただいているというのに。

Wineのモード? もwindwos7相当からWindows10相当にしてもダメでした。
それにしても、何であの一回だけ動いたんだろう……。

853 :名無しさん@お腹いっぱい。:2023/09/18(月) 08:36:49.25 ID:0SjZIDuo0.net
>>852
Ver.917bのOCRengine.exeだけを、直接wineで実行したらどこで止まりますか。

wine OCRengine.exe
wine OCRengine.exe 0
で、エラーは変わりそうですか。
上はCPUモード、下はDirectMLモードになるようにしています。

試してて気付いたのですが、winehq-devel まで上げるとエラーウインドウ出ないような気がします。

854 :名無しさん@お腹いっぱい。:2023/09/18(月) 09:58:23.02 ID:0SjZIDuo0.net
bunkoOCR_20230918.zip

パラメータが保存されているparam.configをテキストエディタで開き、
use_GPU:0に書き換えるとDirectMLを使用しないように強制できます。

wine OCRengine.exe
で落ちないようなら、use_GPU:0にしてもらうと処理できるようになると思います。

855 :名無しさん@お腹いっぱい。:2023/09/18(月) 11:05:06.87 ID:kMx4hZfp0.net
早朝からすいません。
CPUモードなら正常、ということでしょうか。

wine OCRengine.exe の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
OpenVINO
OpenVINO
OpenVINO
ready
--------
23行目のredyまで実行。エラーウィンドウは出ない。

wine OCRengine.exe 0 の場合
--------
MESA-INTEL: warning: Performance support disabled, consider sysctl dev.i915.perf_stream_paranoid=0
(略)
00c8:fixme:ntdll:NtQuerySystemInformation info_class SYSTEM_PERFORMANCE_INFORMATION
wine: Unhandled exception 0xc06d007e in thread c8 at address 000000007B037FC8 (thread 00c8), starting debugger...
013c:fixme:imm:ImeSetActiveContext (0x154e00, 1): stub
013c:fixme:imm:ImmReleaseContext (0000000000010064, 0000000000154E00): stub
006c:fixme:imm:ImeSetActiveContext (0x15dba0, 0): stub
006c:fixme:imm:ImmReleaseContext (0000000000010020, 000000000015DBA0): stub
--------
19行目までは同じ。25行目が出てエラーウィンドウが出る。

今Ver.918をダウンロードしてますので、追試結果はもう少々お待ちください。

856 :名無しさん@お腹いっぱい。:2023/09/18(月) 11:22:23.69 ID:0SjZIDuo0.net
こっちで考えた状態であってたようです。DirectMLでロードしようとすると落ちちゃうようですので、
Ver.918でuse_GPU:0に書き換えて実行すると、とりあえずは動くようになりそうです。

857 :名無しさん@お腹いっぱい。:2023/09/18(月) 11:49:45.66 ID:kMx4hZfp0.net
Windows版bunkoOCRをMX-Linux上のWine6.22で実行してみた-7

bunkoOCR_20230918を試してみました。

・私にとっての戦争は終わりました

素で起動するとやはりエラーになったが、神の指示に従いparam.configの"use_GPU:1"を"use_GPU:0"に書き換えて保存/実行したところ、エラーウィンドウは現れず、ドライブをまたいだ別ドライブ中の日本語フォルダの.tif画像を複数指定でき、画像と同じファルダ内に.jsonファイルができあがりました!!

ここまで対応していただいた神に感謝します。

858 :名無しさん@お腹いっぱい。:2023/09/18(月) 12:29:17.11 ID:0SjZIDuo0.net
linuxでGPUの方がよければ、CUI版にしてfind inputdir -name '*.png' | OCRengine -
とかできるようにもできるけど、需要あるのかしら。
Linuxの民なら、オリジナルのpython版で実行しそうな気もする。

859 :名無しさん@お腹いっぱい。:2023/09/21(木) 18:58:09.85 ID:IZK9wj/L0.net
AozoraEpub3の説明
青空文庫をEPUBやMOBIファイルなどに変換して、kobo、kindle,などのEPUBリーダーなどで読むことができるソフトウェアです。作成したEPUBは電子書籍販売サイトで販売できるので、電子出版ツールとしても使うことができます。
https://github.com/kyukyunyorituryo/AozoraEpub3/wiki

860 :名無しさん@お腹いっぱい。:2023/09/21(木) 23:06:22.12 ID:LsrnBNJV0.net
むしろepubを青空文庫形式に変換してくれるツールが欲しい。
縦書きルビ入りとかきれいに表示してくれるソフトがあんまないから。

861 :名無しさん@お腹いっぱい。:2023/09/22(金) 06:50:57.37 ID:dJI/QveM0.net
>>860
半自動で変換するツールなら作った。
HTMLのタグを変換と削除、ルビの変換、UTF文字のタグ変換くらいだが。
画像やタグの追加は全自動化出来ないので手動だが。

862 :名無しさん@お腹いっぱい。:2023/10/02(月) 15:23:29.76 ID:dw1v1evD0.net
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな

863 :名無しさん@お腹いっぱい。:2023/10/02(月) 15:23:46.66 ID:dw1v1evD0.net
bunkoOCRに読み込ませる画像ファイルは、縦横256ピクセルの倍数のサイズが効率よいのかな

864 :名無しさん@お腹いっぱい。:2023/10/03(火) 06:17:08.75 ID:8+ujl4QD0.net
512 x 512に区切って処理してて、256でウインドウをスライドさせているので256の倍数だと
最後のブロックに余りが出ないですね。

865 :名無しさん@お腹いっぱい。:2023/10/04(水) 20:44:44.74 ID:vRUF6acm0.net
>>861
ベクターあたりでの公開希望

866 :名無しさん@お腹いっぱい。:2023/10/09(月) 23:35:14.38 ID:WG0A8Uhb0.net
iOS17から縦書き日本語が読み取れるようになった
APIなりSDKあれば縦書き日本語OCRでは最強かもしれん知らんけど
ペラ紙書類の縦書きはもうiPhoneで完結だわ

867 :名無しさん@お腹いっぱい。:2023/10/19(木) 07:36:34.92 ID:zGVZ5rc10.net
>>0860
私もEPUBから青空文庫形式への変換を試みています
がEPUBの仕様の自由度が高くて難航しています。
出来れば公開してほしいです
お願いいたします。

868 :名無しさん@お腹いっぱい。:2023/10/19(木) 09:00:07.52 ID:9iReVXET0.net
公開するとメンテナンスしなきゃならないし、バグ対象はともかくおま環にまで対応しなきゃならないしエラー処理も細かく作らなきゃならないからヤダ。

869 :名無しさん@お腹いっぱい。:2023/10/19(木) 09:27:27.40 ID:bNKbLe6D0.net
epub, mobi →青空文庫の変換は対応タグに違いがいろいろあって、青空文庫では調整できないのも多いし、一部は標準化されてなくてビュアーごとの独自拡張だったりする。
結局、書籍の特徴や自分の好みや使ってるツールに合わせて決め打ちで変換することになる。汎用のツールを作るのは無理。

870 :名無しさん@お腹いっぱい。:2023/10/30(月) 01:26:39.09 ID:zJhf5BLT0.net
>>867
https://kyukyunyorituryo.github.io/aozora/

871 :名無しさん@お腹いっぱい。:2023/10/31(火) 01:41:42.92 ID:dvkv99P10.net
pdfに画像透明テキスト埋め込みするのって最適のライブラリって何かあるですか?
縦書きに対応は必須で、ふりがなに対応できるとうれしい。
それとも、コピペするとき不便だから、ふりがなは除去して埋め込むのが普通ですかね

872 :名無しさん@お腹いっぱい。:2023/11/05(日) 14:23:45.25 ID:0L6HLOnn0.net
PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて

873 :名無しさん@お腹いっぱい。:2023/11/05(日) 14:24:06.46 ID:0L6HLOnn0.net
PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて

874 :名無しさん@お腹いっぱい。:2023/11/05(日) 14:24:11.27 ID:0L6HLOnn0.net
PC画面の文字を認識して即翻訳できるソフトってありますか?できれば\0〜1000以内で、
無料のCapture2Text試しましたが使い物にならなくて

875 :名無しさん@お腹いっぱい。:2023/11/05(日) 15:35:03.26 ID:UJ3RQ2Wr0.net
使ってないから違うかもだがCapCapはどう?

876 :名無しさん@お腹いっぱい。:2023/11/05(日) 15:46:34.82 ID:dDirpvM+0.net
スマホのGoogle翻訳アプリで画面撮影。

877 :名無しさん@お腹いっぱい。:2023/11/07(火) 11:11:28.34 ID:g1O/GcqC0.net
bunkoOCRの作者様へ
要望が有ります
1.
ルビに関係ない所に挿入された特殊文字(U+FFF9からU+FFFB)は、無視してほしい
2.
行頭の全角スペースと”「”の認識精度を上げてほしい
3.
青空文庫形式での出力時は以下の文字を置換してほしい
ルビ以外外での「《」を「[#始め二重山括弧]」に
ルビ以外外での「》」を「[#終わり二重山括弧]」に
縦書き未対応の記号の「≪」を「[#始め二重山括弧]」に
縦書き未対応の記号の「≫」を「[#終わり二重山括弧]」に
★変換したい文字は、ファイルで指定できればなお良い
4.
空行も出力してほしい
自炊小説の場合は空行も重要です

878 :名無しさん@お腹いっぱい。:2023/11/07(火) 13:45:16.04 ID:EgBq2MV30.net
>>874
PCOTならデスクトップは無理だがアプリ内OCR&翻訳はいける

879 :名無しさん@お腹いっぱい。:2023/11/08(水) 19:09:27.13 ID:EULq7AvV0.net
>>0873
ソフトウェアとして配布はされていませんが
以下のリンク先の記事は参考になりませんか?
ttps://qiita.com/gabigabi/items/2c58eb9a500fc0b33e19

880 :名無しさん@お腹いっぱい。:2023/11/09(木) 02:26:10.64 ID:cayyqdYs0.net
>>0876

ルビが変なところに認識されるのは、孤立したものを除くルーチンがバグっているので直します
今、認識エンジンを再学習させているので、行頭の認識ももう少し改善する予定です
文字置換は、なにか変換テーブルを作ればいいのかしら
空行については、実は仕組み上めっちゃむずいのでちょっと考えます。

文字のブロックの座標は取れるのですが、その間隔が何行に相当するかをちゃんと
算出するのがかなりむずい。
今は、ブロックごとに空行を1行挟んで出力しています。
章番号とかも明後日に飛んでいくので、本当は間にちゃんと挟みたいのですが。

881 :名無しさん@お腹いっぱい。:2023/11/09(木) 05:17:19.73 ID:HO7qvDxE0.net
>>880
876です
回答ありがとうございます。
改善に期待しています
さて、文字の置換については
>>文字置換は、なにか変換テーブルを作ればいいのかしら
この方向でお願いします
実装して頂けるのであれば、ルビの表記の変換前に挿入して下さい
青空文庫形式の時のみの仕様ですので、他の形式には影響が
無いようにお願いします。

882 :名無しさん@お腹いっぱい。:2023/11/10(金) 21:38:20.35 ID:qu/YelkG0.net
Googleレンズみたいにリアルタイムにレシートを読み取ってくれるのがないか検索。

https://www.isp21.co.jp/solution/quickdata/
リアルタイムテキスト解析
独自のかざしOCR技術

spexperts が かざしOCR を利用
spexperts は LINEレシートを提供

でもLINEレシートは写真撮影してから解析で時間かかる。かなり正確だけど。

883 :名無しさん@お腹いっぱい。:2023/11/11(土) 00:14:35.40 ID:bRi6xLZA0.net
memo

>>882
特許6435017

総レス数 883
303 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★