...pudding - diary

この日記は https://yapud.hatenablog.com/ に引っ越し中


2006-02-27

_ [Software] SmartOCR Lite Edition

PDF 化が世の中の流れなのは良いんだが。

今日俺のところに来た PDF ファイルは印刷物をスキャンしたものだった。

部品発注先の WEB サイトのページを紙に印刷して、それを画像としてスキャンして PDF にして送ってくれたのだった。 紙は無駄だしデータサイズは大きくなっちまうし。 もったいないづくし。

PDF 直接生成するツール持ってないのは仕方ないとしよう。 WEB サイトなんだから、文字情報なんだから、文字情報のコピペだけで良いよ。その画像を見てまた打ち直す俺の身にもなってくれ。

というわけで OCR に頼ることにしてみた。Free なのを、ってことで SmartOCR Lite Edition

結構普通に認識するねえ。 いいねえ。

ただ、データのソースとしては PDF を使えないのだ。じゃあ PDF から画像を取り出すにはどうする?

Xpdf パッケージに含まれる pdfimages で解決。

pdfimages pdffile.pdf image とすると image-000、 image-001、 と連番で出力してくれる。

ところが出てきたデータは白黒二値の pbm ファイルだったので、このままじゃ OCR ソフトが読んでくれない。どうする?

Netpbm パッケージに含まれる ppmtogif で解決。

ppmtogif image-000.pbm > image-000.gif

俺のいるオフィスでは富士ゼロックスの複合機を使っている。 スキャンしたものを画像として PDF に収めてメール送信してくれるのが便利。

メール送信先のアドレスをいちいち入力するのは面倒だろうということで、LDAP でのディレクトリ検索ができる。

Domino はもちろん LDAP に対応していて、Domino ディレクトリを LDAP 経由で検索できるので、複合機の LDAP 参照先を Domino サーバにした。 社員の皆さんはこれでサクサクとメールアドレス検索ができるのだ。

ある日、複合機のメンテに来たエンジニアさんか営業さんか知らないけど、そういう人が「全社員のアドレス入力したんですか? えっ? LDAP? こんなことできるんですね!」って驚いてた。

ちゃんと知ってて売ってくださいよ。


2006年
2月
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28
Twitter : @moriya_jp