3月8日
开源的OCR库,Opensourced OCR library
突然想起如何做一个论坛的发帖机,但是现在多数都要图片认证,需要一个OCR库来识别图片。于是在网上找了找,还真是有很多实现:
- OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html
- Clara OCR, http://directory.fsf.org/claraocr.html
- Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
- OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
- sf.net上还有很多正在进行的项目,不过大多数还停留在设想阶段
现在的问题,是测试这些库。不过猜测,这些OCR对付国内的网站还行,像MSN这样的图片肯定无效了。
下载这些程序分别测试了一下,
gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。
OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。
测试了一下sina, baidu, taobao,他们都或多或少做了干扰噪音,所以基本不能识别。
用gocr能够正确识别的最好情况是能够正确识别4个数字中的3个。
看来在没有对图片作预处理之前,这种识别方式基本不可行。
还没有开始就已经结束了。