1.什么是OCR?
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
2.OCR典型应用有哪些?
全文识别:创建可检索文档
当文档以图像,传真或者扫描文档形式存在时,是不容易进行搜索的。OCR可将文本图像转换成实际可搜索的文本。Google Desktop 和Windows Desktop Search可为这些带有OCR识别的PDF文件和XPS文件编索引,使你通过常规的文本搜索找到所需文件。
区域识别:表格填报
在日常工作和生活中,保单,纳税申报,发票和支票等都会涉及到表单。如何使表单处理轻松而快速呢?绝大多数表单处理解决方案都是通过OCR来收集打印数据,ICR 来收集手写数据,OMR来检测所填数据。结构化的表单处理通常采用分区OCR和ICR。
3.OCR识别率取决于哪些因素?
1.扫描分辨率:不求最“高”,只求最“佳”。根据经验,五号印刷体采用250~300dpi比较合适;字号比较大(四号以上),用150~200dpi就足够了;
2.对比度:为了达到最佳的识别效果,对输入稿件在扫描时的要求是清晰,使扫描文件黑白分明,有利于软件的识别;
3.偏斜程度:现在的OCR大都采用字模识别的方式,因此图像如果有一定程度的倾斜,就会严重影响识别效果,一方面需要尽量摆正扫描文件,另一方面还需要使用软件进行偏斜校正;
4.图片模式:一般对彩色模式识别很差,黑白模式(Line/art)的图片识别较好;
5.字体:印刷体识别率高,手写体识别率很低,需要人工校正;
4.OCR开源项目
1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html
2.Clara OCR, http://directory.fsf.org/claraocr.html
3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
4.GOCR, http://sourceforge.net/projects/jocr
5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
6.Tesseract, http://code.google.com/p/tesseract-ocr/
5.一些OCR工具
1.gscan2pdf: