• OCR学习之一:OCR简介


    1.什么是OCR?

    OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

     

    2.OCR典型应用有哪些?

    全文识别:创建可检索文档

    当文档以图像,传真或者扫描文档形式存在时,是不容易进行搜索的。OCR可将文本图像转换成实际可搜索的文本。Google Desktop 和Windows Desktop Search可为这些带有OCR识别的PDF文件和XPS文件编索引,使你通过常规的文本搜索找到所需文件。

    区域识别:表格填报

    在日常工作和生活中,保单,纳税申报,发票和支票等都会涉及到表单。如何使表单处理轻松而快速呢?绝大多数表单处理解决方案都是通过OCR来收集打印数据,ICR 来收集手写数据,OMR来检测所填数据。结构化的表单处理通常采用分区OCR和ICR。

     

    3.OCR识别率取决于哪些因素?

    1.扫描分辨率:不求最“高”,只求最“佳”。根据经验,五号印刷体采用250~300dpi比较合适;字号比较大(四号以上),用150~200dpi就足够了;

    2.对比度:为了达到最佳的识别效果,对输入稿件在扫描时的要求是清晰,使扫描文件黑白分明,有利于软件的识别;

    3.偏斜程度:现在的OCR大都采用字模识别的方式,因此图像如果有一定程度的倾斜,就会严重影响识别效果,一方面需要尽量摆正扫描文件,另一方面还需要使用软件进行偏斜校正;

    4.图片模式:一般对彩色模式识别很差,黑白模式(Line/art)的图片识别较好;

    5.字体:印刷体识别率高,手写体识别率很低,需要人工校正;

     

    4.OCR开源项目

    1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html

    2.Clara OCR, http://directory.fsf.org/claraocr.html

    3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

    4.GOCR, http://sourceforge.net/projects/jocr

    5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

    6.Tesseract, http://code.google.com/p/tesseract-ocr/

     

    5.一些OCR工具

    1.gscan2pdf:

  • 相关阅读:
    关于编码问题
    期中架构之前所有的命令-总结
    Bootstrap表格添加搜索栏
    Bootstrap表格分页(二)
    Bootstrap表格分页(一)
    Entity Framework 分页处理
    Protocol Buffers v3.0.0编译安装小记
    golang学习笔记
    Java 对象生命周期
    Java 操作符
  • 原文地址:https://www.cnblogs.com/yefengmeander/p/3472136.html
Copyright © 2020-2023  润新知