Tesseract-OCR -01-Tesseract 介绍
OCR(Optical Character Recognition):
- 光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程
- Tesseract - OCR 引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封
- 数年以后,HP 意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生
- 在2005年,Tesseract 由美国内华达州信息技术研究所获得,并求诸于 Google 对 Tesseract 进行改进、消除Bug、优化工作,Tesseract 由惠普公司宣布开源
- 从2006年到现在,都由 Google 公司开发维护
Tesseract - OCR 特性
- 目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言
- 源码包提供了一个OCR的引擎——libtesseract 以及一个命令行程序——tesseract.exe
- Tesseract 支持多种输出格式,如:普通文本、html、pdf 等
对于开发者
- 开发者可以使用libtesseract的C/C++接口来构建自己的程序
- Tesseract从源码生成的文档可以在tesseract-ocr.github.io中找到
我的 Tesseract 随笔
- Tesseract-OCR-02-Tesseract-OCR 的安装与 环境变量配置
- Tesseract-OCR-03-图片文字识别
- Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率
- 本笔记不允许任何个人和组织转载