Tesseract-OCR -01-Tesseract 介绍 - 润新知

Tesseract-OCR -01-Tesseract 介绍
Tesseract-OCR -01-Tesseract 介绍

OCR(Optical Character Recognition)：
- 光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程
- Tesseract - OCR 引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封
- 数年以后，HP 意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生
- 在2005年，Tesseract 由美国内华达州信息技术研究所获得，并求诸于 Google 对 Tesseract 进行改进、消除Bug、优化工作，Tesseract 由惠普公司宣布开源
- 从2006年到现在，都由 Google 公司开发维护
Tesseract - OCR 特性
- 目前，Tesseract可以识别超过100种语言。也可以用来训练其它的语言
- 源码包提供了一个OCR的引擎——libtesseract 以及一个命令行程序——tesseract.exe
- Tesseract 支持多种输出格式，如：普通文本、html、pdf 等
对于开发者
- 开发者可以使用libtesseract的C/C++接口来构建自己的程序
- Tesseract从源码生成的文档可以在tesseract-ocr.github.io中找到
我的 Tesseract 随笔
- 本笔记不允许任何个人和组织转载
相关阅读:
. Embedding Python in Another Application¶
hive wiki
PC机与ARM板的聊天软件
 Hadoop hive 运行examples例子 andy030611的日志网易博客
 Notes on Ubuntu (Linux) computing
数据结构利器之私房STL（上）
Embedding Python in C/C++: Part I CodeProject
linux下dup2的实现
 单台服务器上安装Hadoop和Hive十五分钟教程
 Data Structures with C++ Using STL Chapter 3算法概述笔记
原文地址：https://www.cnblogs.com/xpwi/p/9604304.html

Copyright © 2020-2023 润新知