[转]OCR----你不得不知的Tesseract六大重要核心

[转]OCR----你不得不知的Tesseract六大重要核心
转载地址：http://blog.csdn.net/guzhenping/article/details/51035077

Abstract

整理了很多OCR的资料，这篇主要是对Tesseract重要的知识进行总结罗列。本次总结，基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》，所以算是论文导读吧。PS：Smith是一个专注OCR领域30年的男人~~太可怕了！

这篇文章的重点是在文本行的查找，特征/分类的方法，以及自适应分类器。此外，文章中介绍了Tesseract发展历史，我就略过了，只谈技术相关。

1. Architecture

先谈Page Layout Analysis技术，它在OCR领域是个很重要的部分，因为算是文字识别的准备工作。但是，早期的Tesseract没有这项技术，因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。

没记错，就是Tesseract 3.x系列，但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测，我猜快做完了吧….

这篇论文里的（旧）Tesseract假设：其数据源是已定义的可选多边形文本域的二进制图片。

Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.

再谈处理过程。分两步：（1）connected component analysis，然后得到Blobs. （2）从Blobs中得到文本行，然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。

最后谈识别过程。分两步：（1）通过一个一个地识别单词训练自适应分类器（adaptive classifier），classifer将得到更高的几率能正确识别单词。（2）识别整个页面。

2. Line and Word Finding

概括来说，先找文本行（lines）,再找基线（baseline），然后将单词（word）切割成字符（character）。

细细来讲三点：
- 找文本行所用的算法参见：《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
- baseline使用的二次样条曲线（quadratic spline），参考资料：《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
- 通过固定间距检测（fixed pitch detection），把单词切成字符。对于没有固定间隔的文本，即成比例单词（proportional word），采用计算baseline和mean line之间的空隙垂直范围。
致歉

这篇博文在我的草稿箱放了太久，不公布出来就是浪费。但是，目前的内容非常对不起文章标题。按照题目，我还会写：
- 3 Word Recognition
- 4 Static Character Classifier
- 5 Linguistic Analysis
- 6 Adaptive Classifier
如果这篇博文反响还不错，我将继续下去。Sorry~Everyone~

结语

我还健康的活着，有问题欢迎交流！这里在大牛面前，班门弄斧，实在不好意思哈~欢迎指正！

有问题可以在我的微信公众号“谷震平的专栏”提出，当天答复。欢迎，扫描下方二维码，回复“Tesseract”，即可得到《An Overview of the Tesseract OCR Engine》（我个人进行了注释、翻译）的阅读链接。
文章列表



版权声明：本文为博主原创文章，未经博主允许不得转载。
相关阅读:
Quartz
WebService
JavaMail
安装phpnow服务[Apache_pn]提示失败的解决方法
 idea安装激活
 csdn下载
 java解析json串常识
 Oracle错误——ORA-03113:通信通道的文件结尾
 SSM（Maven集成）
SpringMVC的拦截器
原文地址：https://www.cnblogs.com/Crysaty/p/6094247.html

[转]OCR----你不得不知的Tesseract六大重要核心

转载地址：http://blog.csdn.net/guzhenping/article/details/51035077

Abstract

1. Architecture

2. Line and Word Finding

致歉

结语