基于本地文字提取的有效的定位和识别场景文字

基于本地文字提取的有效的定位和识别场景文字

　　一种无约束的端到端的文本定位和识别方法。首先用一个基于区域的方法对文本区域检测，然后更新文本区域用更加健壮（迭代）的方法。并且介绍一种基于笔画的方法，该方法有效的应对字符的大小变化，旋转，即使只捕捉到文字的小片段。

　　场景识别又被称为是图片OCR。现在的滑窗技术的一个缺点是：窗口数会随着文本的不同大小旋转方向等因素急速增长。而基于连通域的方法对于一个连通域是一个单独字符还是一个字符的一部分处理的不好，而且对于若干字符粘连不可行。本文提出一种新方法，受启发于：任意的字符都是有一些笔画组成。因此，我们的方法无论是一组连通域，或者是字符的一部分，都可以有效识别。

　　本篇论文主要内容：

　　0.介绍一种新的端到端的字符定位和检测的方法。

　　1.介绍一种新的基于字符笔画面积估计的特点，该特点可以从一个区域距离图中计算出来。对于字符大小和旋转具有不变性。

　　

　　方法：

　　0.初始候选者利用MSER方法检测出来。

　　1.字符/多字符/背景的分类，字符和多字符被用来初始化一个本地文本模型，背景分类丢弃。用SVM进行分类，核函数取适用于线性不可分的RBF核函数，而不选择适用于线性可分的linear核函数。

　　2.文本线假设

　　3.迭代分割

　　4.文本识别

　　结论：

　　0.SSPs方法在ICDAR2013上 ICDAR2013 包含1189个单词，6393个字符在255张图片中，77.1%的F-measure的准确率, 72.4%的召回率，81.8%的精确率。

　　1.在一个2.7GHz的电脑上，每张图片平均800ms

　　

　　

　　
相关阅读:
make_shared和shared_ptr的区别
 bitcoined
ofstream的使用方法--超级精细。C++文件写入、读出函数（转）
visual studio 安装过程
 Socket通信原理探讨(C++为例)
以太坊的记录和关注点
 以太坊的应用
 以太坊
 比特币、以太坊
 c++
原文地址：https://www.cnblogs.com/soulmate1023/p/5398872.html