• C# 使用Microsoft Office Document Imaging(MODI) 识别 图片中的文字(OCR)


    今天才知道有这个东西,于是查了一下资料,发现真是个好东西,不过等真正用起来,才发现问题重重

    一、我安装的office2010,已经没这玩意了。按照微软的建议,利用office2007安装包来单独安装了这个组件。

    (后来在csdn上发现有人分离出来了MODI的安装包,但我没有测试,不知可用否)

    二、在win7 系统上跑,会报错,而且错误写的并不详细,后来查了一下资料,说是要安装office2007 sp2 ,我去。。。。

    后来在一个贴子的回复中,看到说,需要将项目生成设置成32位系统才行,我试了一下,果然可以了,评论永远都是亮点

    三、如果图片的格式和扩展名不一致,则会报错,同时图片高度和宽图不能太小,小了也会报错。

    四、通过代码中的一些内容可以发现,MODI其实相当的粗糙,并不能算是专业的组件。目前好像一定要通过文件才能读取,直接传一个image的参数是没有的,而且识别完了之后好像一直占用该图片文件,没有办法,只能用以下办法强制处理了。

    md.Close(false);
    md = null;
    GC.Collect();

    五、识别率其实真的不怎么样,我通过调整图片中文字的大小,还有字体,可以达到比较高的识别率。

    六、做这个的目的,就是为了获取某个软件界面上的一些内容,没有办法,用金山词霸都取不到,我想还是算了,真的是绕了好大一个弯子。。。。

  • 相关阅读:
    c#.net分类上升达人~~~呵呵。。。
    js5:框架的使用,使框架之间无痕连接
    搭建 redis 集群 (redis-cluster)
    写好用户故事的10个提示
    什么是用户故事及用户故事在敏捷开发中如何编写
    java开发手册
    性能优化指南:性能优化的一般性原则与方法
    大型网站技术架构:摘要与读书笔记
    用MyEclipse JPA创建项目
    深入了解 JPA
  • 原文地址:https://www.cnblogs.com/szyicol/p/3017029.html
Copyright © 2020-2023  润新知