项目 | 内容 |
---|---|
课程 | 2020春季计算机学院软件工程(罗杰 任健) |
作业要求 | 团队项目选择 |
项目名称
FOTT
项目内容
在OCR-Form-Tools开源项目的基础上,扩展功能,支持演示更多的API,例如看本账户有多少个模型;支持更多的应用场景,例如生成支持编程小白直接运行的python代码,只要提供endpoint和app key即可直接开始运行极大地简化上手难度和编程操作等。
Need
对于各类有大量表单数据录入的企业或机构而言,如何实现大量纸质表单的快速智能电子化非常重要,针对票据表单的OCR表格识别技术在表格数据采集和应用之间架起高速通道。本项目可以节省大量的数据录入工作量、大大加快数据录入的效率、提高数据录入的准确性、并实现大量纸质表单原图的安全保存,能够满足各行各业的需求,让公司的业务摆脱手工。并且现在OCR的市场已经比较成熟,比如银行、保险、金融、税务、海关、公安、边检、物流、电信工商管理、图书馆、户籍管理、审计等很多行业都已经应用了OCR技术。而OCR-Form-Tools开源项目的在线工具部署在Azure上,国内访问比较困难,其他方法需要较高的计算机能力,因此我们的项目对没有较强计算机能力或网络环境的文字编辑非常友好。
Approach
项目基于微软的OCR Form Labeling Tool,将其他的功能开发成可视化程序,主要从两个角度开发:
-
基于微软FOTT的API接口,扩展功能,完善当前的Web应用
因为原应用是一个React + Redux Web应用,使用TypeScript语言(是JavaScript的超集,最终会被编译为JavaScript代码)开发 ,这也是我们进行扩展开发所使用的技术;
-
基于已有的逻辑生成Python代码,便于开发者调试和测试
技术基于React和TypeScript。
因为我们组大部分队员都很少有大型项目开发的经验。这次能够基于微软开源的项目的进行功能开发和完善是一个很好的平台,也是很大的挑战;我们也有很多需要学习的新知识和理论,并且在不算充足的时间里应用于实践,大概也能让我们很好的体会"敏捷开发"。在实践开发过程中,肯定会面临很多困难,但是作为一个团队前进,大家也一定会交流探讨,互帮互助,各司其职;再加上课程组和微软高级工程师专业的指导,大概也会是approach的buff加持。
Benefit
- 容易上手、操作简单,不需要较高的编程能力或专业知识背景;
- 文本分割粒度细,正确率较高;对手写字体也识别精准;
- 用户可以手动更改各种表单训练集,标记tag再训练模型,可选取任意信息输出,实现重要信息的识别提取和不重要信息的过滤;
- 功能丰富、形式多样,支持表格、收据等多种API;格式支持广泛,常见的图片、pdf均可;
Competitor
现在市面上有多种OCR识别软件、但这种专门是针对表单的OCR项目却并不多见。
以睿琪票据智能识别平台为例,只提供了发票、火车票等相关功能,不能实现任意表单的任意数据的提取。
同时,我们的项目能够实现让没有多少编程经验的人放心使用,而市面上的大多数工具只是提供了一个API接口,具体代码需要自己实现,对没有编程能力的使用者非常不友好。
Delivery
- 主要网站上线,参考:https://fott.azurewebsites.net/
- 源码:github(支持本地编译按照使用,需要一定的计算机知识,提供教程也是不错的选择)
- 前期主要考虑在同学、老师中宣传,搜集初步的应用反馈(调查问卷等);后期可以考虑通过知乎、公众号等进行推广。
用户量评估
发布一周,预估用户量400。
要点组合
各位领导/合作伙伴: 我们的 OCR功能增量开发以及API的完善是为了解决个人和企业面对大量表单数据以及OCR工具上手不易的痛苦, 他们需要获取各类表单(pdf、卡证、票据等)的数据进行自动识别、信息抽取、审核、对比等, 但是现有的方案并没有很好地解决这些需求,我们有现已较成熟的基于React和TypeScript的技术来支持相应功能的实现, 它能给用户带来易上手、个性化可定制、精准识别、功能完善的使用体验, 远远超过竞争对手 天若OCR、睿琪票据智能识别平台等,包括我们以前的版本。我们相信新的改进能给我们带来更多用户以及落地的实用性改善,甚至应用于商业领域。值得期待。