如何把一本书扫描入库？

如何把一本书扫描入库？
@原文地址请关注私人博客: http://www.lotushy.com/?p=100

先谈方法
- 切书
- 打印机托盘入纸自动扫描成pdf
- 导出图片
- ocr识别文字
- 校对
再谈下成本
- 打印社扫描的成本是一面5毛
- 我扫的书比较多，不舍得花钱，让小助手用公司打印机扫描的
  - 人力成本一天大概2小时（不经常卡纸的话，含导出pdf并转图片的时间）
  - 识别成本：使用服务器，一页识别大概在13秒钟，定时批量处理即可
扫描时的注意事项
- 分辨率不低于300dpi，我用的是400dpi
- 黑白
- 双面拼接
OCR识别方法

使用tesseract工具识别，命令行用法如下：
```
#!/bin/bash
# linux操作系统下运行哦

page='page_1.jpg' # 页码
page_name='page_1' # 输出文件名称，后辍固定为txt
tesseract ${page} ${page_name} -l chi_sim -c chop_enable=0 -c tessedit_write_images=1
```
如果不是技术人员，可以联系我(liangtaohy@gmail.com)。我可以帮提取文字，但要是需要校对的话，那要给小助理工时费了，哈哈。
相关阅读:
cocos2d-x C++的do...while(0)另类使用方法
 C++ Virtual详解
 xcode5向APP store上传应用的时候注意点
 IOS7学习之路九（ios7自定义UIAlertView）
IOS7学习之路八（iOS 禁止屏幕旋转的方法）
Exception in thread "main" java.lang.ClassCastException: com.sun.proxy.$Proxy8 cannot be cast to XXX-------动态代理（proxy-target-class属性的意义）
Maven支持第三方库大全
 EOS page问题
 EOS页面流参数传值问题
 XML中转义字符及使用
原文地址：https://www.cnblogs.com/lotushy/p/8341807.html

如何把一本书扫描入库？

先谈方法

再谈下成本

OCR识别方法