这段时间一直在弄 mobi
转 html
,弄的好无语。
一开始,我找的是如何解析 mobi
文件,我希望通过解析文件然后转成 html
文件,很多人都说要到 https://wiki.mobileread.com/wiki/MOBI#Format 上根据这个内容要解析,我在 github
上找到了 mobi-api4java
和 phpMobi
,然后根据上面的方式做了一套解析,但是解析出来的内容还是有很多问题:
- 文字乱码
- 无法完美实现图片和文字结合
- 有时会解析不了
但是也有很多优点:
- 获取电子书的各种信息,并做分析
- 可以对电子书做操作
后来我仔细分析了一下我想要的需求,其实我就是想将 mobi
转成 html
,然后将 html
放到服务器上,后来我就在网上找了一下已经做好的 mobi
转成 html
的工具,发现转成功的方式有两种:
- 一种是将
mobi
直接转成html
,并且还有一套自己的css
样式,还将图片分离出来了,我看了一下里面的源码,用到的是 calibre,这个是一个电子书管理工具,但是它提供了一套shell
命令,我们可以根据这套命令来编程 - 将
mobi
直接转成pdf
,我估计这个转换用的工具应该也是 calibre,然后再用 pdf2htmlEX,转成html
这两者有很大的区别:
calibre
直接转成html
是将每一章转成了一个html
文件,也就是说,如果有 10 章,就有 10 个html
文件。但是通过pdf
转成html
文件,最后是合并成了一个很大的html
文件,我尝试了一下,有一个电子书转成html
后,html
文件有 50 多M,如果这个放到服务器上,估计打开都要半天- 样式不同。
calibre
有一套自己的样式,但是也可以自定义。pdf
的样式更好看一些,更适合习惯了pdf
阅读的人群。
最后我打算采用 calibre
来转换,然后放到服务器上访问