在制作Epub电子书的时候,因为有从网络上下载的格式比较混乱的电子书,现在打算自己用Pythonc处理一下。
1、如何删除掉网页(html)中的多余空额。尤其是包含在tag(标签:span、p)当中的。
下面我们一步一步的来摸索下如何去做。因为网页呢都是由许多的字符串组成的,那么假如一个字符串里有空格如何处理呢?
(1)对于一个字符串如何删除其中的空格呢?
# -*- coding: utf-8 -*- a = '美国数学家,对 策论的创始人。——校者'; a = a.replace(" ",""); print a;
这样可以删除字符串中的空格,注意这里没有测试这种方法的效率问题,先解决这样问题,下面再去处理这个东西。