成功抓取豆瓣读书的所有书籍

https://book.douban.com/top250

判断是不是“  出版年:”

//*[@id="info"]//span[@class="pl"]/text()

因为id="info"里面的span有嵌套的span,所以：

2个//的含义： bookstore//book  选择属于 bookstore 元素后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。

<span>

      <span class="pl"> 译者</span>:<a class="" href="/search/%E5%88%98%E5%A7%BF%E5%90%9B">刘姿君</a>

   </span>

有意义的都有属性 class="pl"

<span> 来组合行内元素，以便通过样式来格式化它们。

注释：span 没有固定的格式表现。当对它应用样式时，它才会产生视觉上的变化。

如果不对 span 应用样式，那么 span 元素中的文本与其他文本不会任何视觉上的差异。

https://www.tuicool.com/articles/iqQFBn

.xpath('string(.)') 

可以取出当前节点下的所有文字内容（不包括标签内部的）

https://www.zhihu.com/question/38080188

提取出来的有空格，如何去除

strip()  把头和尾的空格去掉

a.strip()

[u' 2008-9']   'list' object has no attribute 'strip'

Data truncated for column，这个可能是数据有空格什么的，就是格式不对。可以用strip（）处理下。

https://book.douban.com/subject/3920059/

出版年: 2009年09月04日， 需要把year字段的值的长度放大一些

相关阅读:
Java基础知识整理
HashMap源码解读(JDK1.7)
书籍列表
mysql4
mysql3
mysql2
mysql1
数据结构4
数据结构3
数据结构2

原文地址：https://www.cnblogs.com/elesos/p/7940923.html