• 成功抓取豆瓣读书的所有书籍


    判断是不是“ 出版年:”
    //*[@id="info"]//span[@class="pl"]/text()
    因为id="info"里面的span有嵌套的span,所以:
    2个//的含义: bookstore//book 选择属于 bookstore 元素后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置
    <span>
    <span class="pl"> 译者</span>:<a class="" href="/search/%E5%88%98%E5%A7%BF%E5%90%9B">刘姿君</a>
    </span>
    有意义的都有属性 class="pl"
    <span> 来组合行内元素,以便通过样式来格式化它们。
    注释:span 没有固定的格式表现。当对它应用样式时,它才会产生视觉上的变化。
    如果不对 span 应用样式,那么 span 元素中的文本与其他文本不会任何视觉上的差异。
    .xpath('string(.)')
    可以取出当前节点下的所有文字内容(不包括标签内部的)
    提取出来的有空格,如何去除
    strip() 把头和尾的空格去掉
    a.strip()
    [u' 2008-9'] 'list' object has no attribute 'strip'
    Data truncated for column,这个可能是数据有空格什么的,就是格式不对。可以用strip()处理下。
    出版年: 2009年09月04日, 需要把year字段的值的长度放大一些
  • 相关阅读:
    Java基础知识整理
    HashMap源码解读(JDK1.7)
    书籍列表
    mysql4
    mysql3
    mysql2
    mysql1
    数据结构4
    数据结构3
    数据结构2
  • 原文地址:https://www.cnblogs.com/elesos/p/7940923.html
Copyright © 2020-2023  润新知