• python 实现页面数据抓取


    http://hi.baidu.com/darkbreaker/item/5af1b4101d89386a71d5e8b9

    其他的框架比如htmlparser 之类都是要建立正则表达,或是建立parse tree 来解析web页面。对于页面中有噪音(比如多余的无关的字符。诸如回车,这样的解析就不很方便 )   。 python自身带的html处理函数 ,个人感觉不太方便。 所以直接使用python的一个包beautiful soup来抓取web页面的数据。核心思想就是定位到指定的table ,然后定位到指定的tr,获取指定的td 。这种处理方式,有所限制。不过只要table的位置不发生大的变动。程序本身没有问题。 即使发生了变化。也可以很快的更新程序。 实现效果很好。

    这里要说一下:

    web页面数据抓取本身就是一个很复杂的事情。 常规做法就是建立解析树进行解析同时需要正则的去伪存真 。 现实中的框架都不是万能的。如果页面有很明显的table结构,那么完全可以用beautiful soup来做。

    获取的数据抓取后势必为了以后的分析或是显示。 这里要选取支持多读多写的数据库。 sqlite 这种单机版的,平时玩玩可以,做应用就不行了。

    python的PSP 做表现层不是很方便,可以用django来做。   python比perl容易学多了。 不过perl依然在大量使用着。

    很久没有做j2EE的开发了。 最近新的语言频繁出现。java有点老了。不过java还是很强大的,至少我不会放弃它。

    做完手头的tools 下一个就要涉及jboss的规则处理引擎drools了。 这个涉及到毕业涉及的项目, 难度较大,但是锻炼也会更大。为自己做一个圆满的毕设项目,也为公司贡献自己的成果。 加油吧。 时间不等人的。

  • 相关阅读:
    Charles的基本功能使用
    模拟器的代理功能
    LoadRunner参数包含逗号
    MySQL 与 [charlist]% 通配符
    MySQL 删除重复项并保留其中一个
    Selenium grid 分布式测试搭建(二)
    Selenium grid 分布式测试搭建(一)
    chromedriver与chrome版本映射表 与chromedriver 下载地址
    Selenium 打开 Chrome 链接框只有 Data;
    Xpath 小结
  • 原文地址:https://www.cnblogs.com/lvxiuquan/p/2584583.html
Copyright © 2020-2023  润新知