网络爬虫 web scraping :)
还得复习一下面向对象开发。python的。
视频地址:youtube的
http://www.youtube.com/watch?v=Ap_DlSrT-iE
还有有用的资料
http://www.lovelucy.info/python-crawl-pages.html
貌似需要了解的东西有
urllib, urllib2, urlparse, BeautifulSoup, mechanize, cookielib 等等啦
这些库的掌握并不难,网络爬虫难的是你要自己设计压力控制算法,还有你的解析算法,还有图的遍历算法等。
还有一些比较有意思的东西:
还有这个