今天早起闲来无事,想写个脚本抓图片玩玩。首先瞄准的目标当然是我们的度娘,试着打开百度图片搜索‘苍老师’-查看网页源代码,妹的,是用js加载的,想要得到图片地址还得有些复杂的处理。算了,转向wap版吧,同样打开wap.baidu.com搜索图片-查看网页源代码,啧啧,看到我想要的图片地址链接了(下载就好办了),正则匹配把它提取出来存储,一个页面有6张图片,再试着找到‘下一页’的url,然后继续爬图片,如此下去,很快你的硬盘里就充满了各种苍老师。。。
当然,你也可以抓别的,修改代码即可
PS:
1,需安装BeautifulSoup,然后下载附件解压,双击运行run.bat就开始工作了。
2,current_page 为wap.baidu.com图片搜索第一页的url,想抓取什么搜相应的关键字,然后复制url即可
当然,你也可以抓别的,修改代码即可
PS:
1,需安装BeautifulSoup,然后下载附件解压,双击运行run.bat就开始工作了。
2,current_page 为wap.baidu.com图片搜索第一页的url,想抓取什么搜相应的关键字,然后复制url即可