• ACG图片站python爬虫LAMP环境


    最近突然对web很感兴趣,碰巧看到阿里云服务器学生价十块钱一个月,果断买了一个自己搭建了一个网站。

     网址 这里

    LAMP环境就搭建了好久,linux+apache2+mysql+php,都是开源的软件,而且都很好用。

    每个软件都可以在网上找到博文,一路百度下来,搞了一晚上终于搭好了。

    之后自己写了一个提交代码查看代码的html网页,很简单。

    看了php,下载了一个图片瀑布流的代码,改来改去,终于是能用了。

    最后这个周末把之前的python代码改了改,添加了数据库相关的语句。

    爬的是www.pixiv.net,所谓的p站。这里有一个新问题是referer,p站需要referer才能访问图片,具体没看太懂,

    用了一种新的方法下载图片。

    req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0)     Gecko/20100101 Firefox/28.0',
    'Referer':referer
    }
    req = urllib2.Request(PicUrl[0],None,req_header) 
    
    f = urllib2.urlopen(req,None,5)
            
    with open(path,'wb') as code:
        code.write(f.read()) 

    所有的代码,等会用github了放git里吧,,,这次深感版本控制的必要性,以前改好的bug,改来改去又不行了。还找不到之前的代码。

    目前的坑:

    1)中文日文显示问题,数据库apache都设置成utf-8了,php中文还是显示问号,而且找不到cursors.py。

    2)图片信息待丰富,作者和名字没有分开,得分没有抓取,如果想做的更好还要把作者写的简介抓下来。需要创建页面放置这些信息。

    3)使用cookie登陆,目前是在未登录状态下抓图,无法获取原图。

  • 相关阅读:
    XCode 7 运行 cocos2dx 2.2.6问题小节
    SerializeField和Serializable
    convert2utf8withbom
    NGUI制作字体的三种方法
    js json stringify
    nodejs npm 使用淘宝 NPM 镜像
    js url?callback=xxx xxx的介绍
    强引用 弱引用
    关于xml里的encoding
    js 历史
  • 原文地址:https://www.cnblogs.com/helica/p/4890658.html
Copyright © 2020-2023  润新知