• Python3爬取人人网(校内网)个人照片及朋友照片,并一键下载到本地~~~附源代码


     题记:

    11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国的投资业务。

    人人网CEO陈一舟说:“很高兴为人人网找到一个新的归宿和起点。”

    然而对于人人网曾经近2亿的注册用户来说,哪有什么新的开始,故事已经到了尽头。

    彼时,他们还是刚刚逃离高考噩梦的青涩大学生,抓住人人网这个宣泄口乐此不疲地表达着自我;现在,他们苦思冥想记忆中的账号密码,费力登上网站,发布最后一条状态:再见,人人。

    还有更多的人登陆了人人网的手机客户端,结果发现连发布状态的按钮都找不到,一个明晃晃的“我要开播”,和首页上让人眼花缭乱的美女短视频,显示出在移动互联网时代,人人网早已从一个社交App,转型为短视频和直播应用。

    他们只能压抑住心中的不舍,卸载了这个承载青春记忆的网站,转而去微博上说出那句告别的话语,和千千万的人一起来缅怀过往,“人人网被卖了”迅速站上热搜榜第一。

    曾经活跃在人人上的那些青年们,如今都走入社会结婚生子,他们中的许多人,正是在人人上认识了自己的人生伴侣;而新的大学年轻人被琳琅满目的App牵着走,睁眼微信,早饭抖音,上课豆瓣,下课B站,午饭微博,晚饭头条,一个个分散在各自的小圈子里,十年前全国的青年汇聚在校内网上谈论星辰大海的场景,终究会消逝在一代人的记忆当中。

    此次案例:

    Python3爬取人人网(校内网)个人照片及朋友照片,并一键下载到本地


    逆向思维来

    以自己的人人网主页为例http://www.renren.com/23231****/profile,其中23231****是人人网给每个人分配的id号(用****隐去了后面四位)

    因为需要使用账户名和密码,本程序使用了cookie登陆(每天需要更换cookie)

    第一步:下载某个相册内的所有照片到本地

    打开自己的某个相册,我的以http://photo.renren.com/photo/23231****/album-252396640/v7,为例。多开几个相册观察相册的连接可以发现,album-后面的字符串代表了相册的id

    人人网存储了两种大小的照片,一种是缩略图,一种是点开某个照片显示的原图(当然不可能跟你拍的原图是一样大小的,为节省空间,上传的过程中系统会进行同比例的压缩处理),我们这个脚本下载较大尺寸的照片

    按F12打开开发者工具,找到某个照片的连接,分别copy到浏览器看一下哪个是大尺寸的照片连接,可以看到标红的即为我们需要的

    那么接下来就是使用python赶紧着把这些url获取到吧

    but!

    xpath爬出来是空,why?查询源代码后发现上一段代码是写在<script>标签内的

    那么就用正则匹配试了下是ok哒

    but!

    抓取出来的url数量比相册内的照片数量少啊,看了几个相册发现,源代码中的url最多有40个,如果你的相册中照片数量大于40就会不全,心塞!

    爬虫写的多了,到这里就知道应该去哪里找了,当然是动态加载文件啊

    开发者工具切换到network页签选择XHR,然后刷新一下网页并滑动到相册最下面,可以看到左下侧出现了很多,点击红色框线内的随意一个文件,在右侧选中Headers看RequestURL

    把这段字符串粘贴到浏览器中,发现显示是json数据

    经测试可知,去掉&requestToken=-1989347373&_rtk=552df62d也可,并且前面的pageSize可以更改大小(最大是100)

    遍历输出的时候需要注意:相册内数量、pageSize和page三者是有关联的

    那么问题来了,我还需要获取到相册数量这个参数!

     1 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person):
     2     """
     3     按照相册下载内部所有照片到同名文件夹
     4     :param each_album_link:<str> 各个相册链接
     5     :param album_photoNumber: <int> 每个相册内的照片数量
     6     :param album_name: <str>相册名称,用来创建同名的文件夹
     7     :param album_id:<str>相册id,用来创建同名文件夹
     8     :param person: <str>所属人名字,用来创建一级文件夹名称
     9     :return: none
    10     """
    11     n = 0
    12     while n < album_photoNumber:
    13         #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7
    14         #需要构建出来以下形式的相册网页(json格式)
    15         # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ,经测试最多pageSize=100
    16         link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1))
    17         js_link = each_album_link.replace('v7',link_para)#构建相册网页(json格式)
    18         print(js_link)
    19 
    20         file_path = make_file(person,album_name,album_id)#调用函数make_file
    21         #print(file_path)
    22 
    23         html_data = requests.get(js_link, headers=headers)
    24         try:
    25             json_data = html_data.json()['photoList']
    26             for i in range(0,len(json_data)):
    27                 link = json_data[i]['url']#获取相册中每张照片的下载链接
    28                 #print(link)
    29                 if file_path is None:
    30                     return
    31                 else:
    32                     if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'):
    33                         pass
    34                     else:
    35                         with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f:
    36                             f.write(requests.get(link, headers=headers).content)
    37         except:
    38             print('访问受限,需要密码!')
    39 
    40         n = n + 100#根据Pagesize设置步长

    第一步小结:

    通过相册的id或者连接+相册内的照片数量共同构建json格式的相册链接,通过这个链接可以获取到照片的下载地址,通过write写入本地

    注意一点,有的相册是需要访问密码的,虽说能获取相册的一些信息,但是没有json数据的

    那么怎么获取各个相册的id或者连接和照片数量呢?请看第二步

    第二步:获取每个相册的id、内含照片数量、相册名称等信息

    在个人的“相册”下就能够获取这些信息,例如我的相册http://photo.renren.com/photo/23231***/albumlist/v7?offset=0&limit=40#或者http://photo.renren.com/photo/23231****/albumlist/v7均可访问

    注意一下,页面右下角有个按钮“查看全部”

    ,一定要点击一下看看是否页面发生了变化。反正我的是变了,一些相册也展现了出来。这时在看下网页链接是否发生了变化

    结果,多了“showAll=1#”

    因此,这一步骤的个人相册网页可以直接变为:http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1

     跟步骤一一样,相册的一些信息也是写在<stript>标签内的,看网址中有个limit=40猜想应该也是限制了源代码中只有40个相册的信息

    因为我的相册不够40个,因此无法获取动态加载的文件,索性就直接正则匹配吧

    如果你的相册数量大于40,可以安装步骤一的思路来获取

     1 def get_album_data(album_link):
     2     """
     3     在个人相册链接的网页源代码中,正则匹配相册数量和所有相册的名称、id、相册内包含的照片数
     4     :param album_link: <str> 个人相册链接,点开显示全部可看完整的相册展示,因此连接中需要写明showAll=1
     5     例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
     6     :return: <list> 相册名称、id、内含照片数以及相册数量和所属人名字
     7     """
     8     html_data = requests.get(album_link, headers=headers)
     9     album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S)
    10     print('直接正则匹配出来的相册名称,不一定显示中文:',album_name)
    11     album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S)
    12     album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S)
    13     album_number = re.findall("albumCount': (.*?),",html_data.text,re.S)
    14     person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人
    15     #print('各相册信息:',album_name,album_id,album_photoNumber,album_number,person)
    16     return album_name,album_id,album_photoNumber,album_number,person

    这里有个坑就是获取到album_name的字段,打印出来看有时候显示中文,有时候显示'\u660e\u660e\u7684\u5feb\u4e50\u751f\u6d3b'这种鬼样子……

    还有的时候本来相册的名字是“我的大学——朋友”,中间有个——,那么若是全部显示成Unicode形式倒也没问题,直接整体做个转换就行

    but有时候直接显示出来我的大学u2014u2014朋友,这个坑我暂时还没想到怎么处理……

    第二步小结:通过个人相册的连接打开,用正则匹配出每个相册的名称、id、内含照片数量、相册数量(包含照片数量为0的相册)和所属人

    这一步只获取了各个相册的id,并没有直接返回相册的连接(这一步操作在主函数中进行)

    那么怎么获取个人相册的连接呢?请看第三步

    第三步:通过个人主页获取个人相册链接

    这一步就很简单了,啥方法都行,别忘了后面加上'?showAll=1'才能显示全部相册

    def get_album_link(user_link):
        """
        通过个人主页正则匹配"个人相册"按钮链接
        :param user_link: 个人主页网址,例如http://www.renren.com/24422****/profile
        :return: <str>个人相册链接,例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
        """
        html_data = requests.get(user_link, headers=headers)
        #print(html_data.text)
        album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接
        print('个人相册链接:',album_link)
        return album_link

    第三步没啥可总结的,个人主页就手动找手动输入吧

    第四步:创建文件夹

    思路是手动提前建立《人人网相册》,然后在此文件夹下按照所属人姓名建立一级文件夹,在一级文件夹下按照文件夹名称同名建立文件夹保存照片

    既然要建立文件夹并命名,就少不了命名方面的规范,我这里没有做严格的筛选,若无法新建则直接pass

    因为读取的是第二步返回的相册名称,因此有同样的相册显示问题,我这里认为显示的是unicode形式,然后做了.encode("utf-8").decode("unicode_escape"),这样可以保证显示出来的是中文;

    若读取出来的直接是中文,经过.encode("utf-8").decode("unicode_escape")后显示的是乱码(也能创建文件夹成功),此时重新运行直到显示的是unicode即可

    这一步没有找到很好的解决方案

     1 def make_file(person,album_name,album_id):
     2     """
     3     创建一级文件夹(以个人名字为文件名称)和二级文件夹(以相册名称命名),若存在则不重复建立
     4     若存在或者创建成功key=1并返回路径,否则key=0
     5     对文件命名规范不做限制,若失败直接pass
     6     注意事项:读出的相册名称有时候显示中文,有时候显示成unicode形式,有时候两者均有;album_id是为了区别人人网上有重名的文件夹
     7     :param person: <str> 个人名字,用来生成个人名下的一级文件夹
     8     :param album_name: <str> 相册名字,用来生成同名文件夹
     9     :param album_id:<str>相册id,用来创建同名文件夹
    10     :return:<str> 相册所在路径
    11     """
    12 
    13     file_path=''
    14     album_name = album_name.encode("utf-8").decode("unicode_escape")
    15     #按个人名字生成一级文件夹,成功创建或者已存在则key=1,否则key=0
    16     if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)):
    17         key = 1
    18     else:
    19         try:
    20             os.mkdir(os.getcwd() + '人人网相册'+'/' + person)
    21             key = 1
    22         except:
    23             key = 0
    24             print(key,'文件夹《' + person + '》创建失败,请查看命名方式!')
    25 
    26     #在一级文件夹下(以key=1进行判断)生成各个相册的文件夹
    27     if key == 1:
    28         file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题
    29         if os.path.exists(file_path):
    30             pass
    31         else:
    32             try:
    33                 os.mkdir(file_path)
    34             except:
    35                 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败,请查看命名方式!')
    36                 key = 0
    37     if key == 1:
    38         #print(file_path)
    39         return file_path
    40     else:
    41         #print('文件夹创立失败,请排查错误!')
    42         return None

     第四步小结:

    如果简单点来做的话,可以用个人id和相册的id作为文件夹名称,因为都是数字肯定不会出错,但是就是对于读者不太友好

    所有功能的函数都已调试好之后,需要主函数调用各个模块啦,为了方便理解,先画个图吧(画的不专业,意思意思)

     1 if __name__=='__main__':
     2     Host_url= 'http://www.renren.com/23231****/profile'#个人主页
     3     Host_id = Host_url.split('/')[-2]
     4     data = get_album_data(get_album_link(Host_url))
     5     person = data[4][0]
     6     #print(person)
     7     album_number = int(data[3][0])#相册数量
     8     for i in range(0,album_number):
     9         each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7'  # 构造各个相册链接,data[1][i]是相册id
    10         #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id
    11         print(each_album_link)
    12         album_name = data[0][i] #相册名称
    13         album_photoNumber = int(data[2][i])
    14         download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)

    输出结果:


     总结:

    1. 如果登陆自己的账户,不仅可以爬下自己的照片,还可以爬其他人的

    因为人人网是相对来说公开的,只有你能浏览到的就可以爬,如果有些人设置了好友可见(那么你如果作为非好友是看不到也爬不下来的)

    2. 其实可以用打包软件生成可执行文件,这样小伙伴们就可以用自己的账号或者cookie下载自己的啦

    3. 免登陆的方式有很多种,我这里使用的是cookie方式,每天都需要更改cookie,不太友好,以后会专门写一篇关于这种账号登陆的网站怎么爬取的文章吧

    4. 其实每张照片都有评论的,评论也是可以有方法爬取的呦

    5. 运行的时候,观察一下打印出来的相册名称,若是中文请重新运行直到是显示成\u****的unicode形式


    源代码:

      1 '''
      2 Python3爬取人人网(校内网)个人照片及朋友照片,并一键下载到本地
      3 免登陆的方式有很多种,我这里使用的是cookie方式,每天都需要更改cookie
      4 如果登陆自己的账户,不仅可以爬下自己的照片,还可以爬其他人的
      5 因为人人网是相对来说公开的,只有你能浏览到的就可以爬,如果有些人设置了好友可见(那么你如果作为非好友是看不到也爬不下来的)
      6 '''
      7 
      8 
      9 import requests,re,os
     10 
     11 headers = {
     12     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
     13     'cookie':你的cookie,自行填写
     14 }
     15 
     16 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person):
     17     """
     18     按照相册下载内部所有照片到同名文件夹
     19     :param each_album_link:<str> 各个相册链接
     20     :param album_photoNumber: <int> 每个相册内的照片数量
     21     :param album_name: <str>相册名称,用来创建同名的文件夹
     22     :param album_id:<str>相册id,用来创建同名文件夹
     23     :param person: <str>所属人名字,用来创建一级文件夹名称
     24     :return: none
     25     """
     26     n = 0
     27     while n < album_photoNumber:
     28         #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7
     29         #需要构建出来以下形式的相册网页(json格式)
     30         # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ,经测试最多pageSize=100
     31         link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1))
     32         js_link = each_album_link.replace('v7',link_para)#构建相册网页(json格式)
     33         print(js_link)
     34 
     35         file_path = make_file(person,album_name,album_id)#调用函数make_file
     36         #print(file_path)
     37 
     38         html_data = requests.get(js_link, headers=headers)
     39         try:
     40             json_data = html_data.json()['photoList']
     41             for i in range(0,len(json_data)):
     42                 link = json_data[i]['url']#获取相册中每张照片的下载链接
     43                 #print(link)
     44                 if file_path is None:
     45                     return
     46                 else:
     47                     if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'):
     48                         pass
     49                     else:
     50                         with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f:
     51                             f.write(requests.get(link, headers=headers).content)
     52         except:
     53             print('访问受限,需要密码!')
     54 
     55         n = n + 100#根据Pagesize设置步长
     56 
     57 def get_album_data(album_link):
     58     """
     59     在个人相册链接的网页源代码中,正则匹配相册数量和所有相册的名称、id、相册内包含的照片数
     60     :param album_link: <str> 个人相册链接,点开显示全部可看完整的相册展示,因此连接中需要写明showAll=1
     61     例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
     62     :return: <list> 相册名称、id、内含照片数以及相册数量
     63     """
     64     html_data = requests.get(album_link, headers=headers)
     65     album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S)
     66     print('直接正则匹配出来的相册名称,不一定显示中文:',album_name)
     67     album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S)
     68     album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S)
     69     album_number = re.findall("albumCount': (.*?),",html_data.text,re.S)
     70     person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人
     71     print('各相册信息:',album_name,album_id,album_photoNumber,album_number,person)
     72     return album_name,album_id,album_photoNumber,album_number,person
     73 
     74 def make_file(person,album_name,album_id):
     75     """
     76     创建一级文件夹(以个人名字为文件名称)和二级文件夹(以相册名称命名),若存在则不重复建立
     77     若存在或者创建成功key=1并返回路径,否则key=0
     78     对文件命名规范不做限制,若失败直接pass
     79     注意事项:读出的相册名称有时候显示中文,有时候显示成unicode形式,有时候两者均有;album_id是为了区别人人网上有重名的文件夹
     80     :param person: <str> 个人名字,用来生成个人名下的一级文件夹
     81     :param album_name: <str> 相册名字,用来生成同名文件夹
     82     :param album_id:<str>相册id,用来创建同名文件夹
     83     :return:<str> 相册所在路径
     84     """
     85 
     86     file_path=''
     87     album_name = album_name.encode("utf-8").decode("unicode_escape")
     88     #按个人名字生成一级文件夹,成功创建或者已存在则key=1,否则key=0
     89     if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)):
     90         key = 1
     91     else:
     92         try:
     93             os.mkdir(os.getcwd() + '人人网相册'+'/' + person)
     94             key = 1
     95         except:
     96             key = 0
     97             print(key,'文件夹《' + person + '》创建失败,请查看命名方式!')
     98 
     99     #在一级文件夹下(以key=1进行判断)生成各个相册的文件夹
    100     if key == 1:
    101         file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题
    102         if os.path.exists(file_path):
    103             pass
    104         else:
    105             try:
    106                 os.mkdir(file_path)
    107             except:
    108                 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败,请查看命名方式!')
    109                 key = 0
    110     if key == 1:
    111         #print(file_path)
    112         return file_path
    113     else:
    114         #print('文件夹创立失败,请排查错误!')
    115         return None
    116 
    117 
    118 def get_album_link(user_link):
    119     """
    120     通过个人主页正则匹配"个人相册"按钮链接
    121     :param user_link: 个人主页网址,例如http://www.renren.com/24422****/profile
    122     :return: <str>个人相册链接,例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
    123     """
    124     html_data = requests.get(user_link, headers=headers)
    125     #print(html_data.text)
    126     album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接
    127     print('个人相册链接:',album_link)
    128     return album_link
    129 
    130 
    131 if __name__=='__main__':
    132     Host_url= 'http://www.renren.com/23231****/profile'#个人主页
    133     Host_id = Host_url.split('/')[-2]
    134     data = get_album_data(get_album_link(Host_url))
    135     person = data[4][0]
    136     #print(person)
    137     album_number = int(data[3][0])#相册数量
    138     for i in range(0,album_number):
    139         each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7'  # 构造各个相册链接,data[1][i]是相册id
    140         #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id
    141         print(each_album_link)
    142         album_name = data[0][i] #相册名称
    143         album_photoNumber = int(data[2][i])
    144         download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)
  • 相关阅读:
    窗口函数ntile()
    窗口函数--over (partiton by order by)
    select top x with ties和select语句执行顺序
    被LTRIM(RTRIM())害死了,差点
    SQL Server 查询实例、数据库、表、列
    maven3 手动安装本地jar到仓库
    Maven3路程(六)用Maven创建Spring3 MVC项目
    Maven3路程(五)用Maven创建Hibernate项目
    在Maven仓库中添加Oracle JDBC驱动
    Maven3路程(四)用Maven创建Struts2项目
  • 原文地址:https://www.cnblogs.com/aby321/p/10315805.html
Copyright © 2020-2023  润新知