Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码

题记：

11月14日早晨8点，人人网发布公告，宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒，自此，人人公司将专注于境内的二手车业务和在美国的投资业务。

人人网CEO陈一舟说：“很高兴为人人网找到一个新的归宿和起点。”

然而对于人人网曾经近2亿的注册用户来说，哪有什么新的开始，故事已经到了尽头。

彼时，他们还是刚刚逃离高考噩梦的青涩大学生，抓住人人网这个宣泄口乐此不疲地表达着自我；现在，他们苦思冥想记忆中的账号密码，费力登上网站，发布最后一条状态：再见，人人。

还有更多的人登陆了人人网的手机客户端，结果发现连发布状态的按钮都找不到，一个明晃晃的“我要开播”，和首页上让人眼花缭乱的美女短视频，显示出在移动互联网时代，人人网早已从一个社交App，转型为短视频和直播应用。

他们只能压抑住心中的不舍，卸载了这个承载青春记忆的网站，转而去微博上说出那句告别的话语，和千千万的人一起来缅怀过往，“人人网被卖了”迅速站上热搜榜第一。

曾经活跃在人人上的那些青年们，如今都走入社会结婚生子，他们中的许多人，正是在人人上认识了自己的人生伴侣；而新的大学年轻人被琳琅满目的App牵着走，睁眼微信，早饭抖音，上课豆瓣，下课B站，午饭微博，晚饭头条，一个个分散在各自的小圈子里，十年前全国的青年汇聚在校内网上谈论星辰大海的场景，终究会消逝在一代人的记忆当中。

此次案例：

Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地

逆向思维来

以自己的人人网主页为例http://www.renren.com/23231****/profile，其中23231****是人人网给每个人分配的id号（用****隐去了后面四位）

因为需要使用账户名和密码，本程序使用了cookie登陆（每天需要更换cookie）

第一步：下载某个相册内的所有照片到本地

打开自己的某个相册，我的以http://photo.renren.com/photo/23231****/album-252396640/v7，为例。多开几个相册观察相册的连接可以发现，album-后面的字符串代表了相册的id

人人网存储了两种大小的照片，一种是缩略图，一种是点开某个照片显示的原图（当然不可能跟你拍的原图是一样大小的，为节省空间，上传的过程中系统会进行同比例的压缩处理），我们这个脚本下载较大尺寸的照片

按F12打开开发者工具，找到某个照片的连接，分别copy到浏览器看一下哪个是大尺寸的照片连接，可以看到标红的即为我们需要的

那么接下来就是使用python赶紧着把这些url获取到吧

but！

xpath爬出来是空，why？查询源代码后发现上一段代码是写在<script>标签内的

那么就用正则匹配试了下是ok哒

but！

抓取出来的url数量比相册内的照片数量少啊，看了几个相册发现，源代码中的url最多有40个，如果你的相册中照片数量大于40就会不全，心塞！

爬虫写的多了，到这里就知道应该去哪里找了，当然是动态加载文件啊

开发者工具切换到network页签选择XHR，然后刷新一下网页并滑动到相册最下面，可以看到左下侧出现了很多，点击红色框线内的随意一个文件，在右侧选中Headers看RequestURL

把这段字符串粘贴到浏览器中，发现显示是json数据

经测试可知，去掉&requestToken=-1989347373&_rtk=552df62d也可，并且前面的pageSize可以更改大小（最大是100）

遍历输出的时候需要注意：相册内数量、pageSize和page三者是有关联的

那么问题来了，我还需要获取到相册数量这个参数！

 1 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person):
 2     """
 3     按照相册下载内部所有照片到同名文件夹
 4     :param each_album_link:<str> 各个相册链接
 5     :param album_photoNumber: <int> 每个相册内的照片数量
 6     :param album_name: <str>相册名称，用来创建同名的文件夹
 7     :param album_id:<str>相册id，用来创建同名文件夹
 8     :param person: <str>所属人名字，用来创建一级文件夹名称
 9     :return: none
10     """
11     n = 0
12     while n < album_photoNumber:
13         #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7
14         #需要构建出来以下形式的相册网页（json格式）
15         # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ，经测试最多pageSize=100
16         link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1))
17         js_link = each_album_link.replace('v7',link_para)#构建相册网页（json格式）
18         print(js_link)
19 
20         file_path = make_file(person,album_name,album_id)#调用函数make_file
21         #print(file_path)
22 
23         html_data = requests.get(js_link, headers=headers)
24         try:
25             json_data = html_data.json()['photoList']
26             for i in range(0,len(json_data)):
27                 link = json_data[i]['url']#获取相册中每张照片的下载链接
28                 #print(link)
29                 if file_path is None:
30                     return
31                 else:
32                     if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'):
33                         pass
34                     else:
35                         with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f:
36                             f.write(requests.get(link, headers=headers).content)
37         except:
38             print('访问受限，需要密码！')
39 
40         n = n + 100#根据Pagesize设置步长

第一步小结：

通过相册的id或者连接+相册内的照片数量共同构建json格式的相册链接，通过这个链接可以获取到照片的下载地址，通过write写入本地

注意一点，有的相册是需要访问密码的，虽说能获取相册的一些信息，但是没有json数据的

那么怎么获取各个相册的id或者连接和照片数量呢？请看第二步

第二步：获取每个相册的id、内含照片数量、相册名称等信息

在个人的“相册”下就能够获取这些信息，例如我的相册http://photo.renren.com/photo/23231***/albumlist/v7?offset=0&limit=40#或者http://photo.renren.com/photo/23231****/albumlist/v7均可访问

注意一下，页面右下角有个按钮“查看全部”

，一定要点击一下看看是否页面发生了变化。反正我的是变了，一些相册也展现了出来。这时在看下网页链接是否发生了变化

结果，多了“showAll=1#”

因此，这一步骤的个人相册网页可以直接变为：http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1

跟步骤一一样，相册的一些信息也是写在<stript>标签内的，看网址中有个limit=40猜想应该也是限制了源代码中只有40个相册的信息

因为我的相册不够40个，因此无法获取动态加载的文件，索性就直接正则匹配吧

如果你的相册数量大于40，可以安装步骤一的思路来获取

 1 def get_album_data(album_link):
 2     """
 3     在个人相册链接的网页源代码中，正则匹配相册数量和所有相册的名称、id、相册内包含的照片数
 4     :param album_link: <str> 个人相册链接，点开显示全部可看完整的相册展示，因此连接中需要写明showAll=1
 5     例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
 6     :return: <list> 相册名称、id、内含照片数以及相册数量和所属人名字
 7     """
 8     html_data = requests.get(album_link, headers=headers)
 9     album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S)
10     print('直接正则匹配出来的相册名称，不一定显示中文：',album_name)
11     album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S)
12     album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S)
13     album_number = re.findall("albumCount': (.*?),",html_data.text,re.S)
14     person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人
15     #print('各相册信息：',album_name,album_id,album_photoNumber,album_number,person)
16     return album_name,album_id,album_photoNumber,album_number,person

这里有个坑就是获取到album_name的字段，打印出来看有时候显示中文，有时候显示'\u660e\u660e\u7684\u5feb\u4e50\u751f\u6d3b'这种鬼样子……

还有的时候本来相册的名字是“我的大学——朋友”，中间有个——，那么若是全部显示成Unicode形式倒也没问题，直接整体做个转换就行

but有时候直接显示出来我的大学u2014u2014朋友，这个坑我暂时还没想到怎么处理……

第二步小结：通过个人相册的连接打开，用正则匹配出每个相册的名称、id、内含照片数量、相册数量（包含照片数量为0的相册）和所属人

这一步只获取了各个相册的id，并没有直接返回相册的连接（这一步操作在主函数中进行）

那么怎么获取个人相册的连接呢？请看第三步

第三步：通过个人主页获取个人相册链接

这一步就很简单了，啥方法都行，别忘了后面加上'?showAll=1'才能显示全部相册

def get_album_link(user_link):
    """
    通过个人主页正则匹配"个人相册"按钮链接
    :param user_link: 个人主页网址，例如http://www.renren.com/24422****/profile
    :return: <str>个人相册链接，例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
    """
    html_data = requests.get(user_link, headers=headers)
    #print(html_data.text)
    album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接
    print('个人相册链接：',album_link)
    return album_link

第三步没啥可总结的，个人主页就手动找手动输入吧

第四步：创建文件夹

思路是手动提前建立《人人网相册》，然后在此文件夹下按照所属人姓名建立一级文件夹，在一级文件夹下按照文件夹名称同名建立文件夹保存照片

既然要建立文件夹并命名，就少不了命名方面的规范，我这里没有做严格的筛选，若无法新建则直接pass

因为读取的是第二步返回的相册名称，因此有同样的相册显示问题，我这里认为显示的是unicode形式，然后做了.encode("utf-8").decode("unicode_escape")，这样可以保证显示出来的是中文；

若读取出来的直接是中文，经过.encode("utf-8").decode("unicode_escape")后显示的是乱码（也能创建文件夹成功），此时重新运行直到显示的是unicode即可

这一步没有找到很好的解决方案

 1 def make_file(person,album_name,album_id):
 2     """
 3     创建一级文件夹（以个人名字为文件名称）和二级文件夹（以相册名称命名），若存在则不重复建立
 4     若存在或者创建成功key=1并返回路径，否则key=0
 5     对文件命名规范不做限制，若失败直接pass
 6     注意事项：读出的相册名称有时候显示中文，有时候显示成unicode形式，有时候两者均有；album_id是为了区别人人网上有重名的文件夹
 7     :param person: <str> 个人名字，用来生成个人名下的一级文件夹
 8     :param album_name: <str> 相册名字，用来生成同名文件夹
 9     :param album_id:<str>相册id，用来创建同名文件夹
10     :return:<str> 相册所在路径
11     """
12 
13     file_path=''
14     album_name = album_name.encode("utf-8").decode("unicode_escape")
15     #按个人名字生成一级文件夹，成功创建或者已存在则key=1，否则key=0
16     if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)):
17         key = 1
18     else:
19         try:
20             os.mkdir(os.getcwd() + '人人网相册'+'/' + person)
21             key = 1
22         except:
23             key = 0
24             print(key,'文件夹《' + person + '》创建失败，请查看命名方式！')
25 
26     #在一级文件夹下（以key=1进行判断）生成各个相册的文件夹
27     if key == 1:
28         file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题
29         if os.path.exists(file_path):
30             pass
31         else:
32             try:
33                 os.mkdir(file_path)
34             except:
35                 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败，请查看命名方式！')
36                 key = 0
37     if key == 1:
38         #print(file_path)
39         return file_path
40     else:
41         #print('文件夹创立失败，请排查错误！')
42         return None

第四步小结：

如果简单点来做的话，可以用个人id和相册的id作为文件夹名称，因为都是数字肯定不会出错，但是就是对于读者不太友好

所有功能的函数都已调试好之后，需要主函数调用各个模块啦，为了方便理解，先画个图吧（画的不专业，意思意思）

 1 if __name__=='__main__':
 2     Host_url= 'http://www.renren.com/23231****/profile'#个人主页
 3     Host_id = Host_url.split('/')[-2]
 4     data = get_album_data(get_album_link(Host_url))
 5     person = data[4][0]
 6     #print(person)
 7     album_number = int(data[3][0])#相册数量
 8     for i in range(0,album_number):
 9         each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7'  # 构造各个相册链接,data[1][i]是相册id
10         #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id
11         print(each_album_link)
12         album_name = data[0][i] #相册名称
13         album_photoNumber = int(data[2][i])
14         download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)

输出结果：

总结：

1. 如果登陆自己的账户，不仅可以爬下自己的照片，还可以爬其他人的

因为人人网是相对来说公开的，只有你能浏览到的就可以爬，如果有些人设置了好友可见（那么你如果作为非好友是看不到也爬不下来的）

2. 其实可以用打包软件生成可执行文件，这样小伙伴们就可以用自己的账号或者cookie下载自己的啦

3. 免登陆的方式有很多种，我这里使用的是cookie方式，每天都需要更改cookie，不太友好，以后会专门写一篇关于这种账号登陆的网站怎么爬取的文章吧

4. 其实每张照片都有评论的，评论也是可以有方法爬取的呦

5. 运行的时候，观察一下打印出来的相册名称，若是中文请重新运行直到是显示成\u****的unicode形式

源代码：

  1 '''
  2 Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地
  3 免登陆的方式有很多种，我这里使用的是cookie方式，每天都需要更改cookie
  4 如果登陆自己的账户，不仅可以爬下自己的照片，还可以爬其他人的
  5 因为人人网是相对来说公开的，只有你能浏览到的就可以爬，如果有些人设置了好友可见（那么你如果作为非好友是看不到也爬不下来的）
  6 '''
  7 
  8 
  9 import requests,re,os
 10 
 11 headers = {
 12     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
 13     'cookie':你的cookie，自行填写
 14 }
 15 
 16 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person):
 17     """
 18     按照相册下载内部所有照片到同名文件夹
 19     :param each_album_link:<str> 各个相册链接
 20     :param album_photoNumber: <int> 每个相册内的照片数量
 21     :param album_name: <str>相册名称，用来创建同名的文件夹
 22     :param album_id:<str>相册id，用来创建同名文件夹
 23     :param person: <str>所属人名字，用来创建一级文件夹名称
 24     :return: none
 25     """
 26     n = 0
 27     while n < album_photoNumber:
 28         #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7
 29         #需要构建出来以下形式的相册网页（json格式）
 30         # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ，经测试最多pageSize=100
 31         link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1))
 32         js_link = each_album_link.replace('v7',link_para)#构建相册网页（json格式）
 33         print(js_link)
 34 
 35         file_path = make_file(person,album_name,album_id)#调用函数make_file
 36         #print(file_path)
 37 
 38         html_data = requests.get(js_link, headers=headers)
 39         try:
 40             json_data = html_data.json()['photoList']
 41             for i in range(0,len(json_data)):
 42                 link = json_data[i]['url']#获取相册中每张照片的下载链接
 43                 #print(link)
 44                 if file_path is None:
 45                     return
 46                 else:
 47                     if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'):
 48                         pass
 49                     else:
 50                         with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f:
 51                             f.write(requests.get(link, headers=headers).content)
 52         except:
 53             print('访问受限，需要密码！')
 54 
 55         n = n + 100#根据Pagesize设置步长
 56 
 57 def get_album_data(album_link):
 58     """
 59     在个人相册链接的网页源代码中，正则匹配相册数量和所有相册的名称、id、相册内包含的照片数
 60     :param album_link: <str> 个人相册链接，点开显示全部可看完整的相册展示，因此连接中需要写明showAll=1
 61     例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
 62     :return: <list> 相册名称、id、内含照片数以及相册数量
 63     """
 64     html_data = requests.get(album_link, headers=headers)
 65     album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S)
 66     print('直接正则匹配出来的相册名称，不一定显示中文：',album_name)
 67     album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S)
 68     album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S)
 69     album_number = re.findall("albumCount': (.*?),",html_data.text,re.S)
 70     person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人
 71     print('各相册信息：',album_name,album_id,album_photoNumber,album_number,person)
 72     return album_name,album_id,album_photoNumber,album_number,person
 73 
 74 def make_file(person,album_name,album_id):
 75     """
 76     创建一级文件夹（以个人名字为文件名称）和二级文件夹（以相册名称命名），若存在则不重复建立
 77     若存在或者创建成功key=1并返回路径，否则key=0
 78     对文件命名规范不做限制，若失败直接pass
 79     注意事项：读出的相册名称有时候显示中文，有时候显示成unicode形式，有时候两者均有；album_id是为了区别人人网上有重名的文件夹
 80     :param person: <str> 个人名字，用来生成个人名下的一级文件夹
 81     :param album_name: <str> 相册名字，用来生成同名文件夹
 82     :param album_id:<str>相册id，用来创建同名文件夹
 83     :return:<str> 相册所在路径
 84     """
 85 
 86     file_path=''
 87     album_name = album_name.encode("utf-8").decode("unicode_escape")
 88     #按个人名字生成一级文件夹，成功创建或者已存在则key=1，否则key=0
 89     if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)):
 90         key = 1
 91     else:
 92         try:
 93             os.mkdir(os.getcwd() + '人人网相册'+'/' + person)
 94             key = 1
 95         except:
 96             key = 0
 97             print(key,'文件夹《' + person + '》创建失败，请查看命名方式！')
 98 
 99     #在一级文件夹下（以key=1进行判断）生成各个相册的文件夹
100     if key == 1:
101         file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题
102         if os.path.exists(file_path):
103             pass
104         else:
105             try:
106                 os.mkdir(file_path)
107             except:
108                 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败，请查看命名方式！')
109                 key = 0
110     if key == 1:
111         #print(file_path)
112         return file_path
113     else:
114         #print('文件夹创立失败，请排查错误！')
115         return None
116 
117 
118 def get_album_link(user_link):
119     """
120     通过个人主页正则匹配"个人相册"按钮链接
121     :param user_link: 个人主页网址，例如http://www.renren.com/24422****/profile
122     :return: <str>个人相册链接，例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
123     """
124     html_data = requests.get(user_link, headers=headers)
125     #print(html_data.text)
126     album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接
127     print('个人相册链接：',album_link)
128     return album_link
129 
130 
131 if __name__=='__main__':
132     Host_url= 'http://www.renren.com/23231****/profile'#个人主页
133     Host_id = Host_url.split('/')[-2]
134     data = get_album_data(get_album_link(Host_url))
135     person = data[4][0]
136     #print(person)
137     album_number = int(data[3][0])#相册数量
138     for i in range(0,album_number):
139         each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7'  # 构造各个相册链接,data[1][i]是相册id
140         #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id
141         print(each_album_link)
142         album_name = data[0][i] #相册名称
143         album_photoNumber = int(data[2][i])
144         download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)

相关阅读:
窗口函数ntile()
窗口函数--over (partiton by order by)
select top x with ties和select语句执行顺序
 被LTRIM(RTRIM())害死了，差点
 SQL Server 查询实例、数据库、表、列
 maven3 手动安装本地jar到仓库
 Maven3路程（六）用Maven创建Spring3 MVC项目
 Maven3路程（五）用Maven创建Hibernate项目
 在Maven仓库中添加Oracle JDBC驱动
 Maven3路程（四）用Maven创建Struts2项目
原文地址：https://www.cnblogs.com/aby321/p/10315805.html