题记:
11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国的投资业务。
人人网CEO陈一舟说:“很高兴为人人网找到一个新的归宿和起点。”
然而对于人人网曾经近2亿的注册用户来说,哪有什么新的开始,故事已经到了尽头。
彼时,他们还是刚刚逃离高考噩梦的青涩大学生,抓住人人网这个宣泄口乐此不疲地表达着自我;现在,他们苦思冥想记忆中的账号密码,费力登上网站,发布最后一条状态:再见,人人。
还有更多的人登陆了人人网的手机客户端,结果发现连发布状态的按钮都找不到,一个明晃晃的“我要开播”,和首页上让人眼花缭乱的美女短视频,显示出在移动互联网时代,人人网早已从一个社交App,转型为短视频和直播应用。
他们只能压抑住心中的不舍,卸载了这个承载青春记忆的网站,转而去微博上说出那句告别的话语,和千千万的人一起来缅怀过往,“人人网被卖了”迅速站上热搜榜第一。
曾经活跃在人人上的那些青年们,如今都走入社会结婚生子,他们中的许多人,正是在人人上认识了自己的人生伴侣;而新的大学年轻人被琳琅满目的App牵着走,睁眼微信,早饭抖音,上课豆瓣,下课B站,午饭微博,晚饭头条,一个个分散在各自的小圈子里,十年前全国的青年汇聚在校内网上谈论星辰大海的场景,终究会消逝在一代人的记忆当中。
此次案例:
Python3爬取人人网(校内网)个人照片及朋友照片,并一键下载到本地
逆向思维来
以自己的人人网主页为例http://www.renren.com/23231****/profile,其中23231****是人人网给每个人分配的id号(用****隐去了后面四位)
因为需要使用账户名和密码,本程序使用了cookie登陆(每天需要更换cookie)
第一步:下载某个相册内的所有照片到本地
打开自己的某个相册,我的以http://photo.renren.com/photo/23231****/album-252396640/v7,为例。多开几个相册观察相册的连接可以发现,album-后面的字符串代表了相册的id
人人网存储了两种大小的照片,一种是缩略图,一种是点开某个照片显示的原图(当然不可能跟你拍的原图是一样大小的,为节省空间,上传的过程中系统会进行同比例的压缩处理),我们这个脚本下载较大尺寸的照片
按F12打开开发者工具,找到某个照片的连接,分别copy到浏览器看一下哪个是大尺寸的照片连接,可以看到标红的即为我们需要的
那么接下来就是使用python赶紧着把这些url获取到吧
but!
xpath爬出来是空,why?查询源代码后发现上一段代码是写在<script>标签内的
那么就用正则匹配试了下是ok哒
but!
抓取出来的url数量比相册内的照片数量少啊,看了几个相册发现,源代码中的url最多有40个,如果你的相册中照片数量大于40就会不全,心塞!
爬虫写的多了,到这里就知道应该去哪里找了,当然是动态加载文件啊
开发者工具切换到network页签选择XHR,然后刷新一下网页并滑动到相册最下面,可以看到左下侧出现了很多,点击红色框线内的随意一个文件,在右侧选中Headers看RequestURL
把这段字符串粘贴到浏览器中,发现显示是json数据
经测试可知,去掉&requestToken=-1989347373&_rtk=552df62d也可,并且前面的pageSize可以更改大小(最大是100)
遍历输出的时候需要注意:相册内数量、pageSize和page三者是有关联的
那么问题来了,我还需要获取到相册数量这个参数!
1 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person): 2 """ 3 按照相册下载内部所有照片到同名文件夹 4 :param each_album_link:<str> 各个相册链接 5 :param album_photoNumber: <int> 每个相册内的照片数量 6 :param album_name: <str>相册名称,用来创建同名的文件夹 7 :param album_id:<str>相册id,用来创建同名文件夹 8 :param person: <str>所属人名字,用来创建一级文件夹名称 9 :return: none 10 """ 11 n = 0 12 while n < album_photoNumber: 13 #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7 14 #需要构建出来以下形式的相册网页(json格式) 15 # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ,经测试最多pageSize=100 16 link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1)) 17 js_link = each_album_link.replace('v7',link_para)#构建相册网页(json格式) 18 print(js_link) 19 20 file_path = make_file(person,album_name,album_id)#调用函数make_file 21 #print(file_path) 22 23 html_data = requests.get(js_link, headers=headers) 24 try: 25 json_data = html_data.json()['photoList'] 26 for i in range(0,len(json_data)): 27 link = json_data[i]['url']#获取相册中每张照片的下载链接 28 #print(link) 29 if file_path is None: 30 return 31 else: 32 if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'): 33 pass 34 else: 35 with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f: 36 f.write(requests.get(link, headers=headers).content) 37 except: 38 print('访问受限,需要密码!') 39 40 n = n + 100#根据Pagesize设置步长
第一步小结:
通过相册的id或者连接+相册内的照片数量共同构建json格式的相册链接,通过这个链接可以获取到照片的下载地址,通过write写入本地
注意一点,有的相册是需要访问密码的,虽说能获取相册的一些信息,但是没有json数据的
那么怎么获取各个相册的id或者连接和照片数量呢?请看第二步
第二步:获取每个相册的id、内含照片数量、相册名称等信息
在个人的“相册”下就能够获取这些信息,例如我的相册http://photo.renren.com/photo/23231***/albumlist/v7?offset=0&limit=40#或者http://photo.renren.com/photo/23231****/albumlist/v7均可访问
注意一下,页面右下角有个按钮“查看全部”
,一定要点击一下看看是否页面发生了变化。反正我的是变了,一些相册也展现了出来。这时在看下网页链接是否发生了变化
结果,多了“showAll=1#”
因此,这一步骤的个人相册网页可以直接变为:http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1
跟步骤一一样,相册的一些信息也是写在<stript>标签内的,看网址中有个limit=40猜想应该也是限制了源代码中只有40个相册的信息
因为我的相册不够40个,因此无法获取动态加载的文件,索性就直接正则匹配吧
如果你的相册数量大于40,可以安装步骤一的思路来获取
1 def get_album_data(album_link): 2 """ 3 在个人相册链接的网页源代码中,正则匹配相册数量和所有相册的名称、id、相册内包含的照片数 4 :param album_link: <str> 个人相册链接,点开显示全部可看完整的相册展示,因此连接中需要写明showAll=1 5 例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1 6 :return: <list> 相册名称、id、内含照片数以及相册数量和所属人名字 7 """ 8 html_data = requests.get(album_link, headers=headers) 9 album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S) 10 print('直接正则匹配出来的相册名称,不一定显示中文:',album_name) 11 album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S) 12 album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S) 13 album_number = re.findall("albumCount': (.*?),",html_data.text,re.S) 14 person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人 15 #print('各相册信息:',album_name,album_id,album_photoNumber,album_number,person) 16 return album_name,album_id,album_photoNumber,album_number,person
这里有个坑就是获取到album_name的字段,打印出来看有时候显示中文,有时候显示'\u660e\u660e\u7684\u5feb\u4e50\u751f\u6d3b'这种鬼样子……
还有的时候本来相册的名字是“我的大学——朋友”,中间有个——,那么若是全部显示成Unicode形式倒也没问题,直接整体做个转换就行
but有时候直接显示出来我的大学u2014u2014朋友,这个坑我暂时还没想到怎么处理……
第二步小结:通过个人相册的连接打开,用正则匹配出每个相册的名称、id、内含照片数量、相册数量(包含照片数量为0的相册)和所属人
这一步只获取了各个相册的id,并没有直接返回相册的连接(这一步操作在主函数中进行)
那么怎么获取个人相册的连接呢?请看第三步
第三步:通过个人主页获取个人相册链接
这一步就很简单了,啥方法都行,别忘了后面加上'?showAll=1'才能显示全部相册
def get_album_link(user_link): """ 通过个人主页正则匹配"个人相册"按钮链接 :param user_link: 个人主页网址,例如http://www.renren.com/24422****/profile :return: <str>个人相册链接,例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1 """ html_data = requests.get(user_link, headers=headers) #print(html_data.text) album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接 print('个人相册链接:',album_link) return album_link
第三步没啥可总结的,个人主页就手动找手动输入吧
第四步:创建文件夹
思路是手动提前建立《人人网相册》,然后在此文件夹下按照所属人姓名建立一级文件夹,在一级文件夹下按照文件夹名称同名建立文件夹保存照片
既然要建立文件夹并命名,就少不了命名方面的规范,我这里没有做严格的筛选,若无法新建则直接pass
因为读取的是第二步返回的相册名称,因此有同样的相册显示问题,我这里认为显示的是unicode形式,然后做了.encode("utf-8").decode("unicode_escape"),这样可以保证显示出来的是中文;
若读取出来的直接是中文,经过.encode("utf-8").decode("unicode_escape")后显示的是乱码(也能创建文件夹成功),此时重新运行直到显示的是unicode即可
这一步没有找到很好的解决方案
1 def make_file(person,album_name,album_id): 2 """ 3 创建一级文件夹(以个人名字为文件名称)和二级文件夹(以相册名称命名),若存在则不重复建立 4 若存在或者创建成功key=1并返回路径,否则key=0 5 对文件命名规范不做限制,若失败直接pass 6 注意事项:读出的相册名称有时候显示中文,有时候显示成unicode形式,有时候两者均有;album_id是为了区别人人网上有重名的文件夹 7 :param person: <str> 个人名字,用来生成个人名下的一级文件夹 8 :param album_name: <str> 相册名字,用来生成同名文件夹 9 :param album_id:<str>相册id,用来创建同名文件夹 10 :return:<str> 相册所在路径 11 """ 12 13 file_path='' 14 album_name = album_name.encode("utf-8").decode("unicode_escape") 15 #按个人名字生成一级文件夹,成功创建或者已存在则key=1,否则key=0 16 if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)): 17 key = 1 18 else: 19 try: 20 os.mkdir(os.getcwd() + '人人网相册'+'/' + person) 21 key = 1 22 except: 23 key = 0 24 print(key,'文件夹《' + person + '》创建失败,请查看命名方式!') 25 26 #在一级文件夹下(以key=1进行判断)生成各个相册的文件夹 27 if key == 1: 28 file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题 29 if os.path.exists(file_path): 30 pass 31 else: 32 try: 33 os.mkdir(file_path) 34 except: 35 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败,请查看命名方式!') 36 key = 0 37 if key == 1: 38 #print(file_path) 39 return file_path 40 else: 41 #print('文件夹创立失败,请排查错误!') 42 return None
第四步小结:
如果简单点来做的话,可以用个人id和相册的id作为文件夹名称,因为都是数字肯定不会出错,但是就是对于读者不太友好
所有功能的函数都已调试好之后,需要主函数调用各个模块啦,为了方便理解,先画个图吧(画的不专业,意思意思)
1 if __name__=='__main__': 2 Host_url= 'http://www.renren.com/23231****/profile'#个人主页 3 Host_id = Host_url.split('/')[-2] 4 data = get_album_data(get_album_link(Host_url)) 5 person = data[4][0] 6 #print(person) 7 album_number = int(data[3][0])#相册数量 8 for i in range(0,album_number): 9 each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7' # 构造各个相册链接,data[1][i]是相册id 10 #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id 11 print(each_album_link) 12 album_name = data[0][i] #相册名称 13 album_photoNumber = int(data[2][i]) 14 download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)
输出结果:
总结:
1. 如果登陆自己的账户,不仅可以爬下自己的照片,还可以爬其他人的
因为人人网是相对来说公开的,只有你能浏览到的就可以爬,如果有些人设置了好友可见(那么你如果作为非好友是看不到也爬不下来的)
2. 其实可以用打包软件生成可执行文件,这样小伙伴们就可以用自己的账号或者cookie下载自己的啦
3. 免登陆的方式有很多种,我这里使用的是cookie方式,每天都需要更改cookie,不太友好,以后会专门写一篇关于这种账号登陆的网站怎么爬取的文章吧
4. 其实每张照片都有评论的,评论也是可以有方法爬取的呦
5. 运行的时候,观察一下打印出来的相册名称,若是中文请重新运行直到是显示成\u****的unicode形式
源代码:
1 ''' 2 Python3爬取人人网(校内网)个人照片及朋友照片,并一键下载到本地 3 免登陆的方式有很多种,我这里使用的是cookie方式,每天都需要更改cookie 4 如果登陆自己的账户,不仅可以爬下自己的照片,还可以爬其他人的 5 因为人人网是相对来说公开的,只有你能浏览到的就可以爬,如果有些人设置了好友可见(那么你如果作为非好友是看不到也爬不下来的) 6 ''' 7 8 9 import requests,re,os 10 11 headers = { 12 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', 13 'cookie':你的cookie,自行填写 14 } 15 16 def download_photo(each_album_link,album_photoNumber,album_name,album_id,person): 17 """ 18 按照相册下载内部所有照片到同名文件夹 19 :param each_album_link:<str> 各个相册链接 20 :param album_photoNumber: <int> 每个相册内的照片数量 21 :param album_name: <str>相册名称,用来创建同名的文件夹 22 :param album_id:<str>相册id,用来创建同名文件夹 23 :param person: <str>所属人名字,用来创建一级文件夹名称 24 :return: none 25 """ 26 n = 0 27 while n < album_photoNumber: 28 #例如个人某个相册链接为http://photo.renren.com/photo/23231****/album-284966900/v7 29 #需要构建出来以下形式的相册网页(json格式) 30 # 'http://photo.renren.com/photo/23231****/album-284966900/bypage/ajax/v7?page=1&pageSize=100' ,经测试最多pageSize=100 31 link_para = 'bypage/ajax/v7?page={}&pageSize=100'.format(int((n/100)+1)) 32 js_link = each_album_link.replace('v7',link_para)#构建相册网页(json格式) 33 print(js_link) 34 35 file_path = make_file(person,album_name,album_id)#调用函数make_file 36 #print(file_path) 37 38 html_data = requests.get(js_link, headers=headers) 39 try: 40 json_data = html_data.json()['photoList'] 41 for i in range(0,len(json_data)): 42 link = json_data[i]['url']#获取相册中每张照片的下载链接 43 #print(link) 44 if file_path is None: 45 return 46 else: 47 if os.path.exists(file_path +'/'+str(i+n+1)+'.jpg'): 48 pass 49 else: 50 with open(file_path +'/'+str(i+n+1)+'.jpg','wb') as f: 51 f.write(requests.get(link, headers=headers).content) 52 except: 53 print('访问受限,需要密码!') 54 55 n = n + 100#根据Pagesize设置步长 56 57 def get_album_data(album_link): 58 """ 59 在个人相册链接的网页源代码中,正则匹配相册数量和所有相册的名称、id、相册内包含的照片数 60 :param album_link: <str> 个人相册链接,点开显示全部可看完整的相册展示,因此连接中需要写明showAll=1 61 例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1 62 :return: <list> 相册名称、id、内含照片数以及相册数量 63 """ 64 html_data = requests.get(album_link, headers=headers) 65 album_name = re.findall('"albumName":"(.*?)"', html_data.text,re.S) 66 print('直接正则匹配出来的相册名称,不一定显示中文:',album_name) 67 album_id = re.findall('"albumId":"(.*?)"', html_data.text,re.S) 68 album_photoNumber = re.findall('"photoCount":(.*?),', html_data.text,re.S) 69 album_number = re.findall("albumCount': (.*?),",html_data.text,re.S) 70 person = re.findall('<title>人人网 - (.*?)的相册</title>',html_data.text,re.S)#人人网所属人 71 print('各相册信息:',album_name,album_id,album_photoNumber,album_number,person) 72 return album_name,album_id,album_photoNumber,album_number,person 73 74 def make_file(person,album_name,album_id): 75 """ 76 创建一级文件夹(以个人名字为文件名称)和二级文件夹(以相册名称命名),若存在则不重复建立 77 若存在或者创建成功key=1并返回路径,否则key=0 78 对文件命名规范不做限制,若失败直接pass 79 注意事项:读出的相册名称有时候显示中文,有时候显示成unicode形式,有时候两者均有;album_id是为了区别人人网上有重名的文件夹 80 :param person: <str> 个人名字,用来生成个人名下的一级文件夹 81 :param album_name: <str> 相册名字,用来生成同名文件夹 82 :param album_id:<str>相册id,用来创建同名文件夹 83 :return:<str> 相册所在路径 84 """ 85 86 file_path='' 87 album_name = album_name.encode("utf-8").decode("unicode_escape") 88 #按个人名字生成一级文件夹,成功创建或者已存在则key=1,否则key=0 89 if os.path.exists((os.getcwd() + '人人网相册'+'/' + person)): 90 key = 1 91 else: 92 try: 93 os.mkdir(os.getcwd() + '人人网相册'+'/' + person) 94 key = 1 95 except: 96 key = 0 97 print(key,'文件夹《' + person + '》创建失败,请查看命名方式!') 98 99 #在一级文件夹下(以key=1进行判断)生成各个相册的文件夹 100 if key == 1: 101 file_path = os.getcwd() + '/人人网相册' + '/' + person + '/' + album_name+'_'+ album_id#加id是为了解决文件夹重名问题 102 if os.path.exists(file_path): 103 pass 104 else: 105 try: 106 os.mkdir(file_path) 107 except: 108 print(key, '文件夹《' + album_name +'_'+ album_id+'》创建失败,请查看命名方式!') 109 key = 0 110 if key == 1: 111 #print(file_path) 112 return file_path 113 else: 114 #print('文件夹创立失败,请排查错误!') 115 return None 116 117 118 def get_album_link(user_link): 119 """ 120 通过个人主页正则匹配"个人相册"按钮链接 121 :param user_link: 个人主页网址,例如http://www.renren.com/24422****/profile 122 :return: <str>个人相册链接,例如http://photo.renren.com/photo/24422****/albumlist/v7?showAll=1 123 """ 124 html_data = requests.get(user_link, headers=headers) 125 #print(html_data.text) 126 album_link = re.findall('"(.*?)">相册', html_data.text)[0]+'?showAll=1'#获取个人相册的连接 127 print('个人相册链接:',album_link) 128 return album_link 129 130 131 if __name__=='__main__': 132 Host_url= 'http://www.renren.com/23231****/profile'#个人主页 133 Host_id = Host_url.split('/')[-2] 134 data = get_album_data(get_album_link(Host_url)) 135 person = data[4][0] 136 #print(person) 137 album_number = int(data[3][0])#相册数量 138 for i in range(0,album_number): 139 each_album_link = 'http://photo.renren.com/photo/'+Host_id+'/album-' + data[1][i] + '/v7' # 构造各个相册链接,data[1][i]是相册id 140 #each_album_link = 'http://photo.renren.com/photo/24422****/album-' + data[1][i] + '/v7' #构造各个相册链接,data[1][i]是相册id 141 print(each_album_link) 142 album_name = data[0][i] #相册名称 143 album_photoNumber = int(data[2][i]) 144 download_photo(each_album_link, album_photoNumber, album_name,data[1][i],person)