import time import urllib.request from bs4 import BeautifulSoup file = open(r'meituancde.txt', 'w') def get_url(i): url = 'https://www.lagou.com/zhaopin/ceshi/%s/?filterOption=%s' % (i, i) return url def get_html(i): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } response = urllib.request.Request(url=get_url(i), headers=headers) html = urllib.request.urlopen(response).read().decode('utf-8') sopu = BeautifulSoup(html,"html.parser") return sopu def parse(i): soup = get_html(i) me = soup.findAll('', {'class': 'money'}) # 工资 me1 = soup.findAll('', {'class': 'format-time'}) # 发布时间 me2 = soup.findAll('', {'class': 'li_b_r'}) # 福利 me3 = soup.findAll('', {'data-lg-tj-id': '8F00'}) # 公司名字 meitu = {} i = 0 for title in me: meitu['gongzi'] = me[i].text for jianjie in me1: meitu['发布时间'] = me1[i].text for sellum in me2: meitu['福利'] = me2[i].text for pire in me3: meitu['公司名称'] = me3[i].text i += 1 print(meitu) if len(meitu) != 0: file.write(str(meitu)) file.write(" ") file.close if __name__ == '__main__': for i in range(1, 31): parse(i)
爬去结果:
{'gongzi': '20k-40k', '发布时间': '1天前发布', '福利': '“大数据平台,千万级用户,高并发系统,技术”', '公司名称': '人人行(借贷宝)'}
{'gongzi': '15k-28k', '发布时间': '1天前发布', '福利': '“五险一金,团队分享,友好的同事,地铁周边”', '公司名称': '玖富集团'}
{'gongzi': '12k-24k', '发布时间': '1天前发布', '福利': '“团队协作,技术大牛,办公环境”', '公司名称': '平安好房'}
{'gongzi': '5k-10k', '发布时间': '1天前发布', '福利': '“五险一金,免费住宿,免费班车”', '公司名称': '惠龙易通'}
{'gongzi': '10k-15k', '发布时间': '09:55发布', '福利': '“技术大牛,不打卡,十四薪,六险一金”', '公司名称': '洋钱罐'}
{'gongzi': '5k-10k', '发布时间': '09:57发布', '福利': '“公司前景好 双休 五险一金”', '公司名称': '高达软件'}
{'gongzi': '8k-16k', '发布时间': '09:18发布', '福利': '“发展迅速,全员持股,国外旅游,自由打卡”', '公司名称': '蜂融网络'}
{'gongzi': '10k-15k', '发布时间': '09:01发布', '福利': '“节日礼金,年底奖金,体检旅游,带薪年假”', '公司名称': '江苏亿科达'}
{'gongzi': '6k-12k', '发布时间': '09:39发布', '福利': '“发展空间好,团队氛围好,福利好,敏捷开发”', '公司名称': '达摩网络'}
{'gongzi': '10k-15k', '发布时间': '09:37发布', '福利': '“证券行业,上市公司”', '公司名称': '金证股份'}
{'gongzi': '4k-6k', '发布时间': '08:05发布', '福利': '“周末双休,带薪年假,旅游团建多,发展空间大”', '公司名称': '传影科技'}
{'gongzi': '6k-12k', '发布时间': '09:57发布', '福利': '“各项补贴,年假病假”', '公司名称': '华云数据'}
{'gongzi': '5k-8k', '发布时间': '09:13发布', '福利': '“高成长企业,团队强悍,地铁周边”', '公司名称': 'Udesk-企业级智能客服平台'}
{'gongzi': '10k-13k', '发布时间': '08:33发布', '福利': '“大平台 稳定 轻松”', '公司名称': '上海中软华腾软件系统有限公司'}
{'gongzi': '10k-20k', '发布时间': '1天前发布', '福利': '“五险一金,员工旅游,年底双薪,年底奖金”', '公司名称': 'Trusfort芯盾时代'}
[Finished in 18.8s]