• 用python抓取求职网站信息


    本次抓取的是智联招聘网站搜索“数据分析师”之后的信息。

    python版本: python3.5。

    我用的主要package是 Beautifulsoup + Requests+csv

     另外,我将招聘内容的简单描述也抓取下来了。

    文件输出到csv文件后,发现用excel打开时有些乱码,但用文件软件打开(如notepad++)是没有问题的。

    为了能用Excel打开时正确显示,我用pandas转换了以下,并添加上列名。转化完后,就可以正确显示了。关于用pandas转化,可以参考我的博客:

    由于招聘内容的描述较多,最后将csv文件另存为excel文件,并调整下格式,以便于查看。

    最后效果如下:

    实现代码如下:信息爬取的代码如下:

     1 # Code based on Python 3.x
     2 # _*_ coding: utf-8 _*_
     3 # __Author: "LEMON"
     4 
     5 
     6 from bs4 import BeautifulSoup
     7 import requests
     8 import csv
     9 
    10 
    11 def download(url):
    12     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
    13     req = requests.get(url, headers=headers)
    14     return req.text
    15 
    16 
    17 def get_content(html):
    18     soup = BeautifulSoup(html, 'lxml')
    19     body = soup.body
    20     data_main = body.find('div', {'class': 'newlist_list_content'})
    21     tables = data_main.find_all('table')
    22 
    23     zw_list = []
    24     for i,table in enumerate(tables):
    25         if i == 0:
    26             continue
    27         temp = []
    28         tds = table.find('tr').find_all('td')
    29         zwmc = tds[0].find('a').get_text()
    30         zw_link = tds[0].find('a').get('href')
    31         fkl = tds[1].find('span').get_text()
    32         gsmc = tds[2].find('a').get_text()
    33         zwyx = tds[3].get_text()
    34         gzdd = tds[4].get_text()
    35         gbsj = tds[5].find('span').get_text()
    36 
    37         tr_brief = table.find('tr', {'class': 'newlist_tr_detail'})
    38         brief = tr_brief.find('li', {'class': 'newlist_deatil_last'}).get_text()
    39 
    40         temp.append(zwmc)
    41         temp.append(fkl)
    42         temp.append(gsmc)
    43         temp.append(zwyx)
    44         temp.append(gzdd)
    45         temp.append(gbsj)
    46         temp.append(brief)
    47         temp.append(zw_link)
    48 
    49         zw_list.append(temp)
    50     return zw_list
    51 
    52 
    53 def write_data(data, name):
    54     filename = name
    55     with open(filename, 'a', newline='', encoding='utf-8') as f:
    56         f_csv = csv.writer(f)
    57         f_csv.writerows(data)
    58 
    59 if __name__ == '__main__':
    60 
    61     basic_url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%85%A8%E5%9B%BD&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&sm=0&p='
    62 
    63     number_list = list(range(90)) # total number of page is 90
    64     for number in number_list:
    65         num = number + 1
    66         url = basic_url + str(num)
    67         filename = 'zhilian_DA.csv'
    68         html = download(url)
    69         # print(html)
    70         data = get_content(html)
    71         # print(data)
    72         print('start saving page:', num)
    73         write_data(data, filename)

    用pandas转化的代码如下:

     1 # Code based on Python 3.x
     2 # _*_ coding: utf-8 _*_
     3 # __Author: "LEMON"
     4 
     5 import pandas as pd
     6 
     7 df = pd.read_csv('zhilian_DA.csv', header=None)
     8 
     9 
    10 df.columns = ['职位名称', '反馈率', '公司名称', '月薪', '工作地点',
    11            '发布日期', '招聘简介', '网页链接']
    12 
    13 # 将调整后的dataframe文件输出到新的csv文件
    14 df.to_csv('zhilian_DA_update.csv', index=False)
  • 相关阅读:
    广义表的创建和遍历
    dev c++ Boost库的安装
    NAT模式
    vmware桥接模式
    smb与samba
    利用Linux的Samba服务模拟NT域
    使用samba进行共享文件操作步骤
    安装chrome
    使用虚拟机上网第二步
    TCP协议三次握手过程分析
  • 原文地址:https://www.cnblogs.com/lemonbit/p/6569179.html
Copyright © 2020-2023  润新知