• Python爬取13个旅游城市


    Python3正则表达式之:(?(id/name)yes-pattern|no-pattern)条件性匹配

    1. 用途
    (?(id/name)yes-pattern|no-pattern)的作用是:

    对于给出的id或者name,先尝试去匹配 yes-pattern部分的内容;

    如果id或name条件不满足,则去匹配no-pattern部分的内容;

    这句话听着还是很拗口的,或者说一下子还是很难懂的。

    2. 参数含义
    此处的name或id,是针对(当前位置的)条件性匹配之前的,某个已经通过group去分组的内容

    name: 如果是有命名的分组,即named group,则对应的该分组就有对应的name,即此处所指的就是对应的name;

    id: 如果是无命名的分组,即unnamed group,则对应的该分组也有对应的分组的编号,称为group的number,也叫做id,对应的就是这里的id;

    yes-pattern: 如果前面的group匹配成功,则此处,就执行yes-pattern的匹配;

    no-pattern: 如果前面group匹配不成功,即没有找到符合该的group内容,则就匹配no-pattern;

    注意: 上面的yes-pattern和no-pattern,都是普通的正则表达式,用来匹配所需的内容。

    3. 语法
    如果存在no-pattern,则前面要有个竖杠’|’,用来分隔yes-pattern和no-pattern

    如果不想匹配no-pattern的部分,则可以连同'|'一起不写。

    >>> re.search(r'(\d+)?(?(1)\w+|pythontab\.\w+)', 'pytsshontab.com')>>> re.search(r'(\d+)?(?(1)\w+)', '100pythontab')
      

    其中的?(1)代表序号为1的group, 也就是上面(\d+), 第二个表达式中就没有使用no-pattern

    4. 用法详解
    还是上面的例子, 我们变换一下, 用实例探索它们的详细用法及技巧

    4.1 把(\d+)后面的问号去掉, 也就是说必须存在group 1,不是可有可无

    执行:

    >>> re.search(r'(\d+)(?(1)\w+|pythontab\.\w+)', 'a')
    >>>
      

    整体规则匹配失败,返回为空,no-pattern部分并没有按照预想执行。

    4.2 改一下匹配字符串

    >>> re.search(r'(\d+)(?(1)\w+|pythontab\.\w+)', '1a')
      今天,通过分析去哪儿网部分城市门票售卖情况,简单的分析一下哪些景点比较受欢迎。等下次假期可以做个参考。

    用到的Python模块
    BeautifulSoup、requests、pymongo、pylab

    方法:
    通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京 ,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信息。

    这里为了偷懒只爬取了前4页的景点信息,每页有15个景点。因为去哪儿并没有什么反爬措施,所以直接请求就可以了。

    这里只是随机选择了13个热门城市:北京, 上海, 成都, 三亚, 广州, 重庆, 深圳, 西安, 杭州, 厦门, 武汉, 大连, 苏州。

    并将爬取的数据存到了MongoDB数据库 。

    import requests
    from bs4 import BeautifulSoup
    from pymongo import MongoClient

    class QuNaEr():
    def __init__(self, keyword, page=1):
    self.keyword = keyword
    self.page = page

    def qne_spider(self):
    url = 'https://piao.qunar.com/ticket/list.htm?keyword=%s&region=&from=mpl_search_suggest&page=%s' % (self.keyword, self.page)
    response = requests.get(url)
    response.encoding = 'utf-8'
    text = response.text
    bs_obj = BeautifulSoup(text, 'html.parser')

    arr = bs_obj.find('div', {'class': 'result_list'}).contents
    for i in arr:
    info = i.attrs
    # 景区名称
    name = info.get('data-sight-name')
    # 地址
    address = info.get('data-address')
    # 近期售票数
    count = info.get('data-sale-count')
    # 经纬度
    point = info.get('data-point')

    # 起始价格
    price = i.find('span', {'class': 'sight_item_price'})
    price = price.find_all('em')
    price = price[0].text

    conn = MongoClient('localhost', port=27017)
    db = conn.QuNaEr # 库
    table = db.qunaer_51 # 表

    table.insert_one({
    'name' : name,
    'address' : address,
    'count' : int(count),
    'point' : point,
    'price' : float(price),
    'city' : self.keyword
    })

    if __name__ == '__main__':
    citys = ['北京', '上海', '成都', '三亚', '广州', '重庆', '深圳', '西安', '杭州', '厦门', '武汉', '大连', '苏州']
    for i in citys:
    for page in range(1, 5):
    qne = QuNaEr(i, page=page)
    qne.qne_spider()
      

    最受欢迎的15个景区
    from pymongo import MongoClient
    # 设置字体,不然无法显示中文
    from pylab import *

    mpl.rcParams['font.sans-serif'] = ['SimHei']

    conn = MongoClient('localhost', port=27017)
    db = conn.QuNaEr # 库
    table = db.qunaer_51 # 表

    result = table.find().sort([('count', -1)]).limit(15)
    # x,y轴数据
    x_arr = [] # 景区名称
    y_arr = [] # 销量
    for i in result:
    x_arr.append(i['name'])
    y_arr.append(i['count'])

    """
    去哪儿月销量排行榜
    """
    plt.bar(x_arr, y_arr, color='rgb') # 指定color,不然所有的柱体都会是一个颜色
    plt.gcf().autofmt_xdate() # 旋转x轴,避免重叠
    plt.xlabel(u'景点名称') # x轴描述信息
    plt.ylabel(u'月销量') # y轴描述信息
    plt.title(u'拉钩景点月销量统计表') # 指定图表描述信息
    plt.ylim(0, 4000) # 指定Y轴的高度
    plt.savefig('去哪儿月销售量排行榜') # 保存为图片
    plt.show()
      

  • 相关阅读:
    Python 特殊语法:filter、map、reduce、lambda
    db2 常用命令(二)
    db2 常用命令(一)
    java 基础
    No.16 selenium学习之路之异常处理
    python之assert断言
    python之uinttest单元测试框架
    测试用例
    No.15 selenium for python JavaScript
    No.14 selenium for python table表单
  • 原文地址:https://www.cnblogs.com/huaobin/p/15675669.html
Copyright © 2020-2023  润新知