• Python+Selenium之摘取网页上全部邮箱


    本文转载:http://blog.csdn.net/u011541946/article/details/68485981

    练习场景:在某一个网页上有些字段是我们感兴趣的,我们希望摘取出来,进行其他操作。但是这些字段可能在一个网页的不同地方。例如,我们需要在关于百度页面-联系我们,摘取全部的邮箱。

     

    思路拆分:

    1. 首先,需要得到当前页面的source内容,就像,打开一个页面,右键-查看页面源代码。

    2. 找出规律,通过正则表达式去摘取匹配的字段,存储到一个字典或者列表。

    3. 循环打印字典或列表中内容,Python中用 for 语句实现。

     

    技术角度实现相关方法:

    1. 查看页面的源代码,在Selenium中有driver.page_source 这个方法得到

    2. Python中利用正则,需要导入re模块

    3. for email in emails :

              print email

     1 # coding=utf-8  
     2   
     3 from selenium import webdriver  
     4 import re  
     5   
     6 driver = webdriver.Chrome()  
     7 driver.maximize_window()  
     8 driver.implicitly_wait(6)  
     9   
    10 driver.get("http://home.baidu.com/contact.html")  
    11 # 得到页面源代码  
    12 doc = driver.page_source  
    13 emails = re.findall(r'[w]+@[w.-]+',doc) # 利用正则,找出 xxx@xxx.xxx 的字段,保存到emails列表  
    14 # 循环打印匹配的邮箱  
    15 for email in emails:  
    16     print (email)  

    解释:

    在python正则表达式语法中,Python中字符串前面加上 r 表示原生字符串,用w表示匹配字母数字及下划线。re模块下findall方法返回的是一个匹配子字符串的列表。

  • 相关阅读:
    取多列数据的最大值、最小值sql
    java中实现时间差的计算
    数据更新sql
    自连接的用法sql
    获取第一条,最后一条数据sql
    复制表结构 表数据sql
    用 ORDER BY 生成“排序”列sql
    表之间的数据匹配(生成交叉表)sql
    SIP呼叫流程
    如何在WindowsPhone Bing Map控件中显示必应中国中文地图、谷歌中国中文地图。
  • 原文地址:https://www.cnblogs.com/fengyiru6369/p/7993230.html
Copyright © 2020-2023  润新知