• python爬虫-采集英语翻译


     

    http://fanyi.baidu.com/?aldtype=85#en/zh/drug
    http://fanyi.baidu.com/?aldtype=85#en/zh/cat
    http://fanyi.baidu.com/?aldtype=85#en/zh/amoxicillin


    url+word

    # -*- coding: utf-8 -*-
    """
    Created on Wed Mar 2 20:35:05 2016

    @author: daxiong
    """

    import openpyxl,selenium,bs4,requests
    from selenium import webdriver
    from openpyxl.cell import get_column_letter,column_index_from_string
    excel_name='translation.xlsx'
    #两个表格名字
    sheet_name="Sheet1"
    wb=openpyxl.load_workbook(excel_name)
    sheet=wb.get_sheet_by_name(sheet_name)

    English_columnname="A"
    Chinese_columnname="B"
    start=1

    #根据列表索引字母,返回列表
    def Get_column(columnname,thesheet):
    column_index=column_index_from_string(columnname)
    column=thesheet.columns[column_index-1]
    return column


    #根据列,返回列的值,用列表存储
    def Column_cellValues(column):
    cellValue_list=[]
    for cellObj in column[start:]: #console显示不全前面内容,出现第一项不是第一个
    #print(cellObj.value)
    cellValue_list.append(cellObj.value)
    return cellValue_list

    #返回英语翻译网址列表
    def Url_list(words_list):
    url_list=[]
    basic_url="http://fanyi.baidu.com/?aldtype=85#en/zh/"
    for word in words_list:
    url=basic_url+word
    url_list.append(url)
    return url_list

    English_column=Get_column(English_columnname,sheet)
    EnglishWords_list=Column_cellValues(English_column)
    url_list=Url_list(EnglishWords_list)

    #打开浏览器
    #browser=webdriver.Firefox()
    #browser.get(url_list[0])
    res=requests.get(url_list[0])
    res.raise_for_status()
    soup=bs4.BeautifulSoup(res.text,"lxml") #如果没有"lxml"参数,在其他系统或虚拟机会出错
    spanElems=soup.select('span')

  • 相关阅读:
    selenium自动化测试资源整理
    python获取目录下文件夹名称
    Appium-测试失败后屏幕截图的
    appium 多个设备同时执行
    七 Appium常用方法介绍
    六 APPIUM Android 定位方式
    Python运维开发基础08-文件基础
    Python运维开发基础09-函数基础
    Python运维开发基础06-语法基础
    Python运维开发基础07-文件基础
  • 原文地址:https://www.cnblogs.com/webRobot/p/5236802.html
Copyright © 2020-2023  润新知