• Python3爬虫相关软件,库的安装


    Anaconda

    百度搜Anaconda清华,根据环境选择版本下载

    安装时记得勾选添加到环境变量,不要还要手动添加

    Anaconda Navigator可视化界面,可以方便地调用Jupyter等工具。

    MongoDB

    官网下载地址 https://www.mongodb.com/download-center?jmp=nav#production

    3.4版本需要如下配置,4.0不需要

    在I:MongoDBServer3.4目录下建立datadb

    在bin目录下,Shift+鼠标右键,打开PowerShell,输入

    mongod --dbpath I:MongoDBServer3.4datadb

    验证MongoDB启动成功,在浏览器输入

     

    localhost:27017

     

    启动MongoDB,打开新的cmd,输入

    mongo
    db
    db.test.insert(('a':'b'))

    将MongoDB作为服务,以管理员身份打开cmd,进入bin目录,在data目录下建立logsmongo.log,在cmd中输入

    mongod --bind_ip 0.0.0.0 --logpath I:MongoDBServer3.4datalogsmongo.log --logappend --dbpath
    I:MongoDBServer3.4datadb --port 27017 -serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

     

    Robomongo可视化界面

    下载地址:云盘快捷传送门→robo.3t.windows-x86_64.7zhttps://pan.baidu.com/s/1Y5uTvTT9rLlOrW9HnCMp7g 密码:1ycs
    (备注:想下载studio.3t的请选择studioxsdaw.rar)

    Redis

    key-value数据库,用到的时候再安装

    =====================================

    ---------------------------

    查询请求库

    urllib

    python自带,无需安装

    request

    pip3 install request
    
    import request
    
    requests.get('http://www.baidu.com')

    selenium

      打开浏览器执行

    先下载chromedriver,解压后包exe文件移动到已经配置了环境变量的目录下,如python/script,然后再执行下面的代码

    pip3 install selenium
    import selenium
    from selenium import webdriver
    driver=webdriver.Chrome()
    driver.get("http:\www.baidu.com")
    driver.page_source \打印网页源码

    phantomjs

    后台静默运行,无需打开浏览器

    下载地址http://phantomjs.org/download.html,解压后将bin目录添加到环境变量即可,无需安装,好像不更新了

    可以用headless chrome?

    lxml

    pip3 install lxml
    //另一种安装方式,先下载whl文件,再执行下面的命令
    pip3 install whl文件名

    beautifulsoup

    依赖lxml库,pip安装即可,记得是beautifulsoup4,不要打错

    pip3 install beautifulsoup4
    python
    from bs4 import BeautifulSoup
    soup=BeautifulSoup('(html)(/html)','lxml')

    pyquery

    注意html和/html外面是尖括号,其余是圆括号

    pip3 install pyquery
    python
    from pyquery import PyQuery as pq
    doc=pq('<html>hello</html>')//只有这行有尖括号
    result=doc('html').text()
    result

    ---------------------------------------------------

    存储库

    pymysql

    注意创建表时要用圆括号。

    pip3 install pymysql
    python
    import pymysql
    conn=pymysql.connect(host='localhost',user='root',password='yourpassword',port=3306,db='mysql')
    cursor = conn.cursor()  
    cursor.execute('select * form db')    返回数据大小
    cursor.fetchone()   返回执行结果

    执行到这儿的时候出错了,pymysql.err.OperationalError: (1045, "Access denied for user 'root'@'localhost' (using password: YES)")

    原因:不是pymysql出错,而是用户名密码的问题,不用密码可以进入mysql数据库,使用密码后反而不能(但我已经按照https://www.cnblogs.com/Pusteblume/p/10165287.html 重设密码了,还是不能登录)

    解决方案:卸载重装,虽然不是一个好的方法,但至少解决了问题

     pymongo

    pip3 install pymongo
    python
    import pymongo
    client = pymongo.MongoClient('localhost')
    db = client['newtestdb']
    db['table'].insert({'name':'Bob'})
    db['table'].find_one({'name':'Bob'})

    redis 分布式爬虫用,维护爬行队列,效率高

    直接执行下面的代码会提示由于目标计算机积极拒绝,无法连接,要手动下载Windows版的redis,网址https://github.com/MicrosoftArchive/redis/releases,安装后执行redis-server.exe,启动界面闪了一下就可以了,具体教程如下https://blog.csdn.net/sinat_29957455/article/details/78567194,也有的教程说执行redis-cli.exe,不过我没试过。

    pip3 install redis
    python
    import redis r=redis.Redis(host='localhost',port=6379)
    r.set('name','a')
    print(r.get('name'))

    flask

    pip3 install flask

    django 和网站有关

    pip3 install flask
  • 相关阅读:
    获取华为OID
    win10 mongodb的安装
    第一次使用plotly画图遇到的问题
    Java Serialable序列化
    yield(),sleep(),join()
    线程的启动的两种方法,Runnable接口,run()的调用
    Thread的中断机制
    Oracle VM VirtualBox 修改备份位置
    潜在因子算法
    Linux--常用命令
  • 原文地址:https://www.cnblogs.com/Pusteblume/p/10685826.html
Copyright © 2020-2023  润新知