• python学习路线


    爬虫

    1.基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

    2.HTML基础、网络请求模块:requests(必学),urllib(可以了解)

    3.需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

    对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

    4.网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

    5.动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

    6.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    7.网络抓包分析(选学)

    8.爬虫框架:Scrapy(选学),pyspider(选学)

    9.分布式爬虫(选学)

    数据分析与处理

    1.基础知识:python(函数、模块、面向对象),正则表达式,JSON(必学)

    2.上述爬虫相关:

    ·基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

    ·HTML基础、网络请求模块:requests(必学),urllib(可以了解)

    ·需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

    对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

    ·网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

    ·动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

    ·数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    3.数据分析相关库:Pandas,Numpy,Scipy,结巴分析等(必学)

    4.图表绘图与可视化:Matplotlip,词云(必学)

     大数据(数据挖掘、机器学习)

    1.基础知识:python(基础+进阶)(必学)

    2.金融学、统计学、计量经济学、投资学(必学)

    3.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    4.数据分析相关库:Pandas,Numpy,Scipy,结巴分词(必学)

    5.图表绘图与可视化:Matplotlip等(必学)

    6.机器学习相关模型知识:朴素贝叶斯、决策树、Logistic回归、线性回归、KNN算法、SVM、

    Boosting、聚类、推荐系统、pLSA、LDA、GDBT、Regularization、异常检测、EM算法、Apriori、

    FP Growth等(必学)

    7.机器学习相关库:sklearn(必学)、keras、statsmodels、tensorflow(选学)

  • 相关阅读:
    Ax+By+C=0 直线一般式拟合 c++/python
    win7结束进程 时,提示“拒绝访问”、“没有此任务的实例运行” taskkill 结束不了进程
    Keras神经网络转到Android可用的模型
    Keras深度神经网络训练IMDB情感分类的四种方法
    解决win7 word 2016中不能加载EndNote x7
    Google Coral Dev Board
    pydot` failed to call GraphViz.Please install GraphViz
    使用可视化图表对 Webpack 2 的编译与打包进行统计分析
    webpack 多环境配置
    格式化时间
  • 原文地址:https://www.cnblogs.com/hankleo/p/10295656.html
Copyright © 2020-2023  润新知