• 技巧积累


    本文记录个人平时工作中一些浅显的见识,学到了新的技巧,关于编程的一些思考,持续更新。虽然现在还是一颗幼苗,但它会不断成长。

    做事情,技巧是一方面,主要还是贵在坚持。

    (1107)

    1. 爬虫时,去重问题需要随时记得

    2. 正则的效率问题。

      正则其内部也是一种循环,你给的越精确,循环越少,效率越快。给的范围越大,循环越多,效率越慢。

    3. 程序优化:

      1. 尽量简洁

      2. 重复代码用函数或类进行封装

    4. 工作中,不要跟领导或同事讲,数据可能差不多,程序应该没问题。程序有没有问题,跑完再说,有问题及时改,没问题更好。

    (1108)

    5. 保持头脑清醒。

    6. 不使用selenium

    (1116)

    7. 相同的功能,不同的代码效率真是个问题。

    8. 汉字表达法。。。将要实现的功能逻辑,用文字表示出来,然后一步一步用代码构造出整块内容,逻辑清晰,方便编写。而且写完了代码,注释也有了。初级时可以试试。

    (1119)

    9. 代理IP是真好用

    (1120)

    10. 代理IP不是万能的。。。打脸了

    11. 公司不养闲人。

    (1123)

    12. requests库timeout参数问题,timeout最好自己设定。

      python的requests库是没有默认请求超时时间的,有一次。。哈哈,自己的坑自己填吧。总之最好显示设定超时时间,防止意外发生。源码部分,自己去找也可以,有空我会找出来贴在这里。

    (1127)

    13. 写程序要进步。

    (1211)

    14. 有问题,一定要解决,加班也要解决,不能跳过去,也不能拖着

    15. 建数据库,索引很重要啊。。以前真是傻逼。。索引

    转眼2019年了。。。

    0106:

    16. 最近爬虫所遇到的问题,除验证码外,大都最终指向同一个问题,js。

    0124

    17. 关于函数封装这一部分,感觉以前做的不好。因为我总是用返回值的形式,将上一个函数,直接连接到下一个函数。个人认为比较好的做法是,一个功能封装成一个函数,用到哪个功能,就调用哪个函数。

    0504:

    18. 也许这是这篇博客更新的最后一段话。数据抓取终究不是长久之计,做爬虫工程师以来,数据的抓取难度越来越大,数据加密方式越来越严密,验证码的处理,十有八九都用上了第三方平台。当然我们也可以使用第三方验证码处理平台,但是依赖于别人的处理方式极为被动。所以,要想寻求更长远的发展,一定要做好打算,爬虫工程师的下一步是。。。

  • 相关阅读:
    lseek 与 ioctl
    perror表
    阻塞&&非阻塞
    linux read/write
    文件i/o函数 open/close
    linux 文件io
    linux下的静态库和共享库
    linux基本命令
    c++ 2.1 编译器何时创建默认构造函数
    Java学习笔记34(sql基础 :增删改查1)
  • 原文地址:https://www.cnblogs.com/zrmw/p/9923883.html
Copyright © 2020-2023  润新知