在爬虫时我们需要网络代理伪装自己,那么什么是网络代理呢,参考https://blog.csdn.net/jss19940414/article/details/84944624,总结如下:
1、网络代理的原理:
代理服务器(proxy server)是网络信息的中转站。我们请求一个web服务器,web服务器响应传回给我们,而设置了代理服务器后,我们是通过代理服务器请求一个web服务器,web服务器的响应也是经过代理服务器后再返回给我们。此时web服务器识别到的请求ip为代理服务器ip而非我们本机ip,实现了IP伪装。
2、代理分类
FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。
HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。
SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。
RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。
Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。
SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。