多线程访问网站的爬虫的问题

自己开发一套配置型爬虫，前2日一直对效率不高有极大疑惑，为什么不高！网速肯定是一方面的原因，但自身程序也肯定是有一方面的原因。

原来是并发请求一个网站惹的祸。

在设计的时候，追求完美，一个进程（主进程）里会启动多个子进程（每个配置的网站的抓取进程），每个子进程可配置多个线程，想法就这样。所有功能都实现以后，发现有的网站很爱给我返回错误页面，而有的网站正常。

于是检查原因，对经常出现错误的网站又进行断点测试，又在服务器上新配置特殊抓取，总也发现不到错误，一切正常啊，为什么在生产环境就错误。

查日志对方服务器返回503错误。各种403，404的错误，爬虫开发我早已不信这些个返回码了，很多人喜欢欺骗开发爬虫的人，谁让开发爬虫的人也欺骗他呢(玩user-agent之类的把戏)。所以这些返回码除了正常的意外，400以上的都不信。原因可能是我访问过于频繁，封了，也可能没封，而是同时以一个IP地址提交了2个访问请求，对方有此验证。

验证。

1.是否被封

　　wget一个用程序访问出错的地址，可以访问，当前IP可以使用。

2.是否并发

　　测试是因为对方服务器有同一IP地址访问或者给对方压力（本爬虫为分布式爬虫，多台机器做下载端）导致对方服务器资源情况过大等原因。

　　将所有当前下载端线程数都该为1。

结果：

　　情况出乎我的意料，以此速度能满足产品需求。

问题：请有知道的同学告诉下nginx/1.0.4服务器或者apache webservice服务是否有相关机制，抑或是自己对方自己写的一个功能扩展.

相关阅读:
Eclipse下配置javaweb项目快速部署到tomcat
SpringMVC中如何在网站启动、结束时执行代码（详细，确保可用）
# 浏览器兼容性小结
# HTML && CSS 学习笔记
# li鼠标移入移出，点击，变背景色，变checkbox选中状态
SpringMVC开发入门讲义
Spring同mybatis整合讲义(事物)
Spring中的AOP开发
Spring框架IOC，DI概念理解
Mybatis里SQL语句的分页

原文地址：https://www.cnblogs.com/CLTANG/p/2425496.html