爬虫的合法性研究
爬虫究竟是合法还是违法的?
这个问题 确实让我们程序员有点后背发凉、只是写了几行简单的代码 就莫名其妙的进局子了,还以为我们干什了大买卖呢。那么今天我们就探究一下爬虫的合法性。
正解在此
爬虫作业一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至犯罪的风险的。
- 所谓具体问题具体分析正如水果刀本身在法律上是不被禁止的,但是用来捅人,就是你的不对了。
- 如我们说浏览器上展示的信息 我们是不是可以复制啊 其实就像浏览器一样 解析并显示了页面内容,爬虫只是批量下载而已,所以是合法,不合法的情况利用爬虫结合黑客技术攻击网站后台密切用户信息。那也是你的不对了。
- 举个例子:像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。但是像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次,铁总并不觉得很开心,这种就被定义为“恶意爬虫”
爬虫所带来风险主要体现在以下两个方面
- 爬虫干扰了网站的正常运营
- 爬抓取了受到法律保护的特定类型数据或信息
那么作为爬虫开发者,如何避免进局子?
- 严格遵守网站设置的robots协议;
- 在规避反爬虫措施的同时,需要优化自己代码,避免干扰到网站正常运营
- 在使用爬虫,抓取信息,应审查信息内容 ,如有发现个人用户信息,隐私或者他人商业秘密的,应及时T停止并删除。
可以说在我们身边的网络上已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。所以爬虫是趋利的,它们永远会向有利益的地方爬行。技术本身是无罪的,问题往往出在人无限的欲望上。因此爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。