爬虫

爬虫基础知识

爬虫概念

 爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

爬虫分类

1.通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。 
 简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。 
 
搜索引擎如何抓取互联网上的网站数据？
门户网站主动向搜索引擎公司提供其网站的url
搜索引擎公司与DNS服务商合作，获取网站的url
门户网站主动挂靠在一些知名网站的友情链接中

2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

最简单理解：
　　-通用爬虫：爬取整张页面
　　-聚焦爬虫：爬取页面中指定的内容

robots.txt协议

如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。
robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。
但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。
防君子不防小人协议

反爬虫

门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反反爬虫

爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

相关阅读:
SQL server 数据库的版本为661，无法打开，此服务器只支持655版及更低版本。不支持降级路径
 SQL Server 2005 企业版没有 Microsoft SQL Server Management
Tomcat 中 jsp 中文乱码显示处理解决方案
 ASP.NET后台输出js
未能加载文件或程序集“Newtonsoft.Json”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配
 socket:通常每个套接字地址(协议/网络地址/端口)只允许使用一次
 C# Socket连接无法访问已释放的对象
 未找到导入的项目，请确认 <Import> 声明中的路径正确
 轻量级容器Docker+微服务+RESTful API
Foundation和UIKit框架组织图
原文地址：https://www.cnblogs.com/hnlmy/p/10267123.html

Copyright © 2020-2023 润新知