NodeJs编写小爬虫

NodeJs编写小爬虫
一，爬虫及Robots协议

          爬虫，是一种自己主动获取网页内容的程序。
是搜索引擎的重要组成部分，因此搜索引擎优化非常大程度上就是针对爬虫而做出的优化。

          robots.txt是一个文本文件。robots是一个协议，而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在server上什么文件是能够被查看的。搜索机器人就会依照该文件里的内容来确定訪问的范围。



     如上图，我们能够在站点中直接訪问robots.txt文件查看站点禁止訪问和同意訪问的文件。

二，使用NodeJs爬去网页须要安装的模块

Express
       Express 是一个基于 Node.js 平台的极简、灵活的 web 应用开发框架。它提供一系列强大的特性。帮助你创建各种 Web 和移动设备应用。
        中文API：http://www.expressjs.com.cn/

Request
       简化了http请求。
       API：https://www.npmjs.com/package/request

Cheerio
        以一种相似JQ的方式处理爬取到的网页。
        API：https://www.npmjs.com/package/cheerio

这三个模块在安装NodeJs 之后，能够使用npm命令进行安装。

三，简单爬取网页演示样例
```
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');
app.get('/', function(req, res){
    request('http://blog.csdn.net/lhc1105', function (error, response, body) {
      if (!error && response.statusCode == 200) {
        $ = cheerio.load(body);//当前的$,它是拿到了整个body的前端选择器
      console.log($('.user_name').text()); //我博客的获取username
      }else{
         console.log("思密达，没爬取到username，再来一次");
      }
})
});
app.listen(3000);
```
之后，

然后在浏览器中訪问：http://localhost:3000/。就能看到输出的username。

感觉比python爬取方便点儿，主要是对网页元素解析上，省去了非常多正則表達式。

by the way ,新年快乐~~~
相关阅读:
DOS 批处理命令For循环命令详解
 怎样在电脑上下载哔哩哔哩的视频？
华为事件启思：美国究竟有多少高科技公司？
常用电子书下载收藏
 [置顶] 【玩转cocos2d-x之七】场景类CCScene和布景类CCLayer
递归循环JSON
POJ_1365_Prime_Land
WIX在VS2012中如何制作中文安装包
 PKU Online Judge 1054:Cube （设置根节点）
MFC——AfxParseURL用法
原文地址：https://www.cnblogs.com/cynchanpin/p/7270035.html

NodeJs编写小爬虫

一，爬虫及Robots协议

二，使用NodeJs爬去网页须要安装的模块

三，简单爬取网页演示样例