• Node.Js 简单的数据采集示例,使用 crawler


    源码如下:

    // 文件名:collect-crawler.js
    /**
     * Node.Js 简单的数据采集示例,使用 crawler
     * 安装依赖:npm install crawler
     * 注意事项:gzip页面处理 gzip:true
     */
    
    const NmCrawler = require('crawler');
    const NmFs = require('fs');
    
    var c = new NmCrawler({
        maxConnections: 10,
        callback: function (error, res, done) {
            if (error) {
                console.log(error);
            } else {
                var $ = res.$;
                console.log($('title').text());
    
                NmFs.writeFile('./collect-crawler-163.html', res.body, () => {
                    console.log('write success');
                })
            }
            done();
        }
    })
    
    c.queue([{
        uri: 'http://www.163.com',
        // forceUTF8: true,
        // incomingEncoding: 'GBK'
    }])
    c.queue([{
        uri: 'https://pic2020.lianzhixiu.com/2016/1123/19/2.jpg',
        filename: "./img/collect-crawler-2.png",
        encoding: null,
        jQuery: false,
        callback: function (error, res, done) {
            if (error) {
                console.log(error);
            } else {
                NmFs.createWriteStream(res.options.filename).write(res.body);
                console.log('===', res.body.length, 'bytes');
            }
            done()
        }
    }])
    

    运行:

    node collect-crawler.js
    
  • 相关阅读:
    Post返回json值
    调用接口并获取放回json值
    c# 获取IP
    sqlserver2008不允许保存更改
    判断客户端是否是手机或者PC
    3.docker tomcat集群
    1.docker 安装
    Maven profiles 多环境配置
    MySQL 定时任务
    MyBatis 三剑客
  • 原文地址:https://www.cnblogs.com/sochishun/p/14378314.html
Copyright © 2020-2023  润新知