• Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫


    功能:从天涯帖子中下载楼主发言到一个文本文件中

    实验对象:http://bbs.tianya.cn/post-no05-308123-1.shtml  《鹿鼎记中计》 柳成萌著

    爬取效果:除第一个贴需要手动下载外,其它均可自动完成,并有断点续传功能。 

    爬取结果下载:https://files.cnblogs.com/files/xiandedanteng/ludingjizhongji.zip   这是篇好文章,值得一读。

    代码:

    //======================================================
    // 天涯帖子下载爬虫1.00
    // 目标:http://bbs.tianya.cn/post-no05-308123-1.shtml
    // 2018年3月22日
    //======================================================
    
    // 内置https模块
    var https=require("https");
    
    // 内置http模块
    var http=require("http");
    
    // 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的)
    var zlib = require('zlib'); 
    
    // 内置文件处理模块,用于创建目录和图片文件
    var fs=require('fs');
    
    // 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码
    var iconv = require('iconv-lite');
    
    // cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
    var cheerio = require("cheerio");
    
    // 请求参数,JSON格式,http和https都有使用
    var options;
    
    // request请求
    var req;
    
    // 数据数组,找到的帖子时间和内容会放到这里
    var datas=[];
    
    //--------------------------------------
    // 爬取网页,找帖子内容,再爬
    // pageUrl sample:http://bbs.tianya.cn/post-no05-308123-1.shtml
    //--------------------------------------
    function crawl(pageUrl){
        console.log("Current page="+pageUrl);
    
        // 得到hostname和path
        var currUrl=pageUrl.replace("http://","");
        var pos=currUrl.indexOf("/");
        var hostname=currUrl.slice(0,pos);    
        //console.log("hostname="+hostname);
        var path=currUrl.slice(pos);    
        //console.log("path="+path);
        pos=currUrl.lastIndexOf("/");
        var dir="http://"+currUrl.slice(0,pos);            
        //console.log("dir="+dir);
        
        // 初始化options  
        options={
            hostname:hostname,
                port:80,
                path:path,// 子路径
              method:'GET',        
        };
    
        req=http.request(options,function(resp){
            var html = [];
    
            resp.on("data", function(data) {
                html.push(data);
            })
            resp.on("end", function() {
                var buffer = Buffer.concat(html);
    
                var body = buffer.toString();// http://bbs.tianya.cn/post-no05-308123-1.shtml 无需解码
                //console.log("body="+body);
    
                var $ = cheerio.load(body);        
                var count=0;
    
                // 由于天涯帖子的特殊格式,开篇只好略过,读者请自行添加
                /*
                $(".atl-main .atl-item .bbs-content").each(function(index,element){
                    var content=$(element).text();
    
                    var obj=new Object;
                    obj.user="楼主";
                    obj.time="开篇";
                    obj.content=content;
    
                    datas.push(obj); 
    
                    count++;
                    
                })  
                */
    
                // 找帖子内容放入数组
                $(".atl-item").each(function(index,element){
                    var user=$(element).attr("js_username");
                    //console.log("user="+user);
    
                    if(user=="柳成萌"){// 柳成荫是楼主ID
                        var innerHtml=$(element).html();
                        //console.log("innerHtml="+innerHtml);
    
                        // 找时间
                        var topicTime=null;
                        var $1=cheerio.load(innerHtml); 
                        $1(".atl-info span").each(function(index1,element){                        
    
                            if(index1==1){
                                topicTime=$1(element).text();
                                //console.log("topicTime="+topicTime);                        
                            }
                        });
    
                        // 找内容
                        var topicContent=null;
                        //var $1=cheerio.load(innerHtml); 
                        $1(".bbs-content").each(function(index1,element){
                            topicContent=$1(element).text().trim();
                            //console.log("topicContent="+topicContent);                        
                        });
    
                        // 内容和时间都找到了再放入数组
                        if(topicTime!=null && topicContent!=null){
                            // 先看有没有
                            var isFound=false;
                            for(var i=0;i<datas.length;i++){
                                var value=datas[i];
    
                                if(value.time==topicTime){
                                    isFound=true;
                                    break;
                                }
                            }
                            
                            // 没有再往里放
                            if(isFound==false){
                                var obj=new Object;
                                obj.user=user;
                                obj.time=topicTime;
                                obj.content=topicContent;
    
                                datas.push(obj); 
                                console.log("user="+obj.user+" "+obj.time);    
    
                                count++;
                            }                        
                        }
                    }
                })   
                console.log("找到帖子"+count+"条.");                
                
                // 找下一页
                var nextPageUrl=null;            
                $(".js-keyboard-next").each(function(index,element){
                    var text=$(element).text();
    
                    if(text.indexOf('下页')!=-1){
                        nextPageUrl=dir+$(element).attr("href");
                        //console.log("找到下一页.="+nextPageUrl);
                    }       
                })
    
                if(nextPageUrl==null){
                    console.log(pageUrl+"已经是最后一页了.
    ");
                    saveFile(pageUrl,datas);// 保存
                    download(datas);
                }else{
                    console.log("继续下一页");
                    crawl(nextPageUrl);
                }       
                
                
            }).on("error", function() {
                saveFile(pageUrl,datas);// 保存
                console.log("crawl函数失败,请进入断点续传模式继续进行");
            })
        });
    
        // 超时处理
        req.setTimeout(7500,function(){
            req.abort();
        });
    
        // 出错处理
        req.on('error',function(err){
            console.log('请求发生错误'+err);  
            saveFile(pageUrl,datas);// 保存
            console.log("crawl函数失败,请进入断点续传模式继续进行");
        });
    
        // 请求结束
        req.end();
    }
    
    //--------------------------------------
    // 下载内容
    //--------------------------------------
    function download(datas){
    
        var total=datas.length;
        console.log("总计有"+total+"条帖子将被下载.");
    
        // 合并内容
        var space = '____';
        var newLine = '
    ';
        var chunks = [];
        var length = 0;
    
        for(var i=0;i<datas.length;i++){
            var data=datas[i];
    
            var value = space+data.content+newLine;// data.time也可以加入
            var buffer = new Buffer(value);
            chunks.push(buffer);
            length += buffer.length;
        }
    
        var resultBuffer = new Buffer(length);
        for(var i=0,size=chunks.length,pos=0;i<size;i++){
            chunks[i].copy(resultBuffer,pos);
            pos += chunks[i].length;
        }
    
        // 写入文件
        var fileName='result'+getNowFormatDate()+".txt";
        fs.appendFile('./'+fileName, resultBuffer, function (err) {
            if(err){
                console.log("不能写入文件"+fileName);
                console.log(err);
            }
        });
    
        console.log("写入文件"+fileName+"完成");
    }
    
    
    //--------------------------------------
    // 取得当前时间
    //--------------------------------------
    function getNowFormatDate() {
        var date = new Date();
        var seperator1 = "-";
        var seperator2 = "_";
        var month = date.getMonth() + 1;
        var strDate = date.getDate();
        if (month >= 1 && month <= 9) {
            month = "0" + month;
        }
        if (strDate >= 0 && strDate <= 9) {
            strDate = "0" + strDate;
        }
        var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate
                + " " + date.getHours() + seperator2 + date.getMinutes()
                + seperator2 + date.getSeconds();
        return currentdate;
    }
    
    //--------------------------------------
    // 程序入口 
    //--------------------------------------
    function getInput(){
        process.stdin.resume();    
        process.stdout.write("33[33m 新建模式输入第一页URL,断点续传模式输入0,请输入: 33[39m");// 草黄色
        process.stdin.setEncoding('utf8');
        
        process.stdin.on('data',function(text){
            var input=text.trim();
            process.stdin.end();// 退出输入状态    
    
            if(text.trim()=='0'){
                process.stdout.write("33[36m 进入断点续传模式. 33[39m");    // 蓝绿色
    
                // Read File
                fs.readFile('./save.dat','utf8',function(err,data){
                    if(err){
                        console.log('读取文件save.dat失败,因为'+err);
                    }else{
                        //console.log(data);
                        var obj=JSON.parse(data);
    
                        datas=obj.datas;
                        console.log('提取原有数据'+datas.length+'条');
    
                        crawl(obj.url);        
                    }
                });
                
                // Resume crawl
            }else{
                process.stdout.write("33[35m 进入新建模式. 33[039m");    //紫色
    
                crawl(input);            
            }
        });    
    }
    
    //--------------------------------------
    // 将爬行中信息存入数据文件
    //--------------------------------------
    function saveFile(url,datas){
        var obj=new Object;
        obj.url=url;
        obj.datas=datas;
    
        var text=JSON.stringify(obj);
        fs.writeFile('./save.dat',text,function(err){
            if(err){
                console.log('写入文件save.dat失败,因为'+err);
            }
        });
    }
    
    // 调用getInput函数,程序开始
    getInput();

    下载文本截图:

     

  • 相关阅读:
    redis安装以及php扩展
    Linux下php安装Redis扩展
    正则验证邮箱
    常用方法
    PHPExcel说明
    冒泡排序
    CURL post请求
    PHP生成随机字符串
    PHP中的字符串函数
    PHP中的数组函数
  • 原文地址:https://www.cnblogs.com/heyang78/p/8637242.html
Copyright © 2020-2023  润新知