• crawler spec


    使用说明

    0.写在前面

    1.本程序完成的抓取网页并保存其文件的工作。

    2.目前的版本还需将工程文件导入eclipse中运行。

    3.加载主类MyCrawler生成可执行文件。

    4.程序主界面:

     

    1 准备工作

    这部分为该程序执行前要做的准备工作。

    1.1 本地文件路径

    通过本程序抓取下来的html、pdf、doc、ppt、txt等文件分别存在其对应的文件夹内,路径依次为Filehtml,Filepdf,Filedoc,Fileppt,File xt,其他可下载文件存入Fileothers

    1.2 数据库

    数据库内存放各种信息。包括:

    1.被抓取网页的类型、编码等信息;

    2.文件下载后在本地的存储路径;

    3.文件的下载时间记录、更新时间记录、最后一次更新记录。

    1.3 数据源

    将上述数据库配置到Windows(或Windows server)数据源中,数据库名为yuanhang1617,用户名密码依次为……(这个是由服务器决定的吧?)

    2 爬取网页

    该部分即为正式爬取过程中的操作方法及程序反馈等。

    2.1 确定爬取源地址

    在主界面的URL seed中输入源网址,程序将从该网址开始,以广度优先方法依次爬取下一级链接。

    2.2 确定爬取数量

    在主界面how much pages中输入想要抓取的网页数量,该程序最终将会抓取这么多的网页及其内部信息。

    2.3 开启的爬取线程数

    在the number of thread中输入想要开启的爬取线程数。

    3 爬取反馈

    本部分向用户阐明在抓取网页过程中对于该程序执行情况的反馈。

    3.1 爬取内容

    在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、最后爬取的100条URL。

    3.2 结果反馈

    在本地File路径下为爬取结果下载的文件内容,包含html、pdf、doc、ppt、txt等文件。

    在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。

  • 相关阅读:
    emulating ionic really slow even on genymotion just using the “tabs” example
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    Build Your First Mobile App With Ionic 2 & Angular 2
    (OK) using-VScode_cordova_ionic_taco-cli_Genymotion
    华华华
  • 原文地址:https://www.cnblogs.com/yuanhang1617/p/3410259.html
Copyright © 2020-2023  润新知