• 小米范工具系列之十四:小米范网站批量爬虫工具


    小米范网站批量爬虫工具,是一款针对大量网站进行快速爬取的工具,爬取的URL可进一步调用wvs、sqlmap、brutexss等工具进行检测。

    工具使用方法:

    1、点击新建任务,输入要检测的URL。

    2、设置子域名白名单,属于白名单域名的URL则自动保留并进行抓取。

    2、设置并发站点、并发线程等参数,点击开始即可。

    工具的工作流程:

    假设我们新建任务,放入100个URL作为爬虫的起始URL,那么具体的爬取过程如下:

    1、  针对这100个URL,按照是否同源进行合并,同源的URL则放入一个目标,并将这些URL作为这个源的起始URL。

    2、  针对每个目标进行爬取(默认并发5个目标),针对每个目标的起始URL采用浏览器点击抓包(默认每个目标最多开5个浏览器)+HTML解析的方式获取URL,浏览器点击在后台运行,没有界面,这里的浏览器点只是在点击后将发出去的请求URL记录,但并不真正发出去请求。

    3、  将前两步收集到的URL作为种子,进行传统的爬取,这里的爬取主要采用了webmagic框架,并对框架本身做了一点修改。另外每一个页面下载之前会进行爬取URL黑名单匹配,匹配到黑名单则跳过,下载到的每个页面提取出来的URL会进行子域名白名单匹配,匹配到白名单则会放入爬取队列。

    针对爬到的URL可直接右键使用sqlmap、brutexss、panoptic、wvs进行安全检测,目前还在考虑再加入一些其他的检测工具。

    此外也提供了目录扫描功能,在左侧树形结构的任意节点右键目录扫描会对当前选中节点所在的路径进行目录扫描。

    下载地址:http://pan.baidu.com/s/1pLjaQKF  文件名 XmfSpider

  • 相关阅读:
    【已解决】Android ADT中增大AVD内存后无法启动:emulator failed to allocate memory
    XE10 塔建 Android 开发环境 (已测试通过)
    Erstudio8.0怎么用?Erstudio8.0汉化版详细使用教程
    Excel 信息对比_数组版
    百万级数据查询优化(数据库)
    sql查询重复记录、删除重复记录方法大全
    JS和JSON的区别
    JS中字符串的true转化为boolean类型的true
    关于HTTP协议,一篇就够了
    关于JS的prototype
  • 原文地址:https://www.cnblogs.com/fsqsec/p/5840364.html
Copyright © 2020-2023  润新知