• Java爬虫框架SeimiCrawler的工程自动打包工具使用


    为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署,SeimiCrawler现已推出maven-seimicrawler-plugin,一个maven工程的自动化打包插件。下面简要介绍下他的使用。

    开始

    pom添加添加plugin

    <plugin>
        <groupId>cn.wanghaomiao</groupId>
        <artifactId>maven-seimicrawler-plugin</artifactId>
        <version>1.0.0</version>
        <executions>
            <execution>
                <phase>package</phase>
                <goals>
                    <goal>build</goal>
                </goals>
            </execution>
        </executions>
        <!--<configuration>-->
            <!-- 默认target目录 -->
            <!--<outputDirectory>/some/path</outputDirectory>-->
        <!--</configuration>-->
    </plugin>

    执行mvn clean package即可,包目录结构如下:

    .
    ├── bin             # 相应的脚本中也有具体启动参数说明介绍,在此不再敖述
    │   ├── run.bat    # windows下启动脚本
    │   └── run.sh     # Linux下启动脚本
    └── seimi
        ├── classes     # Crawler工程业务类及相关配置文件目录
        └── lib         # 工程依赖包目录

    SeimiCrawler项目

    SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。

    直达SeimiCrawler项目

    社区讨论

    大家有什么问题或建议现在都可以选择通过下面的邮件列表讨论,首次发言前需先订阅并等待审核通过(主要用来屏蔽广告宣传等) 
    - 订阅:请发邮件到 seimicrawler+subscribe@googlegroups.com 
    - 发言:请发邮件到 seimicrawler@googlegroups.com 
    - 退订:请发邮件至 seimicrawler+unsubscribe@googlegroups.com

  • 相关阅读:
    halcon 常用算子中文解释说明(随时更新)
    傅里叶变换 fft_generic halcon
    phpStorm使用技巧及快捷键
    js控制文本框只能输入数字 及 常用字符对应ASCII码值
    Delphi 7 里没有加载的控件
    用VBA计算WPS 表格ET EXCEL中的行数和列数的多重方法
    PHP 把GBK编码转换为UTF8
    Oracle性能优化5-索引的不足
    Oracle性能优化4-索引
    Oracle性能优化3-sql优化一定要等价
  • 原文地址:https://www.cnblogs.com/wanghaomiao/p/5132084.html
Copyright © 2020-2023  润新知