• 一个网站新闻页通用的正文抽取组件libnpce


    一、背景

        在舆情系统中,通常会有一个网络新闻爬虫子系统,准实时的采集互联网上的媒体新闻数据,以供上层聚类事件分析。这类新闻数据的组成元素包括:

    • 标题
    • 发布时间
    • 来源及其URL链接地址
    • 正文文本内容
    • 正文图片信息(图片位置、图片的URL路径等)
    • 其他

    二、libnpce组件

        新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

       详细介绍可参考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

    三、组件演示

    打开页面:   https://gitee.com/inrgihc/libnpce/releases/v1.0 

    下载httpd_npce_py-v1.0-bin.tar.gz文件,在centos环境下解压,然后执行:

    cd httpd_npce_py/
    ./startup.sh

    命令启动服务,打开浏览器访问服务器上的服务:http://XXX.XXX.XXX.XXX:7645

    在页面中的URL栏中粘贴一个新闻页面的URL地址,然后点击右侧的“抽取”按钮查看效果,我的截图如下:

    抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

     

    三、性能测试

        经本人工作期间,将libnpce与计算所的constor组件(闭源)进行比较测试,性能相当,并应用在公司底层的爬虫模块中进行实时正文抽取。

  • 相关阅读:
    MySQL安装图解
    程序员感触
    一个人的生活
    开始懂了
    limit 检索记录行
    Ajax的完整兼容各种浏览器版本代码
    java.lang.UnsupportedClassVersionError: Unsupported major.minor version 49.0的错误 [转]
    通信协议
    SDK
    毕业三个多月的感悟
  • 原文地址:https://www.cnblogs.com/inrgihc/p/13466736.html
Copyright © 2020-2023  润新知