一个网站新闻页通用的正文抽取组件libnpce

一个网站新闻页通用的正文抽取组件libnpce
一、背景

在舆情系统中，通常会有一个网络新闻爬虫子系统，准实时的采集互联网上的媒体新闻数据，以供上层聚类事件分析。这类新闻数据的组成元素包括：
- 标题
- 发布时间
- 来源及其URL链接地址
- 正文文本内容
- 正文图片信息（图片位置、图片的URL路径等）
- 其他
二、libnpce组件

新闻文章正文抽取News Passage Content Extractor (NPCE)，是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

详细介绍可参考：https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

三、组件演示

打开页面： https://gitee.com/inrgihc/libnpce/releases/v1.0

下载httpd_npce_py-v1.0-bin.tar.gz文件，在centos环境下解压，然后执行：
```
cd httpd_npce_py/
./startup.sh
```
命令启动服务，打开浏览器访问服务器上的服务：http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址，然后点击右侧的“抽取”按钮查看效果，我的截图如下：

抽取的URL地址：http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、性能测试

经本人工作期间，将libnpce与计算所的constor组件（闭源）进行比较测试，性能相当，并应用在公司底层的爬虫模块中进行实时正文抽取。
相关阅读:
后缀自动机学习小记
 [bzoj4524] [loj#2047] [Cqoi2016] 伪光滑数
 [bzoj4825] [loj#2018] [Hnoi2017] 单旋
 [bzoj4571] [loj#2016] [Scoi2016] 美味
 [bzoj4569] [loj#2014] [Scoi2016] 萌萌哒
 [bzoj4568] [loj#2013] [Scoi2016] 幸运数字
 [bzoj4567] [loj#2012] [SCOI2016] 背单词
 deque双向队列
 STL_vector
qsort与sort()
原文地址：https://www.cnblogs.com/inrgihc/p/13466736.html

一个网站新闻页通用的正文抽取组件libnpce

一、背景

二、libnpce组件

三、组件演示

三、性能测试