正文抽取 - 润新知

正文抽取
如果是做正文抽取的话，想要做到很精准的效果是难的（尤其是准确剔除掉正文周边内容），尤其是来自一些不正规的站点网页。我能找到的相关开源产品有：boilerpipe、goose、jReadability、roadrunner（这个是抽模版的），还有一个忘记名字了，他们的效果都算不上太好（对正规的新闻站点会好些）。我自己实现了一个正文抽取的程序（也是很复杂的说，就别要代码了，暂时没有开源计划），可供测试的页面是：http://www.tuicool.com/te 。实际上，现在的实现算法不是我最初的想法，如果能基于浏览器内核分析出页面布局以及内容信息，对页面主体内容（不单单限于正文内容）的抽取效果会更好，而应用场景就更多了，这方面的经典算法就是微软研究院的VIPS，基于它也衍生了一堆论文。
http://www.v2ex.com/t/29123
创业-育森：提取web页面的正文（主体文本内容）不知道有没有什么好的算法或者是否有比较好的开源工具包呢！@金钱松 @TB本因 @梁斌penny @张某_ICT @sunli1223 @曾宪杰_华黎 @空谷松籁 @行空望远
点击查看
转发(10) | 评论(12) | Post@2011年12月9日 12:38:01 来自：
1. 大可不加冰_lonegunman
  以前中科计算所有一个控件很强悍，可以干净地剔除广告。
2. 创业-育森
  回复@张某_ICT:好的，继续研究一下！
3. 郑昀
  搜索基于文本密度的自动正文提取算法即可。或者搜索“Readability+你熟悉的开发语言名字+port”即可，如“Readability+python+port”。
4. sunli1223
  参考这个插件的实现http://t.cn/a8acZU
5. 张成_ICT
  这个真不了解。我用的一个evernote插件，挺不错的。
6. 空谷松籁
  回复@创业-育森: 我没用过。你可以看看文档。他就是lucene的子项目，就是做文本抽取的。html肯定支持。
7. 空谷松籁
  回复@创业-育森:org.apache.tika.parser.html Class BoilerpipeContentHandler : Uses the boilerpipe library to automatically extract the main content from a web page.
8. 创业-育森
  回复@空谷松籁:这个能识别正文内容吗？去除网页上的其他的一些广告链接之类的噪音。。
9. 创业-育森
  回复@空谷松籁:3Q,收到，研究一下！
10. 空谷松籁
  Apache Tika - a content analysis toolkit
11. 创业-育森
  回复@刘一丁Odin:3Q，研究一下！
12. 刘一丁Odin
  有个叫readability的项目，不过是js写的，估计得改……http://t.cn/hbwq0C
相关阅读:
软工实践个人总结
 Beta版本演示
 Beta 5
Beta 4
Beta 3
Beta 2
2020系统综合实践期末大作业 02组
 2020系统综合实践第7次实践作业 2组
 2020系统综合实践第6次实践作业 2组
 2020系统综合实践第5次实践作业
原文地址：https://www.cnblogs.com/lexus/p/2505483.html