• 正文抽取


    如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试的页面是:http://www.tuicool.com/te 。实际上,现在的实现算法不是我最初的想法,如果能基于浏览器内核分析出页面布局以及内容信息,对页面主体内容(不单单限于正文内容)的抽取效果会更好,而应用场景就更多了,这方面的经典算法就是微软研究院的VIPS,基于它也衍生了一堆论文。

    http://www.v2ex.com/t/29123

    创业-育森:提取web页面的正文(主体文本内容)不知道有没有什么好的算法或者是否有比较好的开源工具包呢!@金钱松 @TB本因 @梁斌penny @张某_ICT @sunli1223 @曾宪杰_华黎 @空谷松籁 @行空望远
    1. 大可不加冰_lonegunman

      以前中科计算所有一个控件很强悍,可以干净地剔除广告。
    2. 创业-育森

      回复@张某_ICT:好的,继续研究一下!
    3. 郑昀

      搜索基于文本密度的自动正文提取算法即可。或者搜索“Readability+你熟悉的开发语言名字+port”即可,如“Readability+python+port”。
    4. sunli1223

      参考这个插件的实现http://t.cn/a8acZU
    5. 张成_ICT

      这个真不了解。我用的一个evernote插件,挺不错的。
    6. 空谷松籁

      回复@创业-育森: 我没用过。你可以看看文档。他就是lucene的子项目,就是做文本抽取的。html肯定支持。
    7. 空谷松籁

      回复@创业-育森:org.apache.tika.parser.html Class BoilerpipeContentHandler : Uses the boilerpipe library to automatically extract the main content from a web page.
    8. 创业-育森

      回复@空谷松籁:这个能识别正文内容吗?去除网页上的其他的一些广告链接之类的噪音。。
    9. 创业-育森

      回复@空谷松籁:3Q,收到,研究一下!
    10. 空谷松籁

      Apache Tika - a content analysis toolkit
    11. 创业-育森

      回复@刘一丁Odin:3Q,研究一下!
    12. 刘一丁Odin

      有个叫readability的项目,不过是js写的,估计得改……http://t.cn/hbwq0C

  • 相关阅读:
    软工实践个人总结
    Beta版本演示
    Beta 5
    Beta 4
    Beta 3
    Beta 2
    2020系统综合实践 期末大作业 02组
    2020系统综合实践 第7次实践作业 2组
    2020系统综合实践 第6次实践作业 2组
    2020系统综合实践 第5次实践作业
  • 原文地址:https://www.cnblogs.com/lexus/p/2505483.html
Copyright © 2020-2023  润新知