• 正文提取2


    2009-04-09

    聊聊网页正文提取

    文章分类:Java编程

    从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果从语法分析去考虑,这个部分不参与人工,目前还没看到有成功的案例。
    在垂直搜索中,目前看到的大多以模板为主。但由于我所做的项目虽然是垂直搜索,项目需求却要求尽可能的保证系统的通用性,于是通用正文提取就成了我必须的工作。在通用正文提取方面,JAVA开发的一个开源项目GATEhttp://gate.ac.uk/,历经几年,效果不错,也可处理中文。可惜我是玩.NET的只能靠自己了。由于项目时间紧,第一版本我采用的是定义规则的方式来完成页面内容的提取,我所需要处理的页面主要分为BLOG BBS 新闻资讯三类。一般来说在BLOG和新闻资讯中,正文内容汉字较多,而且位置集中,而广告,相关新闻,其他无用内容则为简短的汉字并本身为超级链接。因此通过此类规则推理,削除了大多数的垃圾信息及广告。但对于全英文的正文来说,这种推理就豪无意义了,幸而我的需求只需要满足中文网页。不过这种规则定义要求尽可能的满足绝大多数网页内容的规范,因此造成除了正文以外还有部分垃圾信息未被过滤。这时候就可以考虑使用噪音词过滤的方法,在互联网上的页面中,很多词汇会频繁大量出现而且与正文毫无关系,在噪音词占句子比例超过阀值的情况下,可以直接过滤句子。通过以上两种方式加上处理HTML标签的正则就能处理80%以上的新闻资讯和BLOG页面,提取相对干净的正文内容。我所用到的正则可参考:http://blog.likeshow.net/article.asp?id=55 
    不过以上这种方式主要以句子为单位考查web页面内容,没有很好的利用到HTML标签块的分割作用,其实一般在解析整个web页面为DOM树时,正文内容肯定包含在其中一个节点内,而这个节点往往是汉字内容最多的,再考虑邻居节点内与其的关系,就可取到标题。目前我正在尝试使用DOM解析方式来提取正文,.NET下有个开源的HTML解析组件HtmlAgilityPack,可以考虑使用,不过对于页面编码处理方面有个小BUG,可自行改正。
    其实在正文提取时,还有很多比较特殊的问题,如动网论坛早期的版本采用JS输出内容,某些网站正文内容放在JS变量里,都是不太好用以上两种方式处理的。引入JS解析或直接使用WEBBROWSER控件也许是更好的解决方式,不过效率。。。。。。。。 

     

  • 相关阅读:
    Python数据可视化——散点图
    [ffmpeg 扩展第三方库编译系列] 关于 mingw32 下编译libcaca
    独立python环境之virtualenv和virtualenvwrapper
    深入理解maven及应用(一):生命周期和插件
    Android页面事件挂接模拟
    第六课 Struts的视图组件
    wxWidgets笔记_1_linux环境下wxwidgets的安装与配置
    使用 gradle 在编译时动态设置 Android resValue / BuildConfig / Manifes中<meta-data>变量的值
    ubuntu 下安装eclipse &java环境配置
    [Swift]LeetCode695. 岛屿的最大面积 | Max Area of Island
  • 原文地址:https://www.cnblogs.com/lexus/p/1845829.html
Copyright © 2020-2023  润新知