VIPS 是 Microsoft Research Asia 的几位实习学生提出的算法,可在 MSR 里面查看详细信息,另外还有中文简略介绍,还有一个 C# 写的简单实现。
他们的思想是根据HTML源代码在浏览器中的显示属性来确定一个页面到底要需要分成哪些块。简单的说就是将页面切割成一块一块的,页面是一块,页脚是一块,中间是一块,然后中间又根据内容分成更细的块,整个过程是一个迭代的过程。最后对于太小的页面还需要合并,使之更加体现页面的主要内容,而不需要关注单个的文本。【引用自http://www.blog.edu.cn/user2/xylz/archives/2007/113.shtml】