此类算法用来抽取文章的正文。这里介绍两种方式: 将html加载未dom树,计算文字连接比 将html作为文本,计算出行块分布性能比较:1000个网页: 行块分布函数:29秒 dom数文字连接比:66秒分析:加载为dom树会很费时间。