1.索引页提取效果
2.正文页提取效果
(注:蓝线框出部分为噪声文字,即不属于该篇新闻的内容,红色框出部分为新闻下一页内容,该篇新闻有多页)
当正文中有ATAG 和英文 是正文抽取的情况
结果
含有英文