这里提到了freecms,其实抓取和freecms没什么关系,主要还是靠jsoup
jsoup里提供了html解析和读取的方法,集成了httprequest,可以从网络和本地读取,支持非闭合标签等。
csdn中有比较详细的介绍
http://blog.csdn.net/column/details/jsoup.html
一般抓取页面的内容,都是后台进行的,多数是周期抓取,那么肯定要有调度的方法,包括 Timer,Scheduler, Quartz 以及 JCron Tab等等。这篇文件介绍和对比了这几种方法。
http://www.ibm.com/developerworks/cn/java/j-lo-taskschedule/
至于抓取后的数据怎么处理,这里就不多介绍了。切记要留意数据版权,不要侵权,该注明引用的地方要注明。数据不该落地的不要落地。