freecms使用jsoup和quartz抓取其他网站内容

freecms使用jsoup和quartz抓取其他网站内容

这里提到了freecms，其实抓取和freecms没什么关系，主要还是靠jsoup

jsoup里提供了html解析和读取的方法，集成了httprequest，可以从网络和本地读取，支持非闭合标签等。

csdn中有比较详细的介绍

http://blog.csdn.net/column/details/jsoup.html

一般抓取页面的内容，都是后台进行的，多数是周期抓取，那么肯定要有调度的方法，包括 Timer，Scheduler, Quartz 以及 JCron Tab等等。这篇文件介绍和对比了这几种方法。

http://www.ibm.com/developerworks/cn/java/j-lo-taskschedule/

至于抓取后的数据怎么处理，这里就不多介绍了。切记要留意数据版权，不要侵权，该注明引用的地方要注明。数据不该落地的不要落地。
相关阅读:
微信小程序设置web-view的业务域名
 第61节:Java中的DOM和Javascript技术
 第61节:Java中的DOM和Javascript技术
 小程序获取时间格式
 小程序获取时间格式
 小程序弹出框详解
 小程序弹出框详解
 Python自定义包引入【新手必学】
Go语言底层知识总结【新手必学】
Python代码编写规范,你真的会吗？
原文地址：https://www.cnblogs.com/slimo/p/4904792.html