第一部分: 需求分析
爬虫在项目中间的作用
• 分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
• 单线程爬虫难以满足项目的需求,需要多线程爬虫来处理
第二部分: 技术点
Wget与HttpClient
• Wget 是一个从网络上自动下载文件的自由工具 , 支持通过 HTTP 、 HTTPS 、 FTP 三个最常见的 TCP/IP 协议下载,并可以使用 HTTP 代理
• HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议
功能需求
• 分析网页内容取得词频
•
• 获取词与网页的对应关系
Page
rowkey: |
url |
C_FAMILY |
category |
Term_Page
rowkey: |
term!`!url |
C_FAMILY |
cg_raw |
第三部分: 代码实现
请参考视频和源码
私塾在线原创独家云计算课程