信息采集和信息源

信息采集和信息源

1.确定搜索的内容

2.网络信息爬去

　　2.1 抓取网页（网络浏览器和网络爬虫）

　　2.2 多线程，从一个种子集合开始

　　2.3 robots.txt允许访问的文件，礼貌策略，访问时间限制

　　2.4 时新性，评估每一个页面的变化比率

　　2.5 垂直搜索，面向主题的信息采集，主题爬虫，判断一个网页和某个主题相关，

　　2.6 深层网络，（私人站点，表单结果，脚本页面（比较复杂,需要模拟js运行））

　　2.7 网站地图（robots.txt含有一个对网站地图的引用，可以告诉爬虫爬取网页的相关信息，例如时薪，重要，主题

　　2.8 分布式网络爬虫，使用多个URL队列，使用散列函数，将URL分配给多个信息采集的计算机，当一个爬虫程序看到一个新的URL，就对该地址计算散列值，已确定有哪个计算机负责

3. 文档和电子邮件的采集

4. 转换问题

5. 字符编码

6. 文档存储

　　使用数据库系统

　　随机存取

　　压缩大规模文件

　　更新

　　BigTable数据库

7. 文本重复检测

　　信息指纹
　　文本相似度（余弦定理相似度）

8.去除噪声
相关阅读:
反射
 java 验证码识别
 Spring boot + mybatis + orcale
JVM内存模型及垃圾回收的研究总结
 Java的Array和ArrayList
Java中最常见的十道面试题
 session和cookie
Hibernate的load()和get()区别
 ajax跨域获取网站json数据
 对于Spring的IOc和DI的理解
原文地址：https://www.cnblogs.com/csxf/p/3421724.html

热门文章
JS学习随手笔记
 时间对象常用
 hadoop day 2
图
 03.装饰模式
 设计原则
 02.策略模式
 01.简单工厂模式
 二叉树
 树