• 信息采集和信息源


    1.确定搜索的内容

    2.网络信息爬去

      2.1 抓取网页(网络浏览器和网络爬虫)

      2.2 多线程,从一个种子集合开始

      2.3 robots.txt允许访问的文件,礼貌策略,访问时间限制

      2.4 时新性,评估每一个页面的变化比率

      2.5 垂直搜索,面向主题的信息采集,主题爬虫,判断一个网页和某个主题相关,

      2.6 深层网络,(私人站点,表单结果,脚本页面(比较复杂,需要模拟js运行))

      2.7 网站地图(robots.txt含有一个对网站地图的引用,可以告诉爬虫爬取网页的相关信息,例如时薪,重要,主题

      2.8 分布式网络爬虫,使用多个URL队列,使用散列函数,将URL分配给多个信息采集的计算机,当一个爬虫程序看到一个新的URL,就对该地址计算散列值,已确定有哪个计算机负责

    3. 文档和电子邮件的采集

    4. 转换问题

    5. 字符编码

    6. 文档存储

      使用数据库系统

      随机存取

      压缩大规模文件

      更新

      BigTable数据库

    7. 文本重复检测

      信息指纹
      文本相似度(余弦定理相似度)

    8.去除噪声

  • 相关阅读:
    反射
    java 验证码识别
    Spring boot + mybatis + orcale
    JVM内存模型及垃圾回收的研究总结
    Java的Array和ArrayList
    Java中最常见的十道面试题
    session和cookie
    Hibernate的load()和get()区别
    ajax跨域获取网站json数据
    对于Spring的IOc和DI的理解
  • 原文地址:https://www.cnblogs.com/csxf/p/3421724.html
Copyright © 2020-2023  润新知