• 需要整理研究的搜索引擎技术点(目录,无实际价值)


    中文分词部分
    1,断句与分块
    2,字符类型设计与识别(中文,英文,数字,半角,全角).
    3,从已断句子中分析提取字符类型相同的连续字串.
    4,字典类设计
    5,分词算法设计
      5.1,数字英文分词算法设计
      5.2,中文分词算法设计

    分词应用部分
    1,标签抽取
    2,文本相关性与文本分类
     2.1,SVM算法


    Web Spider开发
    1,网页编码自动识别

    2,Url去重算法
     2.1,Bloomfilter算法
     2.2,CRC算法

    3,Spider的抓取流程与架构
     3.1,抓取页面
     3.2,页面落地
     3.3,通知队列
     3.4,分析提取有效信息
     3.5,失效信息清理

    搜索引擎应用开发
    1,中文相似词识别
      1.1,音似词识别
      1.2,形似词识别
      1.3,义似词识别

    2,Lucene.net索引技术
      2.1,分词器ChineseAnalyzer设计
      2.2,索引优化技术
      2.3,索引分布存储
      2.4,索引压缩存储
     
    3,Lucene.net搜索技术
      3.1,分类搜索
      3.2,排序搜索
      3.3,基于应用需求改进Lucene的默认排序算法
      3.4,搜索性能优化
        Singleton模式的Analyzer
        Cache下的Analyzer
        搜索结果的Cache(基于MemCache)

    4,IFilter

  • 相关阅读:
    MAXSCRIPT 连数据库(转)
    Docker安装部署ELK教程 (Elasticsearch+Kibana+Logstash+Filebeat)
    ArrayList知识点
    HashMap知识点
    使用docker 安装nacos
    记录docker 安装sonarqube和安装的一些坑
    sql优化
    Centos7下安装Docker
    使用docker安装gitlab
    docker安装jenkins
  • 原文地址:https://www.cnblogs.com/kwklover/p/660714.html
Copyright © 2020-2023  润新知