• 开源搜索引擎 Nutch 0.7 插件详解


    nutch 0.7 plug-ins 详解

    最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:
    1、
    nutch 0.7 发布了;
    2、nutch 的java源代码包路径改变成了org.apache...
    3、yahoo也使用了nutch,并做了很多的工作。1 2

    clustering-carrot2 :
       一个搜索结果类聚的代码框架,目前和Egothor等搜索引擎结合的很好;
                地址:http://sourceforge.net/projects/carrot2
                 相关类:org.apache.nutch.clustering.OnlineClusterer
                                Nutch Online Search Results Clustering Plugin
                                org.apache.nutch.clustering.carrot2
                                Carrot2 Clusterer
    creativecommons :
       一个创作共用的工具集合。地址:http://creativecommons.org/ ;
              相关类:
                          org.apache.nutch.parse.HtmlParseFilter
                            HTML Parse Filter
                            org.apache.nutch.indexer.IndexingFilter
                            Nutch Indexing Filter
                            org.apache.nutch.searcher.QueryFilter
                            Nutch Query Filter
    index-basic :
                          相关类:
                          org.apache.nutch.indexer.IndexingFilter
                          Nutch Indexing Filter
    index-more :
    language-identifier : 语言检测工具;

               用于实现检测本机语言,以使nutch的搜索界面自动转化为相对应语言
                             相关类:
                               org.apache.nutch.analysis.lang.LanguageParser
                               Nutch language Parser
                               org.apache.nutch.analysis.lang
                               Nutch language identifier filter
                               org.apache.nutch.analysis.lang.LanguageQueryFilter
                               Nutch Language Query Filter

    ontology : 一个概念话的规范,主要是针对人工智能的;
                             相关类:
                                org.apache.nutch.ontology.Ontology
                                Ontology Model Loader
    parse-ext :
    parse-html :
    parse-js :     解析js文档
    parse-msword : 解析msword文档
    parse-pdf : 解析pdf文档
                          相关类:
                             org.apache.nutch.parse.pdf.PdfParser
    parse-rss : 解析Rss格式文档
    parse-text : 解析text文档
    protocol-file :
    protocol-ftp :
    protocol-http :
    protocol-httpclient :
    query-basic :
    query-more :
    query-site :
    query-url :
    urlfilter-prefix :
    urlfilter-regex :

  • 相关阅读:
    20145210 20145226 《信息安全系统设计基础》实验五 简单嵌入式WEB服务器实验
    20145302张薇《网络对抗技术》PC平台逆向破解
    20145302张薇 《网络对抗技术》逆向及BOF基础实践
    小问题汇总
    20145302张薇 《信息安全系统设计基础》课程总结
    20145302张薇 《信息安全系统设计基础》第14周学习总结
    20145302张薇《信息安全系统设计基础》第13周学习总结
    20145302张薇 GDB调试汇编堆栈过程分析
    20145302张薇 《信息安全系统设计基础》第12周学习总结
    20145302张薇 20145308刘昊阳 《信息安全系统设计基础》实验五 网络通信
  • 原文地址:https://www.cnblogs.com/wycg1984/p/1537501.html
Copyright © 2020-2023  润新知