• FusionInsight大数据开发---sorl应用开发


    sorl应用开发

    要求:

    1. 了解Solr应用开发适用场景
    2. 熟悉Solr应用开发流程
    3. 熟悉并使用Solr常用API
    4. 理解Collection设计基本原则
    5. 应用开发实践

    Solr简介

    1. Solr是一个高性能,基于Lucene的全文检索服务,也可以作为NoSQL数据库使用。
    2. Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语句,同时实现了可配置、可扩展,并对查询性能进行了优化,还提供了一个完善的功能管理界面。
    3. SolrCloud是从Solr 4.0 版本开始发出的具有开创意义的分布式索引和索引方案,基于Sorl和Zookeeper进行开发的。

    Solr概念体系-总述
    常见术语:

    • Config Set:Solr Core提供一组配置文件 ,
    • Core:即Solr Core ,
    • Shard:Collection的逻辑分片
    • Replice:Shard下的实际存储索引的一个副本,与Core对应
    • Leader:赢得选举的Shard Peplicas
    • Zookeeper:它在Solr Core是必须的,提供分布式锁、处理Leader选举、管理配置等功能

    Solr的常用应用场景

    1. 待检索数据类型复杂
    2. 检索条件多样化(如涉及字段太多),常规查询无法满足
    3. 读取远多于写入数据


    Solr应用开发流程-制定业务目标
    业务数据规模及数据模型

    • 涉及Collection的Shard划分及Schema的定义

    实时索引、查询性能要求

    • 涉及Collection的Shard划分、索引存储位置

    查询场景

    • 涉及Collection的Schema定义


    Solr应用开发流程-初始化及安全认证

    1. 初始化并获取配置
    2. 安全认证
    3. 获取CloudSolrClient
    4. 调用Solr APL

    Solr应用开发流程-设计Collection

    1. 根据业务数据的关系设计schema.xml
    2. 根据写入和查询场景设计uniqueKey字段
    3. 根据写入和查询性能要求设计solrconfig.xml
    4. 根据业务数据规模和Solr集群规模确定Shard数目
    5. 根据可靠性能要求设定Shard副本数

    Collection设计-索引存储位置
    索引存储在HDFS

    缺点:

    1. 与存储在本地磁盘相比,性能下降30%-50%
    2. 实时单节点写入速度<=2MB/s
    3. 数据膨胀略高于存储在本地

    优点:

    1. Sorl设置Replica即可,利用HDFS副本机制保障数据可靠性
    2. 数据管理由HDFS完成,包括各节点数据balance、方便迁移

    配置集Schema设计-Field
    dynamicField

    • 动态的字段设置,用于后期自定义字段,”*“号通配符。

    copyField

      • 将多个字段集中到一个字段
  • 相关阅读:
    欧拉函数的一个性质及其证明
    【机器人M号】题解
    【求和】题解
    uva11292贪心基础题目
    hdu 1009 贪心基础题
    近期计划,理清思路,大步向前
    hdu1712 分组背包
    TOJ3596 二维背包
    hdu1114 完全背包
    BestCoder Round #81 (div.2)1001
  • 原文地址:https://www.cnblogs.com/cainiao-chuanqi/p/11251594.html
Copyright © 2020-2023  润新知