• document_index_data.go


    package types

    type DocumentIndexData struct {
        // 文档全文(必须是UTF-8格式),用于生成待索引的关键词
        Content string

        // 文档的关键词
        // 当Content不为空的时候,优先从Content中分词得到关键词。
        // Tokens存在的意义在于绕过悟空内置的分词器,在引擎外部
        // 进行分词和预处理。
        Tokens []TokenData

        // 文档标签(必须是UTF-8格式),比如文档的类别属性等,这些标签并不出现在文档文本中
        Labels []string

        // 文档的评分字段,可以接纳任何类型的结构体
        Fields interface{}
    }

    // 文档的一个关键词
    type TokenData struct {
        // 关键词的字符串
        Text string

        // 关键词的首字节在文档中出现的位置
        Locations []int
    }

  • 相关阅读:
    docx python
    haozip 命令行解压文件
    python 升级2.7版本到3.7
    Pyautogui
    python 库搜索技巧
    sqlserver学习笔记
    vim使用
    三极管工作原理分析
    串口扩展方案+简单自制电平转换电路
    功率二极管使用注意
  • 原文地址:https://www.cnblogs.com/zhangboyu/p/7461638.html
Copyright © 2020-2023  润新知