• Python实现字典树


    字典树,又称单词查找树,Trie 树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

    注:定义来自百度百科。

    字典树的主要性质

    它有 3 个基本性质:

    1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符;
    2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
    3. 每个节点的所有子节点包含的字符都不相同。
    基本功能介绍

    在接下来的内容里,我们将逐步介绍字典树的具体功能是如何实现的。

    1. 创建 TrieNode 类

    创建一个 TrieNode 的类,构建内置字典结构

    具体实现代码如下

    class TrieNode:
        def __init__(self):
            self.nodes = dict()  # 构建字典
            self.is_leaf = False
    

    2. 添加 insert 函数

    插入一个字到字典树中

    具体实现代码如下:

    def insert(self, word: str):  
            curr = self
            for char in word:
                if char not in curr.nodes:
                    curr.nodes[char] = TrieNode()
                curr = curr.nodes[char]
            curr.is_leaf = True
    

    3. 添加 insert_many 函数

    插入一列表的字到字典树中

    具体实现代码如下:

    def insert_many(self, words: [str]): 
            for word in words:
                self.insert(word)
    

    4. 添加 search 函数

    在字典树里面查询一个字

    具体实现代码如下:

    def search(self, word: str):
            curr = self
            for char in word:
                if char not in curr.nodes:
                    return False
                curr = curr.nodes[char]
            return curr.is_leaf
    

    最终代码如下:

    class TrieNode:
        def __init__(self):
            self.nodes = dict()  # 构建字典
            self.is_leaf = False
        def insert(self, word: str):  
            curr = self
            for char in word:
                if char not in curr.nodes:
                    curr.nodes[char] = TrieNode()
                curr = curr.nodes[char]
            curr.is_leaf = True
        def insert_many(self, words: [str]):
            for word in words:
                self.insert(word)
        def search(self, word: str):
            curr = self
            for char in word:
                if char not in curr.nodes:
                    return False
                curr = curr.nodes[char]
            return curr.is_leaf
    

    用在统计和排序大量字符串,如自动机。字典树能做前缀搜索,在正则匹配,数据压缩,构建索引都可能用到。

  • 相关阅读:
    Go HTTP Client 持久连接
    监控指标go.mongodb.org/mongodriver的prometheus
    Mybatis拦截器自定义prometheus监控指标
    Springboot开启prometheus监控指标获取HTTP请求的吞吐时延等
    Golang 环境变量详解
    Navicat
    springboot单元测试常用写法
    golang枚举值定义
    java 实现 类似 reids nx锁 , 模拟秒杀操作
    分布式幂等1(基于一次性token) 自定义接口幂等(注解) @AvoidResubmit(isLoc = false)
  • 原文地址:https://www.cnblogs.com/MasterMonkInTemple/p/11363415.html
Copyright © 2020-2023  润新知