• 面试题 Trie+贪心策略求数组最大异或对


    trie

    用于存储字符串的数据结构
    Trie:高效存储和查找字符串集合的数据结构

    1

    对于单词来说使用标记来注明。

    高效的查找前缀单词是否存在

    模板

    acwing 835

    题目

    维护一个字符串集合,支持两种操作:

    “I x”向集合中插入一个字符串x;
    “Q x”询问一个字符串在集合中出现了多少次。
    共有N个操作,输入的字符串总长度不超过 10e5,字符串仅包含小写英文字母。

    输入格式
    第一行包含整数N,表示操作数。

    接下来N行,每行包含一个操作指令,指令为”I x”或”Q x”中的一种。

    输出格式
    对于每个询问指令”Q x”,都要输出一个整数作为结果,表示x在集合中出现的次数。

    每个结果占一行。

    数据范围
    1≤N≤2∗10e4
    输入样例:
    5
    I abc
    Q abc
    Q ab
    I ab
    Q ab
    输出样例:
    1
    0
    1

    题目大意:如上所言

    分析

    如果使用朴素做法,那么每一次查询都需要对前(n)个字符串求前缀匹配,而比较快速的前缀算法KMP的时间复杂度是(O(len(n)+len(m)))。因此总的时间复杂度是(O(n*(len(m)+len(n)))),计算后得到是(2*10^5*10^5),肯定超时。

    因此本题不能一次匹配一个串,而是要多个匹配,那么就想到了前缀树trie来做前缀单词匹配。
    对于查询当前的单词,如果最后在trie上能够走到非空的节点,并且节点标记为终结的节点,那么该单词出现过在之前的序列中,若找到的节点是非终结节点,那么说明该单词是至少出现在之前单词的前缀中。
    因此综上,对单词前缀的实时插入和查询前缀,实质是trie树所支持的基本操作。

    • add(s)向前缀树插入一个串
    • query(s)向前缀树中查询这个串是否出现过

    代码

    #include <bits/stdc++.h>
    using namespace std;
    const int maxn = 1e5 + 10;
    int n;
    char x[maxn];
    string op;
    int son[maxn][26];  //存点的儿子的下标
    int cnt[maxn];      //当前点结尾的单词有出现多少次
    int idx;            //维护的数量
    //下标是0的节点既是根节点又是空节点
    void insert(char str[]) {
      int p = 0;
      for (int i = 0; str[i]; i++) {
        int u = str[i] - 'a';
        if (!son[p][u]) son[p][u] = ++idx;
        p = son[p][u];
      }
      cnt[p]++;
    }
    int query(char str[]) {
      int p = 0;
      for (int i = 0; str[i]; i++) {
        int u = str[i] - 'a';
        if (!son[p][u]) return 0;
        p = son[p][u];
      }
      return cnt[p];
    }
    int main() {
    #ifndef judge
      freopen("E:/yxc/in.txt", "r", stdin);
      freopen("E:/yxc/out.txt", "w", stdout);
    #endif
      cin >> n;
    
      for (int i = 0; i < n; i++) {
        cin >> op >> x;
        if (op == "I") {
          insert(x);
        } else if (op == "Q") {
          cout << query(x) << endl;
        }
      }
      return 0;
    }
    

    例题

    在给定的N个整数(A_1,A_2……A_N)中选出两个进行xor(异或)运算,得到的结果最大是多少?

    输入格式
    第一行输入一个整数N。

    第二行输入N个整数(A_1~A_N)

    输出格式
    输出一个整数表示答案。

    数据范围
    (1≤N≤10^5),
    (0≤A_i<2^{31})
    输入样例:
    3
    1 2 3
    输出样例:
    3

    题目大意:在一个数组中求最大异或对

    分析

    使用暴力做法枚举两个边界,时间复杂度是(O(n^2)),明显超时。

    优化做法有点考验思维,直接贴出题解:
    假如考虑一个数字(a)的二进制展开是((a_na_{n-1}....a_3a_2a_1a_0)_2)那么在和另一个数字(b)的二进制展开((b_nb_{n-1}....b_3b_2b_1b_0)_2)做异或操作时,考虑第(k)位上的运算(a_k ext{xor }b_k)可能的结果是(1)或者(0),但是一定不会影响到左边或者右边的位(所以异或又被称作膜二加法或者是不进位加法)。
    因此可以得出,如果想要使得当前的对是数组(a)中异或值最大的,那么需要优先从高位到低位去考虑异或值是1的情况(贪心的思想),那么如何去实施这种贪心呢?
    答案是使用(Trie),在当前的数字二进制展开所建立的(Trie)贪心地去找异或最大值。

    考虑以下情况:

    对于每一个数字都使其二进制表示插到(Trie)上,随后即为每次询问一个数K的二进制展开在这个(Trie)上的最大异或值,因为当前的匹配中0和1组合是最大的(等于该位置上的1),因此,贪心的策略是找当前节点的非

    举个样例:

    通过这样的转化,我们首先根据每一个数字的二进制展开来建立一个前缀树,之后,对每一个查询做贪心策略,都去寻找当前值的非值(期望最大化),若无法找到则选择当前节点的非,则选择当前节点(退而求其次)。
    时间复杂度:最坏情况下,n个数字的二进制展开都不一致,那么对于k位数字来说总共有(2^{32})个节点,但是每一次匹配最多进行32次,总共有n个单词,因此时间复杂度是(O(nk)),简单计算得到是(32*10^5<<10^7)

    其关键部分是每一次走节点的贪心策略:

    int maxquery(int x) {
      int res = 0;
      int p = 0;
      for (int i = 30; i >= 0; i--) {
        int b = (x >> i) & 1;
        if ((b == 0 && son[p][1]) || (b == 1 && son[p][0])) {
        //此时当前节点值的位存在并且和当前数字的位不同
          res = res << 1 | 1;
          p = son[p][1 ^ b];//向下走到下一个Trie节点
        } else {
        //不存在和当前数字的位的不同的子节点,退而求其次选择和自己相同的点
          res = res << 1 | 0;
          p = son[p][b];//向下走到下一个Trie节点
        }
      }
      return res;
    }
    

    代码

    //#define judge
    #include <bits/stdc++.h>
    using namespace std;
    int n;
    const int maxn = 1e5 + 10;
    int a[maxn];
    int son[maxn * 32][2], idx;
    void add(int x) {
      int p = 0;  // root
      for (int i = 30; i >= 0; i--) {
        int b = (x >> i) & 1;  //这个位置的数字
        if (!son[p][b]) son[p][b] = idx++;
        p = son[p][b];
      }
    }
    int maxquery(int x) {
      int res = 0;
      int p = 0;
      for (int i = 30; i >= 0; i--) {
        int b = (x >> i) & 1;
        if ((b == 0 && son[p][1]) || (b == 1 && son[p][0])) {
          res = res << 1 | 1;
          p = son[p][1 ^ b];
        } else {
          res = res << 1 | 0;
          p = son[p][b];
        }
      }
      return res;
    }
    int main() {
    #ifndef judge
      freopen("E:/yxc/in.txt", "r", stdin);
      freopen("E:/yxc/out.txt", "w", stdout);
    #endif
      cin >> n;
      for (int i = 0; i < n; i++) {
        cin >> a[i];
      }
      // bf
      // for (int i = 0; i < n; i++) {
      //   for (int j = i + 1; j < n; j++) {
      //     if ((a[i] ^ a[j]) == 1033222) {
      //       cout << i << " " << j << endl;
      //     }
      //   }
      // }
    
      //因为对于^来说,把每一个数写作二进制表示后
      // 10010 把它填充到32位 00..10010
      //然后遍历每一个数字把它加入到trie上
      // max的数一定是期望每一位都是1
      //那么遍历每一个ai 期望它都走1的路线 如果1是null
      //就走0 这样就达到了最大
      for (int i = 0; i < n; i++) {
        add(a[i]);
      }
      int res = 0;
      for (int i = 0; i < n; i++) {
        res = max(res, maxquery(a[i]));
      }
      cout << res << endl;
      return 0;
    }
    
  • 相关阅读:
    Java学习笔记
    计算机基础知识点整理
    codeblock的GUN GCC compiler问题
    秋招小米面经
    闭包的特性(只做了粗略整理)
    overflow:hidden为什么可以清除浮动?
    项目中出现的问题
    MySql 备忘还原数据库
    MySql语句备忘 JSON截取
    MySql语句备忘 UPDATE
  • 原文地址:https://www.cnblogs.com/adameta/p/12430639.html
Copyright © 2020-2023  润新知