问题描述
有一个 10leq10≤长度leq 1,000,000≤1,000,000 的字符串,仅由小写字母构成。求有多少个子串,包含有至少k(1 leq k leq 26)k(1≤k≤26)个不同的字母?
输入描述
输入包含多组数据. 第一行有一个整数T (1leq Tleq 10)T(1≤T≤10), 表示测试数据的组数. 对于每组数据:
第一行输入字符串SS。
第二行输入一个整数kk。
输出描述
对于每组数据,输出符合要求的子串的个数。
输入样例
2 abcabcabca 4 abcabcabcabc 3
输出样例
0 55
有一个明显的性质:如果子串(i,j)包含了至少k个不同的字符,那么子串(i,k),(j < k < length)也包含了至少k个不同字符。
因此对于每一个左边界,只要找到最小的满足条件的右边界,就能在O(1)时间内统计完所有以这个左边界开始的符合条件的子串。
寻找这个右边界,是经典的追赶法(尺取法,双指针法)问题。维护两个指针(数组下标),轮流更新左右边界,同时累加答案即可。复杂度 O(length(S))。
------------------------------------------------
就像一把尺子一样,刚开始left = right = 0,然后先固定起点 left = 0,找到满足条件的尺子长度,然后left++,修改right长度,尺子长度不变,左边一旦往后加,右边也得往后加。
1 #include <iostream> 2 #include <algorithm> 3 #include <cstdio> 4 #include <set> 5 #include <cstring> 6 using namespace std; 7 typedef long long LL; 8 const int Max = 1000000 + 10; 9 char str[Max]; 10 int cnt[30]; 11 int main() 12 { 13 int t; 14 scanf("%d", &t); 15 while (t--) 16 { 17 int k, left, right; 18 scanf("%s", str); 19 scanf("%d", &k); 20 int len = strlen(str); 21 int num = 0; 22 left = right = 0; 23 memset(cnt, 0, sizeof(cnt)); 24 LL ans = 0; 25 while (left <= len - k) 26 { 27 while (num < k && right < len) // 一直找到 满足 k 个不同字符,即尺子的右端 28 { 29 if (cnt[ str[right] - 'a'] == 0) 30 { 31 num++; 32 }// 没访问才++; 33 cnt[ str[right] - 'a']++; 34 right++; 35 } 36 if (num == k) // 当字符个数 == k的时候就可以统计子串个数了 37 ans += len - right + 1; 38 cnt[ str[left] - 'a' ]--; // 左边要往后移,所以如果left位置字符个数--之后为0那么 字符个数 num也得-1 39 if (cnt[ str[left] - 'a'] == 0) 40 num--; 41 left++; 42 } 43 printf("%I64d ", ans); 44 } 45 return 0; 46 }