哦,不!你不小心把一个长篇文章中的空格、标点都删掉了,并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!"已经变成了"iresetthecomputeritstilldidntboot"。在处理标点符号和大小写之前,你得先把它断成词语。当然了,你有一本厚厚的词典dictionary,不过,有些词没在词典里。假设文章用sentence表示,设计一个算法,把文章断开,要求未识别的字符最少,返回未识别的字符数。
示例:
输入:
dictionary = ["looked","just","like","her","brother"]
sentence = "jesslookedjustliketimherbrother"
输出: 7
解释: 断句后为"jess looked just like tim her brother",共7个未识别字符。
提示:
- 0 <= len(sentence) <= 1000
- dictionary中总字符数不超过 150000。
- 你可以认为dictionary和sentence中只包含小写字母。
思路:建立字典树的数据结构,然后使用动态规划。
字典树,又称为Trie,或Prefix Tree,一个节点的所有子孙都有相同的前缀,根结点一般为空,每个节点一般有26个孩子,对应26个英文字母
应用:
(1) 自动补全
(2) 拼写检查
(3) IP路由表
在IP路由表中进行路由匹配时, 要按照最长匹配前缀的原则进行匹配。
(4) T9预测文本
手机上用9格的那种输入法输入时,能够根据用户在9格上的输入,自动匹配出可能的单词。
(5) 填单词游戏
那种在横竖的格子里填单词的游戏。
class Solution { public class Node { public Node[] dict; public boolean isEnd; public Node(){ this.dict = new Node[26]; this.isEnd = false; } } public int respace(String[] dictionary, String sentence) { //构造字典树 Node dummyNode = new Node(); Node currentNode; int pos; for(String word : dictionary){ currentNode = dummyNode; for (int i = word.length()-1; i >= 0; i--){ //将单词倒序放入字典树(因为动态规划由后往前遍历) pos = word.charAt(i)-'a'; if(currentNode.dict[pos] == null) currentNode.dict[pos] = new Node(); currentNode = currentNode.dict[pos]; } currentNode.isEnd = true; } //动态规划 int[] dp = new int[sentence.length()+1]; dp[0] = 0; for(int i = 0; i < sentence.length(); i++){ currentNode = dummyNode; dp[i+1] = dp[i] + 1; for(int j = i; j >= 0; j--){ pos = sentence.charAt(j)-'a'; /* 动态转移方程 * 如果在sentence[j]找到单词 那么dp[i+1] = dp[j]; * 如果在sentence[j]没有找到单词 那么dp[i+1] = dp[k+1] + k-i (j<=k<=i) */ if(currentNode.dict[pos]!=null){ currentNode = currentNode.dict[pos]; if(currentNode.isEnd){ if (dp[j] < dp[i+1]) dp[i+1] = dp[j]; //这里不需要break,因为可能存在某个单词是另一个单词的后缀,比如 her & brother } else { if(dp[j+1] + i-j < dp[i]) dp[i+1] = dp[j+1] + i-j; } } else { if(dp[j+1] + i-j< dp[i]) dp[i+1] = dp[j+1] + i-j; break; } } } return dp[sentence.length()]; } }