1、搜索文本
text1.concordance( )
concordance:著作或作家全集的重要用字索引
可以显示指定单词的出现情况,同时还可以显示一些上下文
text1.similar( )
可以查到还有哪些词出现在相似的上下文中
text1.common_contexts( [ “...”, “...” ] )
研究共用两个或两个以上词汇的上下文
text1.generate( )
根据text1的文本风格自动生成一些随机文本
2、计数词汇
先理解几个概念:
标识符:单词和标点符号
词类型:一个词在文本中独一无二的出现或拼写形式
len( text1 )
计算文本中标识符的个数,会有重复,因为计算的是序列出现的次数
len( set(text1) )
计算文本中标识符的个数,不会重复计数,因为集合中重复的元素都只算一个
3、简单的统计
FreqDist( text1 )
频率分布函数,能够获得文本中出现频率高的标识符
调用该函数能够获得一个含key 和 value的字典,key是单词,value是个数
set( text1 ) 将文本单词放入集合中,确保无重复
词语搭配:
text1.collocations( ) 查找到频繁出现的双连词
4、决策与控制
条件语句:
[ w for w in sent if condition]
词汇比较函数:
s.startswith( t ) 以t开头
s.endswith( t ) 以t结尾
t in s 是否包含t
s.islower( )
s.isupper( )
s.isalpha( ) 所有字符是字母
s.isalnum( ) 字母或数字
s.isdigit( )
s.istitle( ) 首字母大写
举例如下:
[w for w in set(text1) if w.endswidth('ment') ] 在text1单词存放的set集合中,查找以ment结尾的单词