最近有个需求就是去除一个文本里面所有的非汉字字符。
unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。
1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿,也是刀光剑影,恩怨江湖啊!@2gua ,你说尼?[挖鼻屎]" 2 blog_new = u"" 3 for i in range(0,len(blog)): 4 if(blog[i]>=u'u4e00' and blog[i]<=u'u9fa5'): 5 blog_new = blog_new+blog[i] 6 7 print blog_new