python 正则表达式提取网页中标签的中文

转载请注明出处 http://www.cnblogs.com/pengwang52/。

>>> p= re.compile(r'<div class="comment-content comment-content_new">([^x00-xff]*)</div>')
>>> text='<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>'
>>> for m in p.finditer(text):
...     print m.group(1)
...
测试
学习正则


如果 用findall 输出为中文字符编码
>>> m = re.findall(r'<div class="comment-content comment-content_new">([^x00-xff]*)</div>','<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>')
>>> print m
['xe6xb5x8bxe8xafx95', 'xe5xadxa6xe4xb9xa0xe6xadxa3xe5x88x99']

相关阅读:
uva624 CD （01背包+路径的输出）
算法:全排列
Android使用Intent实现拨打电话的动作
Java并发编程从入门到精通张振华.Jack --我的书
《算法导论》— Chapter 12 二叉查找树
Java中arraylist和linkedlist源代码分析与性能比較
Cg入门14：Vertex Shader
Nucleus PLUS的启动、执行线程和中断处理
Unity Shaders and Effects Cookbook (3-5) 金属软高光
EasyDarwin开发出相似于美拍、秒拍的短视频拍摄SDK:EasyVideoRecorder

原文地址：https://www.cnblogs.com/TMatrix52/p/7470752.html

python 正则表达式 提取网页中标签的中文

python 正则表达式提取网页中标签的中文