1.时间
d{4}-d{2}-d{2} -d{2}:d{2}:d{2}
2. 路径
log==> (C:\Users\sec-h\AppData\Roaming\Temp\136906\\)+([1-9a-zA-Z].*)+.txt+$
3. 数字结尾
log==> d{2}+$
4.综合
d{4}/d{2}/d{2} d{2}:d{2}:d{2} log==> C:\Users\sec-h\AppData\Roaming\Temp\136906\+([A-Za-z1-9].*)+.txt+$
5.去除<>以及其中间的内容
<([^>]*)>
6.去除特殊标签
#去除注释 result = re.sub('(<!--)[\s\S]*?(-->)',"",context) #去除js result = re.sub('(<script)[\s\S]*?(</script>)',"",result) #去除css result = re.sub('(<style)[\s\S]*?(</style>)',"",result) #去除HTML标签 result = re.sub('<[^>]*>',"",result)
匹配表格: /tr><tr[^>]*?>[\S\s]*?<td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>[\S\s]*?<