背景
需要缓存html源码以备解析用,且需要去除与解析结果无关的代码以节省存储;可根据实际需要扩展。
代码
def slimHtml(html):
''' u4efa为“仺”字,页面出现几率极低 '''
html = re.sub(ur'<script[^u4efa]*?</script>', '', html)
html = re.sub(ur'<noscript[^u4efa]*?</noscript>', '', html)
html = re.sub(ur'<style[^u4efa]*?</style>', '', html)
html = re.sub(r'<link .*?>', '', html)
html = re.sub(r' class=""', '', html)
html = re.sub(r' alt=""', '', html)
html = re.sub(r' title=""', '', html)
# 注释
html = re.sub(ur'<!--[^u4efa]*?-->', '', html)
# 掐头
html = re.sub(re.compile(r'^s+', re.M), '', html)
# 去尾
html = re.sub(r's+
', '
', html)
# 并行
html = re.sub(r'
', '', html)
return html