为html瘦身的pythonl函数

背景

需要缓存html源码以备解析用，且需要去除与解析结果无关的代码以节省存储；可根据实际需要扩展。

代码

def slimHtml(html):
	''' u4efa为“仺”字，页面出现几率极低 '''
	html = re.sub(ur'<script[^u4efa]*?</script>', '', html)
	html = re.sub(ur'<noscript[^u4efa]*?</noscript>', '', html)
	html = re.sub(ur'<style[^u4efa]*?</style>', '', html)
	html = re.sub(r'<link .*?>', '', html)
	html = re.sub(r' class=""', '', html)
	html = re.sub(r' alt=""', '', html)
	html = re.sub(r' title=""', '', html)
	# 注释
	html = re.sub(ur'<!--[^u4efa]*?-->', '', html)
	# 掐头
	html = re.sub(re.compile(r'^s+', re.M), '', html)
	# 去尾
	html = re.sub(r's+
', '
', html)
	# 并行
	html = re.sub(r'
', '', html)
	return html

本文原创发表于http://www.cnblogs.com/qijj，转载请保留此声明。

相关阅读:
标准库中的生成器函数
Python 数据分析5
Chrome 开发者工具（三）------ Sources
Chrome 开发者工具（二）------ Console
Chrome 开发者工具 F12（一）
jquery 获取自定义属性的值 data-*
PHP 常用函数备忘
Winsows 服务器，PHP 开发环境搭建
FuelPHP 查看 Query SQL
Laravel —— could not find driver

原文地址：https://www.cnblogs.com/qijj/p/6339811.html