urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。
************************************************************************
作为一名测试人员,我第一关注的是urljoin。urljoin主要是拼接URL,之前在做接口测试的时候,我并不知道还有这种模块,所以为了拼接接口,我是用的是这种笨办法:
1 for i in range(5031, 5040): 2 for j in range(9000, 99999): 3 url = 'http://****.com.clouddn.com/****/'+str(i)+'/'+str(j)
虽然行之有效,但是必须要纠结于单引号和加号的使用,稍有不注意,就会导致拼接出来的URL不可用,像上面这个拼接方式,如果在测试之前不去实验拼接出来的URL是否正确就直接去进行接口测试,循环那么多次结果都是在做无用功,那太令人心碎了。在学习Bugscan插件编写的过程中,我接触到了urlparse模块,瞬间发现了urljoin,它的形式比赤裸裸的字符串拼接好的多:
1 import urlparse 2 urlparse.urljoin('http://www.baidu.com/a','index.php') 3 urlparse.urljoin('http://www.baidu.com/a/','index.php')
但仍有缺憾,其实在使用urljoin的时候感觉形式上不错,但实际应用还是不是很好,像第一段代码的拼接,其实单用urljoin完全接不上去,还得使用过渡代码,因ulLjoin的机制是这个样子的:果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。那如此说来想实现我第一段代码的拼接还是需要借用一段字符串拼接的,感觉还需要二次开发,记录一下,等以后再去尝试,今天还是先了解urlparse模块。
******************************************************************************
urlparse模块还有urlsplit、urlunsplit、urlparse、urlunparse等主要函数,看名字就知道是俩对,互为逆操作。带un的是将元组组合成URL,不带的是将URL拆分成元组。
- urlparse将urlstring解析成6个部分,它从urlstring中取得URL,并返回元组 (scheme, netloc, path, parameters, query, fragment);
- urlsplit主要是分析urlstring,返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段;
相应的,带un的分别是将拆分出来的元组组合成URL
--------python小学生