HTTPS(Hyper Text Transfer Protocol orer Secure Sokcket Layer,可以理解为HTTP+SSL/TLS)在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息。HTTP与HTTPS的主要区别如图所示:
HTTPS的SSL中使用了非对称加密、对称加密以及HASH算法。握手过程的简单描述如下:
(1)浏览器将自己支持的一套加密规则发送给网站。
(2)网站从中选出一组加密算法与HASH算法,并将自己的身份信息以证书的形式发回给浏览器。证书里面包含网站地址、加密公钥以及证书的颁发机构等信息。
(3)获得网站证书之后浏览器要做以下工作:①验证证书的合法性(如颁发证书的机构是否合法、证书中包含的网站地址是否与正在访问的地址一致等),如果证书受信任,浏览器栏就会显示一个小锁头,否则会给出证书不受信任的提示。②如果证书受信任或者用户接受了不受信任的证书,浏览器就会生成一串随机数的密码,并用证书中提供的公钥加密。③使用约定好的HASH计算握手消息,并使用生成的随机数对消息进行加密,最后将之前生成的所有信息发送给网站。
(4)网站接收浏览器发来的数据之后要做以下操作:①使用自己的私钥将信息解密并取出密码,使用密码解密浏览器发来的握手消息,并验证HASH是否与浏览器发来的一致。②使用密码加密一段握手消息,发送给浏览器。
(5)如果浏览器解密并计算握手消息的HASH与服务端发来的HASH一致,此时握手过程结束,之后所有的通信数据将使用之前浏览器生成的随机密码,并利用对称加密算法进行加密。
浏览器与网站互相发送加密的握手消息并验证,目的是保证双方都获得一致的密码,并且可以正常地加密、解密数据,为真正数据的传输做一次测试。另外,HTTPS一般使用的加密与HASH算法如下。
(1)非对称加密算法:RSA、DSA/DSS。
(2)对称加密算法:AES、RC4、3DES。
(3)HASH算法:MD5、SHA1、SHA256。
其中,非对称加密算法用于在握手过程中加密生成的密码,对称加密算法用于对真正传输的数据进行加密,而HASH算法用于验证数据的完整性。由于浏览器生成的密码是整个数据加密的关键,因此在传输的时候使用非对称加密算法对其加密。非对称加密算法会生成公钥和私钥,公钥只能用于加密数据,可以随意传输,而网站的私钥用于对数据进行解密,所以网站都会非常小心地保管自己的私钥,防止泄漏。
SSL握手过程中有任何错误都会使加密连接断开,从而阻止隐私信息的传输,正是由于HTTPS非常安全,攻击者无法从中找到下手的地方,因此更多地采用假证书的手法来欺骗客户端,从而获取明文的信息。
摘自《实战Python网络爬虫》