https浅析
http协议本身有着很大的缺陷
1. 通信使用明文,若被抓包,则直接被窃取信息
2. 不验证与自身通信者的身份,有可能遭到伪装
- 在数据传输的过程中,经过了某一计算机,该计算机直接响应你的请求,然后你无法判断这个请求是否为目标服务器返回的请求
3. 无法证明报文是否被篡改
- 在数据的请求响应过程中,经过某一计算机,该计算机将报文内容进行修改,而后让报文继续正常传输,然而我们无法判断报文在传输的过程中是否被篡改
http的tcp连接的建立过程与https的tcp连接建立过程是不同的。后者还多了ssl连接,在这个过程中进行证书验证与加密模式的协商与传递。
在讲https通信之前,我们先捋清楚对称加密与非对称加密,因为这两者是https通信加密的基理。
## 对称加密
对称加密会在建立tcp连接之后,共享秘钥,往后双方使用该秘钥加密报文,使得http报√文不再是明文。
不过这存在一个问题,虽然报文被抓包时无法直接看到明文了,但如果同时抓包了秘钥,就可以被解密出来,那和明文就没有什么差别了。
## 非对称加密
在对称加密中,双方通过一个秘钥加密和解密。那么如果我们把加密和解密分别用两个不同的秘钥来操作呢?
这两个秘钥就是公钥及私钥。我们使用公钥加密报文,用私钥解密报文,是一对的。要想双向通信,则不管是服务器还是浏览器都需要创建出自己的一对秘钥(注意,客户端也能创建公钥私钥)。
现在,我们以浏览器发送信息,服务器接受信息为例。即浏览器加密报文,服务器解密报文,也就是说,使用的是服务器的公钥与私钥。
在建立tcp连接之后,服务器将公钥发送给客户端,往后客户端每次发送数据之前都是用该公钥加密,当服务器接受到加密后的报文后,使用与客户端加密数据的公钥相对应的私钥来进行解密。通信成功。
他的安全之处在于:
在报文的传输过程中,报文不是明文的。再进一步讲,就算报文被抓包了,且公钥也被抓包了,但因为能解密该公钥加密的报文的私钥只在对应的服务器里有,这个私钥是不会在网络中传输的,也就无法被抓包,那么劫持者也就无法解密该报文。也就无法获取到有效信息。
大家可能会想:既然已经这么安全了,那么https协议就通过非对称加密来进行通信不就好了?
之所以不这样做的原因是代价太大了,因为需要每次通信都用公钥进行一次加密,发送到对方,对方得先找到该公钥对应的私钥,然后再用该私钥解密。每次解密都是cpu计算的,若有大量的通信请求,则对于cpu负载太大了。
我们再来说说CA证书,这也是https的关键。
## CA证书
CA证书是数字证书,是由CA机构颁发的,所有人都信任该机构,在服务器与客户端建立SSL连接时由服务端返回(当然,客户端也可以申请CA证书,在需要确认客户端的可靠性时这样做,例如银行ATM机信息查询及存取钱)。
CA证书包括以下内容:
- 证书的颁发机构
- 版本证书的使用者
- 证书的公钥(也就是说公钥是在CA证书中的)
- 证书的有效时间
- 证书的数字签名(Hash值)(其实是用证书的私钥进行加密后的值)
- 签名Hash算法
## 解决http的缺陷
了解了这些后,现在我们可以来一一解决http协议的缺陷了。
### 通信使用明文,若被抓包,则直接被窃取信息
https协议是使用对称加密和非对称加密的组合加密,使得就算被抓包,也无法获得有效信息。这个我会在接下来梳理清楚。
### 不验证与自身通信者的身份,有可能遭到伪装
要想解决这个问题,就得借助于CA证书了。
当浏览器端接受到服务器返回的CA证书时,他会进行一个验证操作——将该证书中的公钥与CA机构预置在操作系统中所有的公钥进行对比,如果没有找到相同的公钥,则证明该证书并非CA机构颁发的,所以有可能是伪装的服务器。
我的理解是:你访问的网站是拥有CA证书的,所以其证书中的公钥应该能够被在操作系统中找到,而伪装者一般不会购买CA证书,最多只是自己创建了一个自己的证书(不会被CA机构承认),所以如果找不到该证书中的公钥的话,那就是伪装者。
### 无法证明报文是否被篡改
同样得借助于CA证书。
我们是通过证书中的公钥,证书的数字签名,签名Hash算法互相配合来做到是否篡改过该报文。
过程如下:
在验证了通信者的身份不是伪装的之后,我们用证书的公钥解签证书的数字签名,得到摘要。然后我们用签名Hash算法解析证书的数字签名,又得到一个摘要。将这两个摘要进行对比,若相同,则报文未被篡改。若不同,则说明报文被篡改过,数据不安全。
在这里我想多提一句:
可能大家发现了,我说了这么一句话:“我们用证书的公钥解签证书的数字签名”,可是我之前又说了“我们使用公钥加密报文,用私钥解密报文”,这不是矛盾吗?
当然不矛盾,一个是加密解密,一个是签名解签。
大家可以这样记忆:
- 公钥加密,私钥解密。——用于加解密
- 私钥产生签名,公钥验签。——用于签名
### https建立TCP连接流程
以下讲的只是ssl连接过程,至于TCP连接3次握手过程忽略不讲。
1. 客户端访问服务器,会发送客户端中产生的一个随机数A,将该随机数发送给服务器
2. 服务器接收到信息之后,也生成一个随机数B,并将该随机数B和CA证书一同返回给客户端
3. 客户端A接受到响应后,首先会验证该证书是否为合法CA证书,若合法,再通过验签操作确认该响应是否被篡改过(这两个过程都在上面讲过了,也就不在赘述)。若没有被篡改,则再产生一个随机数C,用证书的公钥来加密该随机数,并发送给服务器
4. 服务器接受到数据后,使用私钥解密,得到真正的随机数C,这样不论是客户端还是服务器,都有随机数A,B,C,然后双方利用这三个随机数生成一个秘钥(服务器与客户端生成的秘钥是相同的,因为随机数都相同),而后通过这个生成的秘钥来进行对称加密来传输数据
5. 之后所有的数据传输都是用该秘钥对称加密,回到了正常的http通信
这个过程讲完了,我们回到第一个问题:“通信使用明文,若被抓包,则直接被窃取信息”。https不会出现这个情况,一是因为传输的数据不是明文,是对称加密后的数据。再是加密的秘钥并未在网络上传输过,是服务器和客户端根据本地随机数A,B,C生成的。所以可以保证即使被抓包了,攻击者也无法解析出有效信息。
可能大家又会说,随机数A,B,C不是在网络上传输过了吗,那被抓包了,不就也可以用这三个随机数生成相同的秘钥吗?
大家有没有注意到,虽然随机数A,B都是明文传输的,但随机数C他是使用的非对称传输,这也就是说,抓包者无法知道这个随机数C的真实值,即使他抓包到了公钥,但因为私钥只在服务器本地里,无法得到,所以也就无法解密出随机数C的真实值了。
(全文完)
参考资料
- HTTP加密解密过程:http://blog.sina.com.cn/s/blog_185268e880102xvvu.html
- 非对称加解密,私钥和公钥到底是谁来加密,谁来解密:https://blog.csdn.net/qq_23167527/article/details/80614454
- 一文读懂Https的安全性原理、数字证书、单项认证、双项认证等:https://www.cnblogs.com/imstudy/p/9001886.html
- https数字证书交换过程:https://blog.csdn.net/laiyuan999/article/details/80011579
- 我是这样理解HTTP和HTTPS区别的:https://www.cnblogs.com/jesse131/p/9080925.html