报文
HTTP协议交互的信息叫做报文。
报文又分为请求报文和响应报文。
报文 = 报文首部 + 空行(CR+LF) + 报文主体。
首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。
请求报文的报文首部 = 请求行 + 请求首部字段 + 通用首部字段 + 实体首部字段 + 其他。
请求行 = 方法 + URI + HTTP版本。
响应报文的报文首部 = 状态行 + 响应首部字段 + 通用首部字段 + 实体首部字段 + 其他。
状态行 = HTTP版本 + 状态码。
首部字段
无论是请求还是响应都会使用首部字段,它能起到传递额外重要信息的作用。
使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。
当 HTTP 报文首部中出现了两个或两个以上具有相同首部字段名时会怎么样?
这种情况在规范内尚未明确, 根据浏览器内部处理逻辑的不同, 结果可能并不一致。
有些浏览器会优先处理第一次出现的首部字段, 而有些则会优先处理最后出现的首部字段。
HTTP首部字段的四种类型:请求首部字段、响应首部字段、通用首部字段和实体首部字段。
请求首部字段:补充了请求的附加内容、客户端信息、响应内容相关优先级等信息。
响应首部字段:补充了响应的附加内容,也会要求客户端附加额外的内容信息。
通用首部字段:请求报文和响应报文两方都会使用的首部。
实体首部字段:补充了资源内容更新时间等与实体有关的信息。
请求首部字段
字段名 | 说明 |
Accept | 用户代理可以处理的媒体类型 |
Accept-Charset | 优先的字符集 |
Accept-Encoding | 优先的内部编码 |
Accept-Language | 优先的语言(自然语言) |
Authorization | Web认证信息 |
Expect | 期待服务器的特定行为 |
From | 用户的电子邮箱地址 |
Host | 请求资源所有服务器 |
If-Match | 比较实体标记(ETag) |
If-Modified-Since | 比较资源的更新时间 |
If-None-Match | 比较实体标记(与If-Match相反) |
If-Range | 资源未更新时发送实体Byte的范围请求 |
If-Unmodified-Since | 比较资源的更新时间(与If-Modified-Since相反) |
Max-Forwards | 最大传输逐跳数 |
Proxy-Authorization | 代理服务器要求客户端的认证信息 |
Range | 实体的字节范围请求 |
Referer | 对请求中URI的原始获取方 |
TE | 传输编码的优先级 |
User-Agent | HTTP客户端程序的信息 |
“那份资源最好发给我HTML格式的,如果没有,发给我TEXT格式的也行啊”
Accept:通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。
如,Accept: text/html,application/xhtml+xml,application/xml;q=0.
- text/html
- text/plain
- text/css
- application/xhtml+xml
- application/xml
- image/jpeg
- image/gif
- image/png
- video/mpeg
- video/quicktime
- application/octet-stream
- application/zip
若想要给显示的媒体类型增加优先级, 则使用 q= 来额外表示权重值, 用分号(;) 进行分隔。
权重值 q 的范围是 0~1(可精确到小数点后 3 位) , 且 1 为最大值。
不指定权重 q 值时, 默认权重为 q=1.0。
“我想以这个字符集阅读返回的页面”
Accept-Charset:通知服务器用户代理支持的字符集及字符集的相对优先顺序。
如,Accept-Charset: iso-8859-5, unicode-1-1;q=0.8
“报文主体被压缩也没关系的”
Accept-Encoding:告知服务器用户代理支持的内容编码及内容编码的优先级顺序。
如,Accept-Encoding: gzip, deflate
- gzip
- compress
- deflate
- identity
“我想要中文版的”
Accept-Language:告知服务器用户代理能够处理的自然语言集,以及自然语言集的相对优先级。
如,Accept-Language: zh-cn, zh;q=0.7, en-us, en;q=0.3;
“来,我把认证信息发送给你”
Authorization:告知服务器,用户代理的认证信息(证书值)。
如,Authorization: Basic dWVub3NlbjpwYXNzd29yZA==
“你能做到这个吗?”
Expect:告知服务器,期望出现的某种特定行为。
如,Expect: 100-continue
“如果有事情请联系这个电子邮箱”
From:告知服务器使用用户代理的用户的电子邮件地址。
通常,其使用目的就是为了显示搜索引擎等用户代理的负责人的电子邮件联系方式。
如,From: info@hackr.jp
“我有事要找他”
Host:告知服务器,请求的资源所处的互联网主机名和端口号。
Host首部字段在HTTP/1.1规范内是唯一一个必须被包含在请求内的首部字段。
如,Host: www.hackr.jp
“如果你能符合条件,我就会接受你的请求”
形如If-xxx这种样式的请求首部字段,都可称为条件请求。
服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。
只有当If-Match的字段值跟ETag值匹配一致时,服务器才会接受请求。
If-Match:告知服务器匹配资源所用的实体标记ETag值。
服务器会比对If-Match的字段值和资源的ETag值,仅当两者一致时,才会执行请求。
还可以使用*指定If-Match的字段值,针对这种情况,服务器将会忽略ETag的值,只要资源存在就处理请求。
如,If-Match: ''123456'
“我这没有Sample.html,所以可以处理你的请求”
If-None-Match:与请求资源的ETag不一致时,它就告知服务器处理该请求。
在GET或HEAD方法中使用首部字段If-None-Match可获取最新的资源。
因此,这与使用首部字段If-Modified-Since时有些类似。
如,If-None-Match: *
“因为是在2004年4月15日之后更新过的资源,所以我可以接受”
If-Modified-Since:告知服务器若If-Modified-Since字段值早于资源的更新时间,则希望能处理该请求。(资源在这个时间后更新过)
If-Modified-Since用于确认代理或客户端拥有的本地资源的有效性。
获取资源的更新时间,可通过确认首部字段Last-Modified来确定。
如,If-Modified-Since: Thu, 15 Apr 2004 00:00:00 GMT
If-Unmodified-Since:告知服务器,指定的请求资源只有在字段值内指定的日期之后未发生更新的情况下,才能处理请求。
如,If-Unmodified-Since: Thu, 03 Jul 2012 00:00:00 GMT
If-Range:告知服务器若指定的If-Range字段值和请求资源的ETag值或时间一致时,则作为范围请求处理,反之则返回全体资源。
如,If-Range: "123456"
“只能再往下转发两次哦”
Max-Forwards:该字段以十进制整数形式指定可经过的服务器最大数目。
当服务器接收到Max-Forwards值为0的请求时,则不再进行转发,而是直接返回响应。
如,Max-Forwards: 10
Proxy-Authorization:接收到从代理服务器发来的认证质询时,客户端会发送包含首部字段Proxy-Authorization的请求,以告知服务器认证所需要的信息。
如,Proxy-Authorization: Basic dGlw0jkpNLAGfFY5
Range:对于只需要获取部分资源的范围请求,包含首部字段Range即可告知服务器资源的指定范围。
如,Range: bytes=5001-10000
“这个请求的URI是从我这里发起的”
Referer:告知服务器请求的原始资源的URI。
客户端一般都会发送Referer首部字段给服务器。
但当直接在浏览器的地址栏输入URI,或出于安全性的考虑时,也可以不发送该首部字段。
如,Referer: http://www.hackr.jp/index.htm
TE:告知服务器能够处理响应的传输编码方式及相对优先级。
它和首部字段Accept-Encoding的功能很相像,但是用于传输编码。
首部字段TE除指定传输编码之外,还可以指定伴随trailer字段的分块传输编码的方式。
应用后者时,只需把trailers赋值给该字段值。
如,TE: gzip, deflate; q=0.5
TE: trailers
User-Agent:会将创建请求的浏览器和用户代理名称等信息传达给服务器。
由网络爬虫发起请求时,有可能会在字段内添加爬虫作者的电子邮件地址。
此外,如果请求经过处理,那么中间也很可能被添加上代理服务器的名称。
如,User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gec
响应首部字段
首部字段名 | 说明 |
Accept-Ranges | 是否接受字节范围请求 |
Age | 推算资源创建经过时间 |
ETag | 资源的匹配信息 |
Location | 令客户端重定向至指定URI |
Proxy-Authenticate | 代理服务器对客户端的认证信息 |
Retry-After | 对再次发起请求的时机要求 |
Server | HTTP服务器的安装信息 |
Vary | 代理服务器缓存的管理信息 |
WWW-Authenticate | 服务器对客户端的认证信息 |
“范围请求Ok哟”
首部字段 Accept-Ranges 是用来告知客户端服务器是否能处理范围请求,以指定获取服务器端某个部分的资源。
可指定的字段值有两种,可处理范围请求时指定其为bytes,反之则指定其为none。
Accept-Ranges: bytes
“这个缓存向源服务器确认过,现已过去了10分钟”
首部字段Age能告知客户端,源服务器在多久前创建了响应,单位秒。
若创建该响应的服务器是缓存服务器,Age值是指缓存后的响应再次发起认证到认证完成的时间值。
代理创建响应时必须加上首部字段Age。
Age: 30
“资源的URI虽然没有变,但是当资源更新后,ETag值会随之改变”
首部字段ETag能告知客户端实体标识。
它是一种可将资源以字符串形式做唯一性标识的方法。
服务器会为每份资源分配对应的ETag。
当资源更新时,ETag值也需要更新。
生成ETag值时,并没有统一的算法规则,而仅仅是由服务器来分配。
ETag: "d45a4df6saf1sdf35ds41g3ds1v35"
强ETag值,不论实体发生多么细微的变化都会改变其值。
ETag: "usagi-1234"
弱ETag值只用于提示资源是否相同。
只有资源发生了根本改变,产生差异时才会改变ETag值。
这时,会在字段值最开始处附加W/。
ETag: W/"usagi-1234"
“你要浏览的页面已被转义,去那边看吧!”
使用首部字段Location可以将响应接收方引导至某个与请求URI位置不同的资源。
基本上,该字段会配合3xx: Redirection的响应,提供重定向的URI。
几乎所有的浏览器在接收到包含首部字段Location的响应后,都会强制性尝试对已提示的重定向资源的访问。
Location: http://www.usagidesign.jp/sample.html
首部字段Proxy-Authenticate会把由代理服务器所要求的认证信息发送给客户端。
它与客户端和服务器之间的HTTP访问认证的行为相似,不同之处在于其认证行为是在客户端与代理之间进行的。
而客户端与服务器之间进行认证时,首部字段WWW-Authorization有着相同的作用。
Proxy-Authenticate: Basic realm="Usagidesign Auth"
“5分钟后再来访问哦”
首部字段Retry-After告知客户端应该在多久之后再次发送请求。
主要配合状态码 503 Service Unavailable 响应,或 3xx Redirect 响应一起使用。
字段值可以指定为具体的日期时间,也可以是创建响应后的秒数。
Retry-After: 120
首部字段Server告知客户端当前服务器上安装的HTTP服务器应用程序的信息。
不单单会标出服务器上的软件应用名称,还有可能包括版本号和安装时启用的可选性。
Server: Apache/2.2.17 (Unix)
Server: Apache/2.26 (Unix) PHP/5.2.5
“只能对持相同自然语言(Accept-Language)的请求返回缓存”
当代理服务器接收到带有Vary首部字段指定获取资源的请求时,如果使用的Accept-Language字段的值相同,那么就直接从缓存返回响应。
反之,则需要先从源服务器端获取资源后才能作为响应返回。
Vary: Accept-Language
首部字段Vary可对缓存进行控制。
源服务器会向代理服务器传达关于本地缓存使用方法的命令。
从代理服务器接收到源服务器返回包含 Vary 指定项的响应之后, 若再要进行缓存, 仅对请求中含有相同 Vary 指定首部字段的请求返回缓存。
即使对相同资源发起请求, 但由于 Vary 指定的首部字段不相同, 因此必须要从源服务器重新获取资源。
WWW-Authenticate: Basic realm="Usagidesign Auth"
首部字段WWW-Authenticate用于HTTP访问认证。
它会告知客户端适用于访问请求URI所指定资源的认证方案和带参数提示的质询。
状态码401 Unautuorized响应中,肯定带有首部字段WWW-Authenticate。
通用首部字段
字段名 | 说明 |
Cache-Control | 控制缓存的行为 |
Connection | 逐跳首部、连接的管理 |
Date | 创建报文的日期时间 |
Pragma | 报文指令 |
Trailer | 报文末端的首部一览 |
Transfer-Encoding | 指定报文主体的传输编码方式 |
Upgrade | 升级为其他协议 |
Via | 代理服务器的相关信息 |
Warning | 错误通知 |
“如果有新缓存请给我”
Cache-Control:操作缓存的工作机制。
指令的参数是可选的,多个指令之间通过“,”分隔。
如,Cache-Control: private, max-age=0, no-cache
首部字段Cache-Control的指令可用于请求及响应时。
可用的指令按请求和响应分类。
缓存请求指令:
- no-cache 强制向源服务器再次验证
- no-store 不缓存请求或响应的任何内容
- max-age=[秒] 响应的最大Age值
- max-stale(=[秒]) 接收已过期的响应
- min-fresh=[秒] 期望在指定时间内的响应仍有效
- no-transform 代理不可更改媒体类型
- noly-if-cached 从缓存获取资源
- cache-extension 新指令标记
缓存响应指令:
- public 可向任意方提供响应的缓存
- private 仅向特定用户返回响应
- no-cache 缓存前必须先确认其有效性
- no-store 不缓存请求或响应的任何内容
- no-transform 代理不可更改媒体类型
- must-revalidate 可缓存但必须再向源服务器进行确认
- proxy-revalidate 要求中间缓存服务器对缓存的响应有效性再进行确认
- max-age=[秒] 响应的最大Age值
- s-maxage=[秒] 公共缓存服务器响应的最大Age值
- cache-extension 新指令标记(token)
Cache-Control: public
当指定使用public指令时,则明确表明其他用户也可利用缓存。
Cache-Control: private
当指定private指令后,响应只以特定的用户作为对象。
Cache-Control: no-cache
使用no-cahe指令的目的是为了防止从缓存中返回过期的资源。
客户端发送的请求中如果包含no-cache指令,则表示客户端将不会接收缓存过的响应。
服务器返回的响应中包含no-cache指令,那么缓存服务器不能对资源进行缓存。
Cache-Control: no-cache=Location
由服务器返回的响应中,若报文首部字段Cache-Control中对no-cache字段名具体指定参数值,那么客户端在接收到这个被指定参数值的首部字段对应的响应报文后,就不能使用缓存。
Cache-Control: no-store
当使用no-store指令时,暗示请求或响应中包含机密信息。
该指令规定缓存不能在本地存储请求或响应的任一部分。
Cache-Control: no-transform
规定无论是在请求还是响应中,缓存都不能改变实体主体的媒体类型。
这样做可防止缓存或代理压缩图片等类似操作。
Cache-Control: must-revalidate
使用must-revalidate指令,代理会向源服务器再次验证即将返回的响应缓存目前是否仍然有效。
使用must-revalidate指令会忽略请求的max-stale指令。
Cache-Control: proxy-revalidate
要求所有的缓存服务器在接收到客户端带有该指令的请求返回响应之前,必须再次验证缓存的有效性。
Cache-Control: max-age=604800(比这个数值小,客户端就接收)
当客户端发送的请求中包含max-age指令时,如果判定缓存资源的缓存时间数值比指定时间的数值更小,那么客户端就接收缓存的资源。另外,当指定max-age值为0,那么缓存服务器通常需要将请求转发给源服务器。
当服务器返回的响应中包含max-age指令时,缓存服务器将不对资源的有效性再做确认,而max-age数值代表资源保存为缓存的最长时间。
Cache-Control: s-maxage=604800
s-maxage指令的功能和max-age指令的相同,它们的不同点是s-maxage指令只适用于供多位用户使用的公共缓存服务器。
也就是说,对于向同一用户重复返回响应的服务器来说,这个指令没有任何作用。
当使用s-maxage指令后,则直接忽略对Expires首部字段及max-age指令的处理。
Cache-Control: min-fresh=60(超过这个值就不要返回了)
min-fresh指令要求缓存服务器返回至少还未过指定时间的缓存资源。
Cache-Control: max-stale=3600(不超过这个值可以缓存过期资源)
使用max-stale指示可缓存资源,即使过期也照常接收。
如果指令未指定参数值,那么无论经过多久,客户端都会接收响应;
如果指令中指定了具体数值,那么即使过期,只要仍处于max-stale指定的时间内,仍旧会被客户端接收。
Cache-Control: only-if-cached
表示客户端仅在缓存服务器本地缓存目标资源的情况下才会要求其返回。
该指令要求缓存服务器不重新加载响应,也不会再次确认资源有效性。
cache-extension token
Cache-Control: private, community="UCI"
通过cache-extension标记(token),可以扩展Cache-Control首部字段内的指令。
借助extension tokens实现了该指令的添加。
如果缓存服务器不能理解community这个新指令,就会直接忽略。
Connection
- 控制不再转发给代理的首部字段
- 管理持久连接
“把这个删除后再转发哦”
Connection: 不再转发的首部字段名
在客户端发送请求和服务器返回响应内,使用Connection首部字段,可控制不再转发给代理的首部字段。
“这下我和你的关系暂且结束了”
Connection: close
HTTP/1.1版本的默认连接都是持久连接,为此,客户端会在持久连接上连续发送请求。
当服务器端想明确断开连接时,则指定Connection首部字段的值为Close。
Connection: Keep-Alive
HTTP/1.1之前的HTTP版本的默认连接都是非持久连接。
为此,如果想在旧版本的HTTP协议上维持持续连接,则需要指定Connetcion首部字段的值为Keep-Alive。
“HTTP报文创建于2012年7月3日(周二)4点40分59秒”
Date: Tue, 03 Jul 2021 04:40:59 GMT
“我不接收缓存”
Pragma: no-cache
Pragma是HTTP/1.1之前版本的历史遗留字段,仅作为与HTTP/1.0的向后兼容而定义。
该首部字段属于通用首部字段,但只用在客户端发送的请求中。
客户端会要求所有的中间服务器不返回缓存的资源。
发送请求会同时含有下面两个首部字段。
Cache-Contron: no-cache
Pragma: no-cache
“在报文的最后写了很重要的东西,记得要仔细阅读哦”
首部字段Trailer会事先说明在报文主体后记录了哪些首部字段。
该首部字段可应用在HTTP/1.1版本分块传输编码时。
“用这种传输编码方式发送哦”
Transfer-Encoding: chunked
首部字段Transfer-Encoding规定了传输报文主体时采用的编码方式。
“能让我使用这个协议吗?”
Upgrade: TLS/1.0
首部字段Upgrade用户检测HTTP协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。
使用首部字段Upgrade时,还需要额外指定Connection: Upgrade。
Via
使用首部字段Via是为了追踪客户端与服务器之间的请求和响应报文的传输路径。
报文经过代理或网关时,会先在首部字段Via中附加该服务器的信息,然后再进行转发。
首部字段Via不仅用于追踪报文的转发,还可避免请求回环的发生,所以必须在经过代理时附加该首部字段内容。
Warning: 113 gw.hackr.jp:8080 "Heuristic expiration" Tue, 03
该首部通常会告知用户一些与缓存相关的问题的警告。
HTTP/1.1警告码
警告码 | 警告内容 | 说明 |
110 | 响应已过期 | 代理返回已过期的资源 |
111 | 再验证失败 | 代理在验证资源有效性时失败 |
112 | 断开连接操作 | 代理与互联网连接被故意切断 |
113 | 试探性过期 | 响应的试用期超过24小时 |
199 | 杂项警告 | 任意的警告内容 |
214 | 使用了转换 | 代理对内容编码或媒体类型等执行了某些处理时 |
299 | 持久杂项警告 | 任意的警告内容 |
实体首部字段
首部字段名 | 说明 |
Allow | 资源可支持的HTTP方法 |
Content-Encoding | 实体主体适用的编码方式 |
Content-Language | 实体主体的自然语言 |
Content-Length | 实体主体的大小 |
Content-Location | 替代对应资源的URI |
Content-MD5 | 实体主体的报文摘要 |
Content-Range | 实体主体的位置范围 |
Content-Type | 实体主体的媒体类型 |
Expires | 实体主体过期的日期时间 |
Last-Modified | 资源的最后修改日期时间 |
“在我这边只能使用GET和HEAD方法啊”
首部字段 Allow 用于通知客户端能够支持 Request-URI 指定资源的所有 HTTP 方法。
当服务器接收到不支持的 HTTP 方法时, 会以状态码405 Method Not Allowed 作为响应返回。
与此同时, 还会把所有能支持的 HTTP 方法写入首部字段 Allow 后返回。
Allow: GET, HEAD
“我已按这种方法进行了压缩,之后的解压工作就摆脱你了”
首部字段 Content-Encoding 会告知客户端服务器对实体的主体部分选用的内容编码方式。
内容编码是指在不丢失实体信息的前提下所进行的压缩。
Content-Encoding: gzip
- gzip
- compress
- deflate
- identity
“该资源是中文的”
首部字段Content-Language会告知客户端,实体主体使用的自然语言。
Content-Language: zh-CN
“该资源的大小为15000字节”
首部字段 Content-Length 表明了实体主体部分的大小(单位是字节) 。
对实体主体进行内容编码传输时, 不能再使用 Content-Length 首部字段。
Content-Length: 15000
首部字段 Content-Location 给出与报文主体部分相对应的URI。
和首部字段 Location 不同,Content-Location 表示的是报文主体返回资源对应的URI。
Content-Location: http://www.hackr.jp/index-ja.html
首部字段Content-MD5是一串MD5算法生成的值,其目的在于检查报文主体在传输过程中是否保持完整,以及确认传输到达。
Content-MD5: dsafdhusslvliuesbvlvw5f4w6
“把那些部分发送给我”
针对范围请求,返回响应时使用的首部字段Content-Range,能告知客户端作为响应的实体的哪个部分符合范围请求。
字段值以字节为单位,表示当前发送部分及整个实体大小。
Content-Range: bytes 5001-10000/10000
首部字段Content-Type说明了实体主体内对象的媒体类型。
和首部字段Accept一样,字段值用type/subtype形式赋值。
参数charset使用iso-8859-1或euc-jp等字符集进行赋值。
Content-Type: text/html; charset=UTF-8
首部字段Expires会将资源失效的日期告知客户端。
缓存服务器在接收到含有首部字段Expires的响应后,会以缓存来应答请求,在Expires字段值指定的时间之前,响应的副本会一直被保存。
当超过指定的时间后, 缓存服务器在请求发送过来时, 会转向源服务器请求资源。
源服务器不希望缓存服务器对资源缓存时, 最好在 Expires 字段内写入与首部字段 Date 相同的时间值。
但是, 当首部字段 Cache-Control 有指定 max-age 指令时, 比起首部字段 Expires, 会优先处理 max-age 指令。
Expires: Wed, 04 Jul 2012 08:26:05 GMT
“这资源在2012年5月23日被修改”
首部字段Last-Modified指明资源最终修改的时间。
一般来说, 这个值就是 Request-URI 指定资源被修改的时间。
但类似使用 CGI 脚本进行动态数据处理时, 该值有可能会变成数据最终修改时的时间。
Last-Modified: Wed, 23 May 2012 09:59:55 GMT