Web 应用程序技术
Web应用程序使用各种不同的技术实现其功能。本章简要介绍渗透侧试员在攻击Web应用程序时可能遇到的关键技术。我们将分析HTTP协议、服务器和客户端常用的技术以及用于在各种情形下呈现数据的编码方案。这些技术大都简单易懂,掌握其相关特性对于向Web应用程序发动有效攻击极其重要。
HTTP
HTTP(HyperText Transfer Protocol,超文本传输协议)是访问万维网使用的核心通信协议,也是今天所有Web应用程序使用的通信协议。最初,HTTP只是一个为获取基于文本的静态资源而开发的简单协议,后来人们以各种形式扩展和利用它.使其能够支持如今常见的复杂分布式应用程序。
HTTP使用一种用于消息的模型:客户端送出一条请求消息,而后由服务器返回一u条响应消息。该协议基本上不需要连接,虽然HTTP使用有状态的TCP协议作为它的传输机制,但每次请求与响应交换都会自动完成,并且可能使用不同的TCP连接。
1.1 HTTP请求
所有HTTP消息(请求与响应)中都包含一个或几个单行显示的消息头(header),然后是一
个强制空白行,最后是消息主体(可选)。以下是一个典型的HTTP请求:
GET /auth/488/YourDetails.ashx?uid=129 HTTP/l.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Referer: https://mdsec.net/auth/488/Home.ashx
Accept-Language: zh-cn,zh;q=0.5
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WDW64;
Trident/4.0; SLCC2;. NET CLR 2.0.50727;. NET CLR 3.5.30729; .NET CLR
3.0.30729; .NET4.OC; InfoPath.3; .NET4.OE; FDM;。 NET CLR 1.1.4322)
Accept-Encoding: gzip, deflate
Host: mdsec.net
Connection: Keep-Alive
Cookie: SessionId=5870C7lF3FD4968935CDB6682E545476
每个HTTP请求的第一行都由3个以空格间隔的项目组成。
GET****:一个说明HTTP方法的动词。最常用的方法为GET,它的主要作用是从Web服务器获取一个资源。GET请求并没有消息主体,因此在消息头后的空白行中没有其他数据。所请求的URL,通常由所请求的资源名称,以及一个包含客户端向该资源提交的参数的可选查询字符串组成。在该URL中,查询字符串以?字符标识,上面的示例中有一个名为uid、值为129的参数。使用的HTTP版本。因特网上常用的HTTP版本为1.0和1.1,多数浏览器默认使用1.1版本。这两个版本的规范之间存在一些差异;然而,当攻击Web应用程序时,渗透测试员可能遇到的唯一差异是1.1版本必须使用Host请求头。
Accept:浏览器支持的 MIME 类型分别是 text/html、application/xhtml+xml、application/xml 和 /,优先顺序是它们从左到右的排列顺序(表示我当前的浏览器希望接受什么类型的文件,这是请求首部,当服务器没有客户端想要的资源的媒体类型时,会返回406 Not Acceptable 响应。当然使用了 / 表示愿意接受任意类型的资源,所以应不会看到这个响应。另外,这里的 q 表示权重,权重在 0-1 之间,可以理解成客户端在这些给出的类型中,想优先接受什么类型,可以服务器就可以根据客户端的需要返回相应的资源。
如果没有,则默认为 1 。这里前面几个类型都没有标明,则默认都是 1 ,表示优先这些类型,后面的 0.9 表示前面都没有就用这个,最后的 0.8 表示如果都没有,那么任意的类型都行)。
详解:
Accept表示浏览器支持的 MIME 类型;
MIME的英文全称是 Multipurpose Internet Mail Extensions(多功能 Internet 邮件扩充服务),它是一种多用途网际邮件扩充协议,在1992年最早应用于电子邮件系统,但后来也应用到浏览器。
text/html,application/xhtml+xml,application/xml 都是 MIME 类型,也可以称为媒体类型和内容类型,斜杠前面的是 type(类型),斜杠后面的是 subtype(子类型);type 指定大的范围,subtype 是 type 中范围更明确的类型,即大类中的小类。
Text:用于标准化地表示的文本信息,文本消息可以是多种字符集和或者多种格式的;
text/html表示 html 文档;
Application:用于传输应用程序数据或者二进制数据;
application/xhtml+xml表示 xhtml 文档;
application/xml表示 xml 文档。
Referer 消息头用于表示发出请求的原始URL(例如,因为用户单击页面上的一个链接)。请注意,在最初的HTTP规范中,这个消息头存在拼写错误,并且这个错误一直保留了下来。
Accept-Language 浏览器支持的语言分别是中文和简体中文,优先支持简体中文。
详解:
Accept-Language表示浏览器所支持的语言类型;
zh-cn表示简体中文;zh 表示中文;
q是权重系数,范围 0 =< q <= 1,q 值越大,请求越倾向于获得其“;”之前的类型表示的内容,若没有指定 q 值,则默认为1,若被赋值为0,则用于提醒服务器哪些是浏览器不接受的内容类型。
User-Agent消息头提供与浏览器或其他生成请求的客户端软件有关的信息。请注意,由于历史原因,大多数浏览器中都包含Mozilla前缀。这是因为最初占支配地位的Netscape浏览器使用了User-Agent字符串,而其他浏览器也希望让Web站点相信它们与这种标准兼容。与计算领域历史上的许多怪异现象一样,这种现象变得很普遍,即使当前版本的Internet Explorer也保留了这一做法,示例的请求即由Internet Explorer提出。
Host消息头用于指定出现在被访问的完整URL中的主机名称。如果几个Web站点以相同的一台服务器为主机.就需要使用Host消息头.因为请求第一行中的URL内通常并不包含主机名称。
Accept-Encoding浏览器支持的压缩编码是 gzip 和 deflate
Cookie消息头用于提交服务器向客户端发布的其他参数(请参阅本章后续内容了解更多详情)。
Connection表示持久的客户端与服务连接。
Upgrade-Insecure-Requests: 1该指令用于让浏览器自动升级请求从http到https,用于大量包含http资源的http网页直接升级到https而不会报错.简洁的来讲,就相当于在http和https之间起的一个过渡作用.
X_FORWARDED_FOR是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。
1.2 HTTP响应
以下是一个典型的HTTP响应:
HTTP/1.1 200 OK
Date: Tue, 19 Apr 2011 09:23:32 GMT
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Set-Cookie: tracking=tI8rk7joMx44S2Uu85nSWc
X-AspNet-Version: 2.0.50727
Cache-Control: no-cache
Pragma: no-cache
Expires: Thu, 01 Jan 1970 00:00:00 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 1067
<IDOCTYPE html PUBLIC一//W3C//DTD XHTML 1.0 Transitional//EN二http://
www.w3.org/TR/xhtmll/DTD/xhtmll一transitional.dtd"><html xmlns="http://
www.w3.ora/1999/xhtml* ><head><title>Your details</title>
每个HTTP响应的第一行由3个以空格间隔的项目组成。
使用的HTTP版本。
表示请求结果的数字状态码。200是最常用的状态码.它表示成功提交了请求,正在返回所请求的资源。
一段文本形式的“原因短语”,进一步说明响应状态。这个短语中可包含任何值,当前浏览器不将其用于任何目的。
响应示例中的其他一些要点如下:
Server消息头中包含一个旗标,指明所使用的Web服务器软件。有时还包括其他信息.如所安装的模块和服务器操作系统。其中包含的信息可能并不准确。
Set-Cookie消息头向浏览器发送另一个cookie.它将在随后向服务器发送的请求中由Cookie消息头返回。
Pragma消息头指示浏览器不要将响应保存在缓存中。Expires消息头指出响应内容已经过期.因此不应保存在缓存中。当返回动态内容时常常会发送这些指令,以确保浏览器随时获得最新内容。
几乎所有的HTTP响应在消息头后的空白行下面都包含消息主体,Content-Type消息头示这个消息主体中包含一个HTML文档。
Content-Length消息头规定消息主体的字节长度。
ETag: W/"59a3dc83-f61" 浏览器根据HTTP请求的ETag验证请求的资源是否发生了改变,如果它未发生变化,服务器将返回“304 Not Modified”响应,并且资源从浏览器缓存中读取,这样就不必再次下载请求。
Vary:Accept-Encoding”标头,表示网站一般启用了GZip压缩
Expires是RFC 2616(HTTP/1.0)协议中和网页缓存相关字段。用来控制缓存的失效日期。
1.3 HTTP方法
当渗透测试员攻击Web应用程序时,几乎肯定会遇到最常用的方法:GET和POST。这些方法之间存在一些必须了解的重要差异,忽略这些差异可能会危及应用程序的安全。
GET方法的作用在于获取资源。它可以用于URL查询字符串的形式向所请求的资谏发送参数。这使用户可将一个包含动态资源的URL标注为书签,用户自己或其他用户随后可重复利用该书签来获取等价的资源(作用与标注为书签的搜索查询相似)。URL显示在屏幕上.并被记录在许多地方,如浏览器的历史记录和Web服务器的访问日志中。如果单击外部链接,还可以用Referer消息头将它们传送到其他站点。因此,请勿使用查询字符申传送任何敏感信息。
POST方法的主要作用是执行操作。使用这个方法可以在URL查询字符申与消息主体中发送请求参数。尽管仍然可以将URL标注为书签,但书签中并不包含消息主体发送的任何参数。许多维护URL日志的位置及Referer消息头也将这些参数排除在外。因为POST方法旨在执行操作,如果用户单击浏览器上的“后退”按钮,返回一个使用这种方法访问的页面,那么浏览器不会自动重新发送请求,而是就即将发生的操作向用户发出带告.如图3-1所示。这样做可防止用户无意中多次执行同一个操作。因此.在执行某一操作时必须使用POST请求。
浏览器不会自动重新发送用户提出的POST请求,因为这样做会导致多次执行某一操作
除了GET和POST方法以外.HTTP协议还支持许多其他因特殊目的而建立的方法。需要了解的其他方法如下:
HEAD。这个方法的功能与GET方法相似,不同之处在于服务器不会在其响应中返回消息主体。服务器返回的消息头应与对应GET请求返回的消息头相同。因此,这种方法可用于检查某一资源在向其提交GET请求前是否存在。
TRACE.这种方法主要用于诊断。服务器应在响应主体中返回其收到的请求消息的具体内容。这种方法可用于检测客户端与服务器之间是否存在任何操纵请求的代理服务器。
OPTIONS。这种方法要求服务器报告对某一特殊资源有效的HTTP方法。服务器通常返回一个包含Allow消息头的响应,并在其中列出所有有效的方法。
PUT。这个方法试图使用包含在请求主体中的内容,向服务器上传指定的资源。如果激活这个方法,渗透测试员就可以利用它来攻击应用程序。例如,通过上传任意一段脚本并在服务器上执行该脚本来攻击应用程序。
还有许多其他与攻击Web应用程序没有直接关系的HTTP方法。然而,如果激活某些危险的方法,Web服务器可能面临攻击风险。
1.4 URL
URL(Uniform Resource Locator,统一资源定位符)是标识Web资源的唯一标识符.通过它
即可获取其标识的资源。最常用的URL格式如下:
protocol://hostname[:port]/[path/Ifile[?param=valuel
这个结构中有几个部分是可选的。如果端口号与相关协议使用的默认值不同,则只包含端口号即
可。用于生成前面的HTTP请求的URL为:
https://mdsec.net/auth/488/YourDetails.ashx?uid=129
除这种绝对形式外,还可以相对某一特殊主机或主机上的一个特殊路径指定URL,例如:
/auth/488/YourDetails.ashx?uid=129
YourDetails.ashx?uid=129
Web页面常常使用这些相对形式描述Web站点或应用程序中的导航。
1.5 HTTP消息头
HTTP支持许多不同的消息头,其中一些专用于特殊用途。一些消息头可用在请求与响应中,而其他一些消息头只能专门用在某个特定的消息中。下面列出渗透测试员在攻击Web应用程序时可能遇到的消息头。
1.常用消息头
Connection。这个消息头用于告诉通信的另一端.在完成HTTP传输后是关闭TCP连接,还是保持连接开放以接收其他消息。
Content-Encoding。这个消息头为消息主体中的内容指定编码形式(如gzip ),一些应用程序使用它来压缩响应以加快传输速度。
Content-Length。这个消息头用于规定消息主体的字节长度。(HEAD语法的响应例外.它在对应的GET请求的响应中指出主体的长度。
Content-Type。这个消息头用于规定消息主体的内容类型。例如,HTML文档的内容类型为text/html,
Transfer-Encoding。这个消息头指定为方便其通过HTTP传输而对消息主体使用的任何编码。如果使用这个消息头.通常用它指定了编码。
2.请求消息头
Accept。这个消息头用于告诉服务器客户端愿意接受哪些内容,如图像类型、办公文档格式等。
Accept-Encoding。这个消息头用于告诉服务器.客户端愿意接受哪些内容编码。
Authorization。这个消息头用于为一种内置HTTP身份验证向服务器提交证书。
Cookie。这个消息头用于向服务器提交它以前发布的cookie.
Host。这个消息头用于指定出现在所请求的完整URL中的主机名称。
If-Modified-Since。这个消息头用于说明浏览器最后一次收到所请求的资源的时间。如果自那以后资源没有发生变化,服务器就会发出一个带状态码304的响应,指示客户端使用资源的缓存副本。
If-None-Match。这个消息头用于指定一个实体标签。实体标签是一个说明消息主体内容的标识符。当最后一次收到所请求的资源时.浏览器提交服务器发布的实体标签。服务器可以使用实体标签确定浏览器是否使用资源的缓存副本。
Origin。这个消息头用在跨域Ajax求中,用于指示提出请求的域。
Referer。这个消息头用于指示提出当前请求的原始URL。
User-Agent。这个消息头提供与浏览器或生成请求的其他客户端软件有关的信息。
3.响应消息头
Access-Control-Allow-Origin.这个消息头用于指示可否通过跨域Ajax请求获取资源。
Cache-Control。这个消息头用于向浏览器传送缓存指令(如no-cache)。
ETag。这个消息头用于指定一个实体标签。客户端可在将来的请求中提交这个标识符。获得和If-None-Match消息头中相同的资源,通知服务器浏览器当前缓存中保存的是哪个版本的资源。
Expires。这个消息头用于向浏览器说明消息主体内容的有效时间。在这个时间之前,浏览器可以使用这个资源的缓存副本。
Location。这个消息头用于在重定向响应(那些状态码以3开头的响应)中说明重定向的目标。
Pragma。这个消息头用于向浏览器传送缓存指令(如no-cache).
Server。这个消息头提供所使用的Web服务器软件的相关信息。
Set-Cookie。这个消息头用于向浏览器发布cookie.浏览器会在随后的请求中将其返回给服务器。
WWW-Authenticate。这个消息头用在带401状态码的响应中,提供与服务器所支持的身份验证类型有关的信息。
X-Frame-Options。这个消息头指示浏览器框架是否及如何加载当前响应。
1.7 cookie
cookie是大多数Web应用程序所依赖的HTTP协议的一个关键组成部分,攻击者常常通过它来
利用Web应用程序中的漏洞。服务器使用cookie机制向客户端发送数据,客户端保存cookie并将其返回给服务器。与其他类型的请求参数(存在于URL查询字符串或消息主体中)不同,无须应用程序或用户采取任何特殊措施.随后的每一个请求都会继续重新向服务器提交cookie:
如前所述.服务器使用Set-Cookie响应消息头发布cookie:
Set-Cookie: tracking=tI8rk7joMx44S2Uu85nSWc
然后.用户的浏览器自动将下面的消息头进行添加,随后返回给同一服务器的请求中:
Cookie: tracking=tl8rk7joMx44S2Uu85nSWc
如上所示.cookie一般由一个名/值对构成,但也可包含任何不含空格的字符串。可以在服务
器响应中使用几个Set-Cookie消息头发布多个cookie.并可在同一个Cookie消息头中用分号分隔不同的cookie,将它们全部返回给服务器。
除cookie的实际位外,Set-Cookie消息头还可包含以下任何可选属性,用它们控制浏览器处理cookie的方式。
expires。用于设定cookie的有效时间。这样会使浏览器将cookie保存在永久性的存储器中,在随后的浏览器会话中重复利用.直到到期时间为止。如果没有设定这个属性,那么cookie仅用在当前浏览器会话中。
domain。用于指定cookie的有效域。这个域必须和收到cookie的域相同,或者是它的父域。
path。用于指定cookie的有效URL路径。
secure。如果设置这个属性.则仅在HTTPS请求中提交cookie.
HttpOnly。如果设置这个属性,将无法通过客户端JavaScript直接访问cookie.
上述每一个cookie属性都可能影响应用程序的安全.其造成的主要不利影响在于攻击者能够
直接对应用程序的其他用户发动攻击。
1.8 状态码
每条HTTP响应消息都必须在第一行中包含一个状态码,说明请求的结果。根据代码的第一位数字,可将状态码分为以下5类。
1xx -提供信息。
2xx—请求被成功提交。
3xx—客户端被重定向到其他资源。
4xx -请求包含某种错误。
5xx—服务器执行请求时遇到错误。
还有大量特殊状态码,其中许多状态码仅用在特殊情况下。下面列出渗透测试员在攻击Web
应用程序时最有可能遇到的状态码及其相关的原因短语。
100 Continue。当客户端提交一个包含主体的请求时.将发送这个响应。该响应表示已收到请求消息头.客户端应继续发送主体。请求完成后,再由服务器返回另一个响应。
200 Ok。本状态码表示已成功提交请求,且响应主体中包含请求结果。
201 Created. PUT请求的响应返回这个状态码,表示请求已成功提交。
301 Moved Permanently。本状态码将浏览器永久重定向到另外一个在Location消息头中指定的URL。以后客户端应使用新URL替换原始URL。
302 Found。本状态码将浏览器暂时重定向到另外一个在Location消息头中指定的URL.客户端应在随后的请求中恢复使用原始URL.
304 Not Modified。本状态码指示浏览器使用缓存中保存的所请求资源的副本。服务器使用If-Modified-Since与工f-None-Match消息头确定客户端是否拥有最新版本的资源。
400 Bad Request。本状态码表示客户端提交了一个无效的HTTP请求。当以某种无效的方式修改请求时(例如在URL中插人一个空格符),可能会遇到这个状态码。
401 Unauthorized.服务器在许可请求前要求HTTP进行身份验证。WWW-Authenticate消息头详细说明所支持的身份验证类型。
403 Forbidden。本状态码指出,不管是否通过身份验证,禁止任何人访问被请求的资源。
404 Not Found。本状态码表示所请求的资源并不存在。
405 Method Not Allowed。本状态码表示指定的URL不支持请求中使用的方法。例如,如果试图在不支持PUT方法的地方使用该方法,就会收到本状态码。
413 Request Entity Too Large。如果在本地代码中探查缓冲器滋出瀚洞并就此提交超长数据串.则本状态码表示请求主体过长,服务器无法处理。
414 Request URI Too Long。与前一个响应类似,本状态码表示请求中的URL过长,服务器无法处理。
500 Internal Server Error。本状态码表示服务器在执行请求时遇到错误。当提交无法预料的输人、在应用程序处理过程中造成无法处理的错误时,通常会收到本状态码。应该仔细检查服务器响应的所有内容,了解与错误性质有关的详情。
503 Service Unavailable。通常,本状态码表示尽管Web服务器运转正常.并且能够响应请求,但服务器访问的应用程序还是无法作出响应。应该进行核实,是否因为执行了某种行为而造成这个结果。
1.9 URL编码
常见的URL编码集有:
%3d代表=;
%25代表%;
%20代表空格:
%0a代表换行;
%00代表空字节。
1.10 HTML编码
常见的HTML编码集有:
"代表”;
&apos:代表’;
&代表&;
<代表<;
&g:;代表>。
1.11 同源策略
同源策略是浏览器实施的一种关键机制,主要用于防止不同来源的内容相互干扰。基本上从一个网站收到的内容可以读取并修改从该站点收到的其他内容.但不得访问从其他站点收到的内容。
如果不使用同源策略.那么,当不知情的用户浏览到某个恶意网站时,在该网站上运行的脚本代码将能够访问这名用户同时访问的任何其他网站的数据和功能。这样.该恶意站点就可以从用户的网上银行进行转账、阅读用户的Web邮件,或在用户网上购物时拦截他的信用卡信息。为此,浏览器实施限制,只允许相同来源的内容进行交互。
实际上,将这一概念应用于各种Web功能和技术会导致各种复杂情况和风险。关于同源策略.需要了解的一些主要特点如下。
位于一个域中的页面可以向另一个域提出任意数量的请求(例如.通过提交表单或加载图像)。但该页面本身无法处理上述请求返回的数据。
位于一个域中的页面可以加载来自其他域的脚本并在自己的域中执行这个脚本。这是因为脚本被假定为包含代码.而非数据,因此跨域访问并不会泄露任何敏感信息。
位于一个域中的页面无法读取或修改属于另一个域的cookie或其他DOM数据。
不使用同源策略.那么,当不知情的用户浏览到某个恶意网站时,在该网站上运行的脚本代码将能够访问这名用户同时访问的任何其他网站的数据和功能。这样.该恶意站点就可以从用户的网上银行进行转账、阅读用户的Web邮件,或在用户网上购物时拦截他的信用卡信息。为此,浏览器实施限制,只允许相同来源的内容进行交互。
实际上,将这一概念应用于各种Web功能和技术会导致各种复杂情况和风险。关于同源策略.需要了解的一些主要特点如下。
位于一个域中的页面可以向另一个域提出任意数量的请求(例如.通过提交表单或加载图像)。但该页面本身无法处理上述请求返回的数据。
位于一个域中的页面可以加载来自其他域的脚本并在自己的域中执行这个脚本。这是因为脚本被假定为包含代码.而非数据,因此跨域访问并不会泄露任何敏感信息。
位于一个域中的页面无法读取或修改属于另一个域的cookie或其他DOM数据。
这些特点可能导致各种跨域攻击,如诱使用户执行操作和捕获数据。此外,由于浏览器扩展技术以各种方式实施同源限制,这一问题变得更加复杂。