• socket 模拟 HTTP请求


    一、socket介绍

    网络由下往上分为物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。IP协议对应于网络层,TCP协议对应于传输层,而HTTP协议对应于应用层。socket则是对TCP/IP协议的封装和应用。也可以说,TPC/IP协议是传输层协议,主要解决数据如何在网络中传输,而HTTP是应用层协议,主要解决如何包装数据。

    关于TCP/IP和HTTP协议的关系:

    我们在传输数据时,可以只使用(传输层)TCP/IP协议,但是那样的话,如果没有应用层,便无法识别数据内容,如果想要使传输的数据有意义,则必须使用到应用层协议,应用层协议有很多,比如HTTP、FTP、TELNET等,也可以自己定义应用层协议。WEB使用HTTP协议作应用层协议,以封装HTTP文本信息,然后使用TCP/IP做传输层协议将它发到网络上。

    而socket是对TCP/IP协议的封装,Socket本身并不是协议,而是一个调用接口(API),通过Socket,我们才能使用TCP/IP协议。实际上,Socket跟TCP/IP协议没有必然的联系。Socket编程接口在设计的时候,就希望也能适应其他的网络协议。所以说,Socket的出现只是使得程序员更方便地使用TCP/IP协议栈而已,是对TCP/IP协议的抽象,从而形成了我们知道的一些最基本的函数接口,比如create、listen、connect、accept、send、read和write等等。

    socket和TCP/IP协议关系:

    TCP/IP只是一个协议栈,就像操作系统的运行机制一样,必须要具体实现,同时还要提供对外的操作接口。这个就像操作系统会提供标准的编程接口,比如win32编程接口一样,TCP/IP也要提供可供程序员做网络开发所用的接口,这就是Socket编程接口。

    HTTP和socket关系:

    HTTP是轿车,提供了封装或者显示数据的具体形式;Socket是发动机,提供了网络通信的能力。传输层的TCP是基于网络层的IP协议的,而应用层的HTTP协议又是基于传输层的TCP协议的,而Socket本身不算是协议,就像上面所说,它只是提供了一个针对TCP或者UDP编程的接口。

    二、socket建立网络链接步骤

    建立Socket连接至少需要一对套接字,其中一个运行于客户端,称为ClientSocket ,另一个运行于服务器端,称为ServerSocket 。
    套接字之间的连接过程分为三个步骤:服务器监听,客户端请求,连接确认。
    1,服务器监听:服务器端套接字并不定位具体的客户端套接字,而是处于等待连接的状态,实时监控网络状态,等待客户端的连接请求。
    2,客户端请求:指客户端的套接字提出连接请求,要连接的目标是服务器端的套接字。为此,客户端的套接字必须首先描述它要连接的服务器的套接字,指出服务器端套接字的地址和端口号,然后就向服务器端套接字提出连接请求。
    3,连接确认:当服务器端套接字监听到或者说接收到客户端套接字的连接请求时,就响应客户端套接字的请求,建立一个新的线程,把服务器端套接字的描述发给客户端,一旦客户端确认了此描述,双方就正式建立连接。而服务器端套接字继续处于监听状态,继续接收其他客户端套接字的连接请求。

    具体步骤:

    • 服务器根据地址类型(ipv4,ipv6)、socket类型、协议创建socket
    • 服务器为socket绑定ip地址和端口号
    • 服务器socket监听端口号请求,随时准备接收客户端发来的连接,这时候服务器的socket并没有被打开
    • 客户端创建socket
    • 客户端打开socket,根据服务器ip地址和端口号试图连接服务器socket
    • 服务器socket接收到客户端socket请求,被动打开,开始接收客户端请求,直到客户端返回连接信息。这时候socket进入阻塞状态,所谓阻塞即accept()方法一直到客户端返回连接信息后才返回,开始接收下一个客户端谅解请求
    • 客户端连接成功,向服务器发送连接状态信息
    • 服务器accept方法返回,连接成功
    • 客户端向socket写入信息
    • 服务器读取信息
    • 客户端关闭
    • 服务器端关闭

    三、socket 模拟 HTTP请求

    import socket
    from urllib.parse import urlparse
    
    
    class ParserUrl(object):
        '''
        对url进行解析,并返回域名和路径
        '''
    
        def __init__(self, url):
            self.url = url
    
        def get_host_path(self):
            parser_url = urlparse(self.url)
            host, path = parser_url.netloc, parser_url.path
            if path:
                return host, path
            else:
                return host, '/'
    
    
    class SocketHttp(object):
        '''
        需要一个ParserUrl对象,获取host和path
        建立连接返回http response字符串
        http数据传递的时是以字节为单位的,所以需要编码
        '''
    
        def __init__(self, parser_url):
            self.host, self.path = parser_url.get_host_path()
    
    
        def set_socket(self):
            self.client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
            self.client.connect((self.host, 80))
            self.client.send("GET {} HTTP/1.1
    Host:{}
    Connection:close
    
    ".format(self.path, self.host).encode("utf8"))
    
        @property
        def data(self):
            self.set_socket()
            data = b""
            while True:
                d = self.client.recv(1024)
                if d:
                    data += d
                else:
                    break
            self.close_socket()
            return data.decode("utf8")
    
        @property
        def html_content(self):
            html_data = self.data
            return html_data.split("
    
    ")[1]
    
        def close_socket(self):
            self.client.close()
    
    
    if __name__ == "__main__":
        url = ParserUrl('https://www.baidu.com/')
        socket_http = SocketHttp(url)
        print(socket_http.html_content)
    

    返回结果

    返回正常的字符串

  • 相关阅读:
    【Flutter 实战】1.20版本更新及新增组件
    【Flutter 实战】各种各样形状的组件
    【Flutter 实战】全局点击空白处隐藏键盘
    Flutter —布局系统概述
    【Flutter 实战】17篇动画系列文章带你走进自定义动画
    lvs负载简介,原理,常见使用案例及Keepalived高可用
    02 . MongoDB复制集,分片集,备份与恢复
    Go之Casbin简介,安装,模型,存储,函数
    govendor包管理及Go项目热加载
    教你三招快速文件批量重命名方法
  • 原文地址:https://www.cnblogs.com/welan/p/9965731.html
Copyright © 2020-2023  润新知