• Hive 中parse_url的使用


    1、Hive的parse_url函数
    parse_url(url, partToExtract[, key]) - extracts a part from a URL
    解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]。
    【host,path,query,ref,protocol,file,authority,userinfo】
     
    举例 :
    select parse_url('http://facebook.com/path/p1.php?query=1', 'PROTOCOL') from dual;   --http
    select parse_url('http://facebook.com/path/p1.php?query=1', 'HOST') from dual;---facebook.com​
    select parse_url('http://facebook.com/path/p1.php?query=1', 'REF') from dual;---空​
    select parse_url('http://facebook.com/path/p1.php?query=1', 'PATH') from dual;---/path/p1.php​
    select parse_url('http://facebook.com/path/p1.php?query=1', 'QUERY') from dual;---空
    select parse_url('http://facebook.com/path/p1.php?query=1', 'FILE') from dual;​---/path/p1.php?query=1​
    select parse_url('http://facebook.com/path/p1.php?query=1', 'AUTHORITY') from dual;​---facebook.com​
    select parse_url('http://facebook.com/path/p1.php?query=1', 'USERINFO') from dual;​---空
     
    下面的可看可不看
    ===========================================================
    2、URL解释
    URL(Uniform Resoure Locator 统一资源定位器)是WWW网页的地址,好比一个街道在城市地图上地址。url使用数字和字母按一定顺序排列以确定一个地址。
    URL的第一个部分http://表示的是要访问的文件的类型。在网上,这几乎总是使用http(意思是超文本转换协议,hypertext transfer protocol.因为它是用来转换网页的协议.)有时也使用ftp(file transferprotocol),意为文件传输协议,主要用来传输软件和大文件(许多做软件下载的网站就使用ftp作为下载的网址);telenet(远程登录),主要用于远程交谈;以及文件调用等,意思是浏览器正在阅读本地盘外的一个文件,而不是一个远程计算机.
    URL从左到右由下述部分组成:
    (1)Internet资源类型(scheme):指出WWW 客户程序用来C作的工具。如“http://”表示WWW服务器,“ftp://”表示FTP服务器,“gopher://”表示Gopher服务器,而“new:”表示Newgroup新闻组。
    ·服务器地址(host):指出WWW 网页所在的服务器域名。
    (2)端口(port):有时(并非总是这样),对某些资源的访问来说,需给出相应的服务器提供端口号。
    (3)路径(path):指明服务器上某资源的位置(其格式与DOS系统中的格式一样,通常有目录/子目录/文件名这样结构组成)。与端口一样,路径并非总是需要的。
    URL地址格式排列为:scheme://host:port/path
    例如http://www.maogoo.com/bbs 就是一个典型的URL地址。
    客户程序首先看到http(超文本传送协议),便知道处理的是HTML链接。接下来的www.maogoo.com是站点地址,最后是目录/bbs
    必须注意,WWW 上的服务器都是区分大小写字母的,所以,千万要注意正确的URL大小写表达形式。
     
    3、URL解析
    URL即:统一资源定位符 (Uniform Resource Locator, URL) 
    完整的URL由这几个部分构成:
    scheme://host:port/path?query#fragment 
    scheme:通信协议
    常用的http,ftp,maito等
     
    host:主机
    服务器(计算机)域名系统 (DNS) 主机名或 IP 地址。
     
    port:端口号
    整数,可选,省略时使用方案的默认端口,如http的默认端口为80。
     
    path:路径
    由零或多个"/"符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
     
    query:查询
    可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数,可有多个参数,用"&"符号隔开,每个参数的名和值用"="符号隔开。
     
    fragment:信息片断
    字符串,用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。(也称为锚点.)
     
    对于这样一个URL
     
    http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhere
     
     
    我们可以用javascript获得其中的各个部分
    1, window.location.href
    整个URl字符串(在浏览器中就是完整的地址栏)
    本例返回值: http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhere
     
    2,window.location.protocol
    URL 的协议部分
    本例返回值:http:
     
    3,window.location.host
    URL 的主机部分
    本例返回值:www.x2y2.com
     
    4,window.location.port
    URL 的端口部分
    如果采用默认的80端口(update:即使添加了:80),那么返回值并不是默认的80而是空字符
    本例返回值:""
     
    5,window.location.pathname
    URL 的路径部分(就是文件地址)
    本例返回值:/fisker/post/0703/window.location.html
     
    6,window.location.search
    查询(参数)部分
    除了给动态语言赋值以外,我们同样可以给静态页面,并使用javascript来获得相信应的参数值
    本例返回值:?ver=1.0&id=6
     
    7,window.location.hash
    锚点
    本例返回值:#imhere
  • 相关阅读:
    c语言之指针特性
    【java异常】【redis】ERR Client sent AUTH, but no password is set
    【Tomcat】系统找不到指定的路径
    【电脑】查看主机名
    【java异常】Building workspace has encountered a problem. Error
    【MyEclipse】安装svn插件
    【oracle】drop,truncate,delete用法
    【java异常】redis.clients.jedis.exceptions.JedisConnectionException: Could not get a res
    【java】定时任务停止时间设置
    【java异常】It's likely that neither a Result Type nor a Result Map was specified
  • 原文地址:https://www.cnblogs.com/zzjhn/p/7978243.html
Copyright © 2020-2023  润新知