• Pig latin基础


    pig的两种运行模式,local模式,mapreduce模式

    local模式下,pig只能访问本地一台;在mapreduce模式下,pig可以访问一个hadoop集群和hdfs的安装位置。这时,pig将自动对这个集群进行分配和回收。因为pig系统可以自动对mapreduce程序进行优化,所以当用户使用pig latin编程时,不必关系程序的运行效率,pig系统会自动对程序进行优化。

    pig的local模式以及mapreduce模式都是有三种运行模式:Grunt shell方式,脚本文件方式,嵌入式程序方式

    mapreduce模式下:

    1 .grunt shell 方式

    [root@host pig-0.17.0]# pig -x mapreduce
    18/06/15 09:40:34 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
    18/06/15 09:40:34 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
    18/06/15 09:40:34 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType
    2018-06-15 09:40:34,951 [main] INFO  org.apache.pig.Main - Apache Pig version 0.17.0 (r1797386) compiled Jun 02 2017, 15:41:58
    2018-06-15 09:40:34,951 [main] INFO  org.apache.pig.Main - Logging error messages to: /root/pig/pig-0.17.0/pig_1529026834950.log
    2018-06-15 09:40:34,971 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /root/.pigbootup not found
    SLF4J: Class path contains multiple SLF4J bindings.
    SLF4J: Found binding in [jar:file:/root/hadoop/hadoop-2.7.4/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/root/hbase-1.4.4/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/root/hive/apache-hive-2.1.1/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
    2018-06-15 09:40:35,586 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
    2018-06-15 09:40:35,586 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
    2018-06-15 09:40:36,347 [main] INFO  org.apache.pig.PigServer - Pig Script ID for the session: PIG-default-cb6cead5-f22f-4960-bce7-5f44cdb722ec
    2018-06-15 09:40:36,347 [main] WARN  org.apache.pig.PigServer - ATS is disabled since yarn.timeline-service.enabled set to false
    grunt>

    2 .脚本文件方式

     pig -x mapreduce script.pig

    3.spark模式

    pig -x spark id.pig

    pig latin语言

    与数据库操作语言类似,但更侧重于对数据的分析查询,而不是对数据进行修改删除等操作,运行在hadoop分布式平台上,能够在短时间内处理海量数据,如处理日志文件,处理大型数据库文件, 处理WEB数据等。

    pigLatin的操作:通过对关系进行处理产生另外一组关系(适用于除load ,store以外的所有操作,load和store分别执行从文件系统的读取和写入操作)。

    pig latin语句一条语句可以跨越多行,但是必须以半角的分号结束。

    通常按照下面的流程编写语句:

    1.通过load语句从文件系统读取数据

    2.通过一系列的转换语句对数据进行处理

    3通过store语句把处理结果输出到文件系统,或者使用一条dump语句把处理结果输出到屏幕上。

    Pig Latin - 数据模型

    Pig的数据模型是完全嵌套的。Relation是Pig Latin数据模型的最外层结构。它是一个

    • 包是元组的集合。
    • 元组是有序的field(字段)集。
    • field(字段)是一段数据。

    Pig Latin - 语句

    在使用Pig Latin处理数据时,语句是基本结构。

    • 这些语句使用关系(relation),它们包括表达式(expression)模式(schema)

    • 每个语句以分号(;)结尾。

    • 我们将使用Pig Latin提供的运算符通过语句执行各种操作。

    • 除了LOAD和STORE,在执行所有其他操作时,Pig Latin语句采用关系作为输入,并产生另一个关系作为输出。

    • 只要在Grunt shell中输入 Load 语句,就会执行语义检查。要查看模式的内容,需要使用 Dump 运算符。只有在执行 dump 操作后,才会执行将数据加载到文件系统的MapReduce作业。

    Pig Latin - 数据类型

    序号数据类型说明&示例
    1 int

    表示有符号的32位整数。

    示例:8

    2 long

    表示有符号的64位整数。

    示例:5L

    3 float

    表示有符号的32位浮点。

    示例:5.5F

    4 double

    表示64位浮点。

    示例:10.5

    5 chararray

    表示Unicode UTF-8格式的字符数组(字符串)。

    示例:‘w3cschool’

    6 Bytearray

    表示字节数组(blob)。

    7 Boolean

    表示布尔值。

    示例:true / false。

    8 Datetime

    表示日期时间。

    示例:1970-01-01T00:00:00.000 + 00:00

    9 Biginteger

    表示Java BigInteger。

    示例:60708090709

    10 Bigdecimal

    表示Java BigDecimal

    示例:185.98376256272893883

    复杂类型
    11 Tuple

    元组是有序的字段集。

    示例:(raja,30)

    12 Bag

    包是元组的集合。

    示例:{(raju,30),(Mohhammad,45)}

    13 Map

    map是一组键值对。

    示例:['name'#'Raju','age'#30]

    Pig Latin - 算术运算符

    运算符描述示例
    +

     - 运算符的两侧的值相加

    a+b将得出30

     - 从运算符左边的数中减去右边的数

    a-b将得出-10
    *

     - 运算符两侧的值相乘

    a*b将得出200
    /

     - 用运算符左边的数除右边的数

    b / a将得出2
    %

    余数 - 用运算符右边的数除左边的数并返回余数

    b%a将得出0
     :

    Bincond - 评估布尔运算符。它有三个操作数,如下所示。

    变量 x =(expression)?value1 (如果为true):value2(如果为false)。

    b =(a == 1)? 20:30;

    如果a = 1,则b的值为20。

    如果a!= 1,则b的值为30。

    CASE

    WHEN

    THEN

    ELSE

    END

    Case - case运算符等效于嵌套的bincond运算符。

    CASE f2 % 2

    WHEN  0

    THEN

    'even'

    WHEN  1

    THEN

    'odd'

    END

    Pig Latin - 比较运算符

    下表描述了Pig Latin的比较运算符。

    运算符描述示例
    ==

    等于 - 检查两个数的值是否相等;如果是,则条件变为true。

    (a = b)不为true。
    !=

    不等于 - 检查两个数的值是否相等。如果值不相等,则条件为true。

    (a!= b)为true。
    >

    大于 - 检查左边数的值是否大于右边数的值。 如果是,则条件变为true。

    (a> b)不为true。
    <

    小于 - 检查左边数的值是否小于右边数的值。 如果是,则条件变为true。

    (a<b)为true。
    >=

    大于或等于 - 检查左边数的值是否大于或等于右边数的值。如果是,则条件变为true。

    (a>=b)不为true。
    <=

    小于或等于 - 检查左边数的值是否小于或等于右边数的值。如果是,则条件变为true。

    (a<=b)为true。
    matches

    模式匹配 - 检查左侧的字符串是否与右侧的常量匹配。

    f1 matches '.* tutorial.*'

    Pig Latin - 类型结构运算符

    下表描述了Pig Latin的类型结构运算符。

    运算符描述示例
    ()

    元组构造函数运算符 - 此运算符用于构建元组。

    (Raju,30)
    {}

    包构造函数运算符 - 此运算符用于构造包。

    {(Raju,30),(Mohammad,45)}
    []

    映射构造函数运算符 - 此运算符用于构造一个映射。

    [name#Raja,age#30]

    Pig Latin - 关系运算符

    下表描述了Pig Latin的关系运算符。

    运算符描述
    加载和存储
    LOAD 将数据从文件系统(local/ HDFS)加载到关系中。
    STORE 将数据从文件系统(local/ HDFS)存储到关系中。
    过滤
    FILTER 从关系中删除不需要的行。
    DISTINCT 从关系中删除重复行。
    FOREACH,GENERATE 基于数据列生成数据转换。
    STREAM 使用外部程序转换关系。
    分组和连接
    JOIN 连接两个或多个关系。
    COGROUP 将数据分组为两个或多个关系。
    GROUP 在单个关系中对数据进行分组。
    CROSS 创建两个或多个关系的向量积。
    排序
    ORDER 基于一个或多个字段(升序或降序)按排序排列关系。
    LIMIT 从关系中获取有限数量的元组。
    合并和拆分
    UNION 将两个或多个关系合并为单个关系。
    SPLIT 将单个关系拆分为两个或多个关系。
    诊断运算符
    DUMP 在控制台上打印关系的内容。
    DESCRIBE 描述关系的模式。
    EXPLAIN 查看逻辑,物理或MapReduce执行计划以计算关系。
    ILLUSTRATE 查看一系列语句的分步执行。

     源自:https://www.w3cschool.cn/apache_pig/apache_pig_reading_data.html

  • 相关阅读:
    C#使用CurrentUICulture切换语言
    XmlNode与XmlElement的区别总结
    git 怎样删除远程仓库的最近一次错误提交?
    Kermit,Xmodem,1K-Xmodem,Ymodem,Zmodem传输协议小结
    C#串口通信发送数据
    通过 Chrome 调试运行在 IOS-safari 上的页面
    display:flex不兼容Android、Safari低版本的解决方案 【flex布局】
    jquery获取<div></div>之间的内容.text() 和 .html()区别
    vscode格式化代码无效--可能的解决方法
    git pull出现fatal: unable to access 'https://github.com/XXX/YYY.git'
  • 原文地址:https://www.cnblogs.com/playforever/p/9186005.html
Copyright © 2020-2023  润新知