• hivesql


    hive是基于Hadoop的一个数据仓库系统

    select * from user_table where id='1';

    explain select * from user_table where id='1';

    1614138101185

    type为ALL,全表扫描的性能是最差的

    explain 分析sql语句

    使用explain关键字可以模拟优化器执行sql查询语句,从而得知MySQL 是如何处理sql语句。

    +----+-------------+-------+------------+------+---------------+-----+---------+------+------+----------+-------+
    | id | select_type | table | partitions | type | possible_keys | key | key_len | ref  | rows | filtered | Extra |
    +----+-------------+-------+------------+------+---------------+-----+---------+------+------+----------+-------+
    

    id

    select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序。一般有三种情况:
    第一种:id全部相同,sql的执行顺序是由上至下;
    第二种:id全部不同,sql的执行顺序是根据id大的优先执行;
    第三种:id既存在相同,又存在不同的。先根据id大的优先执行,再根据相同id从上至下的执行。

    select_type

    select 查询的类型,主要是用于区别普通查询,联合查询,嵌套的复杂查询
    simple:简单的select 查询,查询中不包含子查询或者union
    primary:查询中若包含任何复杂的子查询,最外层查询则被标记为primary
    subquery:在select或where 列表中包含了子查询
    derived:在from列表中包含的子查询被标记为derived(衍生)MySQL会递归执行这些子查询,把结果放在临时表里。
    union:若第二个select出现在union之后,则被标记为union,若union包含在from子句的子查询中,外层select将被标记为:derived
    union result:从union表获取结果的select

    partitions

    表所使用的分区,如果要统计十年公司订单的金额,可以把数据分为十个区,每一年代表一个区。这样可以大大的提高查询效率。

    type

    这是一个非常重要的参数,连接类型,常见的有:all , index , range , ref , eq_ref , const , system , null 八个级别。
    性能从最优到最差的排序:system > const > eq_ref > ref > range > index > all
    对java程序员来说,若保证查询至少达到range级别或者最好能达到ref则算是一个优秀而又负责的程序员。
    all:(full table scan)全表扫描无疑是最差,若是百万千万级数据量,全表扫描会非常慢。
    index:(full index scan)全索引文件扫描比all好很多,毕竟从索引树中找数据,比从全表中找数据要快。
    range:只检索给定范围的行,使用索引来匹配行。范围缩小了,当然比全表扫描和全索引文件扫描要快。sql语句中一般会有between,in,>,< 等查询。
    ref:非唯一性索引扫描,本质上也是一种索引访问,返回所有匹配某个单独值的行。比如查询公司所有属于研发团队的同事,匹配的结果是多个并非唯一值。
    eq_ref:唯一性索引扫描,对于每个索引键,表中有一条记录与之匹配。比如查询公司的CEO,匹配的结果只可能是一条记录,
    const:表示通过索引一次就可以找到,const用于比较primary key 或者unique索引。因为只匹配一行数据,所以很快,若将主键至于where列表中,MySQL就能将该查询转换为一个常量。
    system:表只有一条记录(等于系统表),这是const类型的特列,平时不会出现,了解即可

    possible_keys

    显示查询语句可能用到的索引(一个或多个或为null),不一定被查询实际使用。仅供参考使用。

    key

    显示查询语句实际使用的索引。若为null,则表示没有使用索引。

    key_len

    显示索引中使用的字节数,可通过key_len计算查询中使用的索引长度。在不损失精确性的情况下索引长度越短越好。key_len 显示的值为索引字段的最可能长度,并非实际使用长度,即key_len是根据表定义计算而得,并不是通过表内检索出的。

    ref

    显示索引的哪一列或常量被用于查找索引列上的值。

    rows

    根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数,值越大越不好。

    extra

    Using filesort: 说明MySQL会对数据使用一个外部的索引排序,而不是按照表内的索引顺序进行读取。MySQL中无法利用索引完成的排序操作称为“文件排序” 。出现这个就要立刻优化sql。
    Using temporary: 使用了临时表保存中间结果,MySQL在对查询结果排序时使用临时表。常见于排序 order by 和 分组查询 group by。 出现这个更要立刻优化sql。
    Using index: 表示相应的select 操作中使用了覆盖索引(Covering index),避免访问了表的数据行,效果不错!如果同时出现Using where,表明索引被用来执行索引键值的查找。如果没有同时出现Using where,表示索引用来读取数据而非执行查找动作。
    覆盖索引(Covering Index) :也叫索引覆盖,就是select 的数据列只用从索引中就能够取得,不必读取数据行,MySQL可以利用索引返回select 列表中的字段,而不必根据索引再次读取数据文件。
    Using index condition: 在5.6版本后加入的新特性,优化器会在索引存在的情况下,通过符合RANGE范围的条数 和 总数的比例来选择是使用索引还是进行全表遍历。
    Using where: 表明使用了where 过滤
    Using join buffer: 表明使用了连接缓存
    impossible where: where 语句的值总是false,不可用,不能用来获取任何元素
    distinct: 优化distinct操作,在找到第一匹配的元组后即停止找同样值的动作。

    filtered

    一个百分比的值,和rows 列的值一起使用,可以估计出查询执行计划(QEP)中的前一个表的结果集,从而确定join操作的循环次数。小表驱动大表,减轻连接的次数。

    通过explain的参数介绍,我们可以得知:
    1 表的读取顺序(id)
    2 数据读取操作的操作类型(type)
    3 哪些索引被实际使用(key)
    4 表之间的引用(ref)
    5 每张表有多少行被优化器查询(rows)

    sql优化总结

    索引是排好序且快速查找的数据结构. 目的是为了提高查找效率.

    创建索引后,查询数据变快,但更新数据变慢

    索引创建原则: 经常查询的字段适合创建索引,频繁需要更新的数据不适合创建索引

    ###1

    1.构建Spark Application的运行环境,启动SparkContext

    2.SparkContext向资源管理器Yarn申请运行Executor资源,并启动StandaloneExecutorbackend

    3.Executor向SparkContext申请Task

    4.SparkContext将应用程序分发给Executor

    5.SparkContext构建成DAG图,提交DAG Scheduler分解成Stage,将Taskset发送给Task Scheduler,最后由TaskScheduler将Task发送给Executor运行

    6.Task在Executor上运行,运行完释放所有资源

    ###2

    spark配置参数详解:

    1. 在代码中SparkConf通过set()方法配置
    val conf = new SparkConf()  .setMaster("local[2]").setAppName("hello")  
    .set("spark.executor.memory", "1g")  
    
    val sc = new SparkContext(conf)  
    
    1. spark shell和spark -submit中用--conf参数传入任何spark属性
    spark-submit 
    --name "helloworld" 
    --master yarn --deploy-mode cluster 
    --num-executors 5 
    --executor-cores 4 
    --executor-memory 8G 
    --driver-memory 8G 
    --conf spark.locality.wait=10 
    --conf spark.yarn.executor.memoryOverhead=4g 
    --conf spark.serializer="org.apache.spark.serializer.KryoSerializer" 
    --conf spark.streaming.backpressure.enabled=true 
    
    1. 在conf/spark-defaults.conf配置文件
    spark.master            spark://5.6.7.8:7077  
    spark.executor.memory   512m  
    spark.eventLog.enabled  true  
    spark.serializer        org.apache.spark.serializer.KryoSerializer
    

    上面sparkconf属性优先级: sparkconf>spark-submit>spark-defaults.conf

    在http://:4040 页面上可以看到所有的spark属性

    spark.kryoserializer.buffer.max.mb 64

    Kryo序列化缓存允许的最大值。这个值必须大于你尝试序列化的对象

    spark.task.maxFailures 4

    Task的最大重试次数

    spark.serializer org.apache.spark.serializer.JavaSerializer

    序列化对象使用的类。默认的Java序列化类可以序列化任何可序列化的java对象但是它很慢。所有我们建议用org.apache.spark.serializer.KryoSerializer

    spark.locality.wait 3000

    Spark数据本地性的。本参数是以毫秒为单位启动本地数据task的等待时间,如果超出就启动下一本地优先级别 的task。该设置同样可以应用到各优先级别的本地性之间(本地进程 -> 本地节点 -> 本地机架 -> 任意节点 ),当然,也可以通过spark.locality.wait.node等参数设置不同优先级别的本地性

    spark.driver.memory 512m

    driver进程使用的内存数

    spark.driver.maxResultSize 1g

    每个Spark action(如collect)所有分区的序列化结果的总大小限制。设置的值应该不小于1m,0代表没有限制。如果总大小超过这个限制,程序将会终止。大的限制值可能导致driver出现内存溢出错误(依赖于spark.driver.memory和JVM中对象的内存消耗)

    spark.driver.userClassPathFirst false

    (实验性)当在driver中加载类时,是否用户添加的jar比Spark自己的jar优先级高。这个属性可以降低Spark依赖和用户依赖的冲突。它现在还是一个实验性的特征。

    spark.driver.extraJavaOptions

    传递给driver的JVM选项字符串。例如GC设置或者其它日志设置。注意,在这个选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用--driver-class-path设置。

    spark.executor.extraJavaOptions

    传递给executors的JVM选项字符串。例如GC设置或者其它日志设置。注意,在这个选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用SparkConf对象或者spark-submit脚本用到的spark-defaults.conf文件设置。堆内存可以通过spark.executor.memory设置

    spark.shuffle.spill true

    默认为true,通过将多出的数据写入磁盘来限制内存数
    

    spark.shuffle.memoryFraction 0.2

    shuffle中聚合和合并组操作使用的java堆内存占总内存的比重, 可以适当增大比如0.4
  • 相关阅读:
    PDO事务处理不能保持一致性
    Android开发中的SQLite事务处理
    Mysql安装
    IIS下https配置及安全整改
    exchang2010OWA主界面添加修改密码选项
    查阅文件技巧
    RHEL yum
    CentOS之——CentOS7安装iptables防火墙
    Linux修改主机名称
    Vmware虚拟机设置静态IP地址
  • 原文地址:https://www.cnblogs.com/ShyPeanut/p/14442769.html
Copyright © 2020-2023  润新知