• impala presto SparkSql性能测试对比


     

    目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍

    impala与presto性能相当,SparkSql逊色不少。
    目前看presto相比impala
    1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数据,用impala不能立即查询。
    2、没有出现操作大数据集有时挂掉的情况
    3、presto与hive都由fackbook开源,兼容性应该会更好点
    测试过程比较简单,分为四个场景sql查询:
     
    查询id 查询语句 数据量(压缩前)
    query1 select sum(pv) from d_op_behavior_host_text_snappy 35G
    query2 select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy 
    where pv>0  group by siteid order by pv1 desc limit 11;
    35G
    query3 select count(*) from dwd.d_ad_3rd_party_fancy_all_data where 
    thisdate='2015-11-10' and hour='17';
    200G
    query4 select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31'

     测试结果对比如下:

    查询 工具 第一次执行时间 第二次执行时间
    query1 impala 4.82s 5.56s
    presto 6s 5s
    sparkSql 13s 9s
    query2 impala 12.79s 12s
    presto 15s 13s
    sparkSql 20s 23s
    query3 impala 挂掉 挂掉
    presto 63s 58s
    sparkSql 88s 77s
    query4 impala 131s 148s
    presto 136s 128s
    sparkSql 187s 188s

  • 相关阅读:
    Linux下编译LibCURL
    Linux下编译OpenSSL
    Linux下编译UnixODBC
    Linux下编译Boost
    MySQL存储引擎【InnoDB、MyISAM、Memory】
    MySQL数据库MyISAM和InnoDB存储引擎的比较
    MySQL存储引擎MyISAM与InnoDB的优劣
    14款经典的MySQL客户端软件
    MySQL 数据类型
    MySQL数据库的基本数据类型
  • 原文地址:https://www.cnblogs.com/hd-zg/p/6904932.html
Copyright © 2020-2023  润新知