• 【杂谈】大数据主流技术简介


    目的:
    1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
    2、了解主流大数据技术应用基础、技术特征和使用场景等。
    3、了解最新的大数据系统工具以及大数据处理的基本过程和方法。

    1)大数据关键技术介绍
     √ 分三类:存储(如:分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等)、计算(如:MapReduce、流计算、图计算)、应用(如:HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等)
     √ Hadoop 是目前最为流行的大数据技术。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具:


    2)离线计算框架和应用场景
     √ 简    介:Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性
     √ 示    例:通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。
     √ 应用场景:
       *大数据的处理:几GB,上TP的大量数据的计算。
       *非实时:应用在非实时处理的场景,离线处理是需要时间,一般是1小时,或者隔天。
       *高并发:大量数据的高并发,大量的处理和计算的进程数。

    3)流式计算框架和应用场景
     √ 来自于一个信念:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批再处理。
     √ 流计算 的 概念:
       *流计算是针对流式数据的实时计算。
       *流式数据(流数据):是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。
       *流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。
     √ 流式计算产品:
       *Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
       *Twitter的storm:Twitter的storm:Storm是一个分布式的、容错的实时计算系统。
                      >>Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。

     √ 应用场景

     
    4)内存计算框架和应用场景
     √ what:现今技术已可以实现在服务器的主内存中处理超大量的实时数据,从分析和交易中提供即时数据。
     √ 应用:

    5)实时请求框架和应用场景
     √ what:低延迟的流式数据处理
       *离线计算的补充
       *业务发展和技术进步的必然需求
     √ 关键技术点:分布式数据、低延迟技术

  • 相关阅读:
    Microsoft Visual C++ 2015安装失败,提示设置失败,一个或多个问题导致了安装失败
    C# 下载url文件 WebClient、HttpWebRequest
    sqlite中插入单引号
    Advanced Installer 14.9 – WPF或winform应用程序打包成exe文件
    凤凰队历险记
    GUI如何设置默认字体 转载
    ubuntu切换清华源 安装gcc
    AttributeError: module ‘arviz’ has no attribute ‘geweke’
    解决ssh 连接报错 network error software caused connection abort 自动中断 转载
    VMWare安装64位CentOS7.6(截图多)
  • 原文地址:https://www.cnblogs.com/CQ-LQJ/p/11633071.html
Copyright © 2020-2023  润新知