目的:
1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、了解主流大数据技术应用基础、技术特征和使用场景等。
3、了解最新的大数据系统工具以及大数据处理的基本过程和方法。
1)大数据关键技术介绍
√ 分三类:存储(如:分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等)、计算(如:MapReduce、流计算、图计算)、应用(如:HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等)
√ Hadoop 是目前最为流行的大数据技术。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具:
2)离线计算框架和应用场景
√ 简 介:Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性。
√ 示 例:通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。
√ 应用场景:
*大数据的处理:几GB,上TP的大量数据的计算。
*非实时:应用在非实时处理的场景,离线处理是需要时间,一般是1小时,或者隔天。
*高并发:大量数据的高并发,大量的处理和计算的进程数。
3)流式计算框架和应用场景
√ 来自于一个信念:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批再处理。
√ 流计算 的 概念:
*流计算是针对流式数据的实时计算。
*流式数据(流数据):是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。
*流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。
√ 流式计算产品:
*Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
*Twitter的storm:Twitter的storm:Storm是一个分布式的、容错的实时计算系统。
>>Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。
√ 应用场景
4)内存计算框架和应用场景
√ what:现今技术已可以实现在服务器的主内存中处理超大量的实时数据,从分析和交易中提供即时数据。
√ 应用:
5)实时请求框架和应用场景
√ what:低延迟的流式数据处理
*离线计算的补充
*业务发展和技术进步的必然需求
√ 关键技术点:分布式数据、低延迟技术