大数据技术学习笔记

大数据技术学习笔记
大数据的特点

Volume、Variety、Velocity、Value

Variety指数据的多样性。包括异构数据，如存在关系型数据库中的数据；以及非异构数据，如邮件、音/视频、图片、文本等。

大数据计算模式及代表产品

大数据计算模式 | 解决的问题 | 代表产品
批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark
流计算 | 针对流数据的实时计算 | Storm、S4、Streams
图计算 | 针对大规模图结构数据的处理 | Pregel
查询分析计算 | 大规模数据的存储管理和查询分析 | Hive

云计算、大数据、物联网的区别与联系

云计算是指基于互联网将规模化资源池的计算、存储、开发平台和软件能力提供给用户，实现自动化、低成本、快速提供和灵活伸缩的IT服务。云计算是对IT基础设施的整合优化和以服务形式提供IT资源的商业模式（Iaas、Paas、Saas）。AWS、Azure都是一整套完整的云服务产品，其中又细分计算、存储等专门产品。
大数据是对海量数据的存储、处理、分析，从数据中提取有用信息。
物联网是万物互联。
物联网为大数据提供了数据来源，大数据为云计算提供了用武之地。

Hadoop与Spark
1. Hadoop 是一种分布式计算平台，用Java编写，可运行在Linux、Windows以及类Unix系统上。包括两个核心技术，HDFS和Mapreduce。HDFS实现数据的分布式存储，MapReduce实现数据的分布式计算（通过Map和reduce两个函数实现）。
2. Spark 比 MapReduce 快，前者使用内存存储中间结果，后者使用HDFS。
思考：分布式和集群的区别？集群中每个节点都跑相同的代码，能够处理相同的任务，可以一台作为相应，其他作为处理用，提高单位时间内处理任务的个数。分布式中的所有节点共同处理一个任务，缩短单个任务的处理时间，从而提高效率。

数据库类型
1. 关系型数据库是根据表间的索引建立关系，因此叫关系型数据库。代表产品有Oracle、MySQL、DB2。
2. NoSQL非关系型数据库，四种存储类型：1键值；2文档（JSON格式）；3列存储；4图数据库。代表产品有：Redis；CouchDB、Mongodb；HBase；Neo4J。
相关阅读:
Windows Server 2008 IIS安装FTP及端口配置
 Zabbix 3.4过滤多余的windows网卡监控
 Linux下统计当前文件夹下的文件个数、目录个数
 CentOS 7 使用 ACL 设置文件权限
 Linux服务器CPU使用率较低但负载较高
 Linux下通过 rm -f 删除大量文件时报错：Argument list too long
nginx环境安装配置fail2ban屏蔽攻击ip
CentOS 服务器添加简易"回收站"
游戏行业DDoS攻击解决方案
 使用 fail2ban 防御 SSH 服务器的暴力破解攻击
原文地址：https://www.cnblogs.com/fortunel/p/10971629.html

大数据技术学习笔记

大数据的特点

大数据计算模式及代表产品

云计算、大数据、物联网的区别与联系

Hadoop与Spark

数据库类型