缺失的知识点,
1.数据活化
2.商务智能
Pregel 图计算软件
https://stanford.edu/~rezab/classes/cme323/S15/notes/lec8.pdf
Pregel (a portmanteu of the words Parallel, Graph, and Google) is a data flow paradigm and system
for large-scale graph processing created at Google to solve problems that are hard or expensive to
solve using only the MapReduce framework.
https://en.wikipedia.org/wiki/Dremel_(software) 查询分析系统
Dremel is a distributed system developed at Google for interactively querying large datasets.
Dremel is the query engine used in Google's BigQuery service.[1]
Dremel is the inspiration for Apache Drill,[2] Apache Impala,[3] and Dremio,[4] an Apache licensed platform that includes a distributed SQL execution engine.
In 2020, Dremel won the Test of Time award[5] at the VLDB 2020 conference recognizing the innovations it pioneered.
https://en.wikipedia.org/wiki/Apache_Impala 数据仓库
Apache Impala is an open source massively parallel processing (MPP) SQL query engine for data stored in a computer cluster running Apache Hadoop.[2] Impala has been described as the open-source equivalent of Google F1, which inspired its development in 2012.[3]
Apache Spark DStream (Discretized Streams)
https://data-flair.training/blogs/apache-spark-dstream-discretized-streams/
https://spark.apache.org/docs/0.7.3/api/streaming/spark/streaming/DStream.html
A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous sequence of RDDs (of the same type) representing a continuous stream of data (see spark. RDD for more details on RDDs).
P201 数据分析与数据挖掘
物联网具有的三大特征是:整体感知、可靠传输和智能处理。
P180 NewSQL数据库
P90 大数据伦理问题
P205 聚类分析
数据活化是一种新型数据组织与处理技术,通过感知、关联、存续等手段,实现海量多源多模数据的自我认知、自主学习和主动成长。
NoSQL数据库保证最终一致性,而非ACID属性
数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
大数据分析不是通过样本推断总体的统计方法。
2015年4月15日,全国首家大数据交易所——贵阳大数据交易所(英文名:Global Big Data Exchange,简写:GBDEx)正式挂牌运营并完成首批大数据交易。
在金融行业的风控领域,需要记录大量人员之间的资金流转关系,最适合用于存储该类数据的NoSQL数据库是,图数据库。
谷歌采用搜索引擎大数据进行流感趋势预测,体现了哪种大数据思维方式,全样而非抽样。
大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:以数据为中心。
数据挖掘的最高境界就是从信息中获取数据,辅助科学决策 。 这个描述是错误的。正确的应该是,从数据中获取知识,辅助科学决策。
常见的NoSQL数据库有四种不同的类型,分别是:列式、文档、图形和内存键值。这个是正确的。
下面不属于物联网感知技术的是,摄像机。 GPS,RFID,条码都是物联网感知技术。
【效用计算】是一种提供计算资源的商业模式,用户从计算资源供应商获取和使用计算资源并基于实际使用的资源付费。简单说,是一种基于资源使用量的付费模式。效用计算主要给用户带来经济效益。企业数据中心的资源利用率普遍在20%左右,这主要是因为超额部署—购买比平均所需资源更多的硬件一边处理峰值负载,可预计到的或不可预计的。效用计算则允许用户只为他们所需要用到并且已经用到的那部分资源付费。
常见的 NoSQL 数据库包括键值数据库、列族数据库、文档数据库和图形数据库。 http://c.biancheng.net/view/6498.html
ETL的全称是Extract-Transform-Load,是描述数据获得之后,经过抽取、转换、加载到目的地的一种过程。