《大数据挑战与NoSQL数据库技术》
基本信息
作者: 陆嘉恒
丛书名: 大数据丛书
出版社:电子工业出版社
ISBN:9787121196607
上架时间:2013-3-25
出版日期:2013 年4月
开本:16开
页码:440
版次:1-1
所属分类:计算机
更多关于 》》》《
大数据挑战与NoSQL数据库技术》
内容简介
书籍
计算机书籍
《大数据挑战与nosql数据库技术》共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入nosql数据库;系统篇主要介绍了各种类型nosql数据库的基本知识;应用篇对国内外几家知名公司在利用nosql数据库处理海量数据方面的实践做了阐述。
《大数据挑战与nosql数据库技术》对大数据时代面临的挑战,以及nosql数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。
目录
《大数据挑战与nosql数据库技术》
第1章 概论
1
1.1 引子
2
1.2 大数据挑战
3
1.3 大数据的存储和管理
5
1.3.1 并行数据库
5
1.3.2 nosql数据管理系统
6
1.3.3 newsql数据管理系统
8
1.3.4 云数据管理
11
1.4 大数据的处理和分析
11
1.5 小结
13
参考文献
13
理 论 篇
第2章 数据一致性理论
16
2.1 cap理论
17
2.2 数据一致性模型
21
2.3 acid与base
22
2.4 数据一致性实现技术
23
2.4.1 quorum系统nrw策略
23
2.4.2 两阶段提交协议
24
.2.4.3 时间戳策略
27
2.4.4 paxos
30
2.4.5 向量时钟
38
2.5 小结
43
参考文献
43
第3章 数据存储模型
45
3.1 总论
46
3.2 键值存储
48
3.2.1 redis
49
3.2.2 dynamo
49
3.3 列式存储
50
3.3.1 bigtable
51
3.3.2 cassandra与hbase
51
3.4 文档存储
52
3.4.1 mongodb
53
3.4.2 couchdb
53
3.5 图形存储
54
3.5.1 neo4j
55
3.5.2 graphdb
55
3.6 本章小结
56
参考文献
56
第4章 数据分区与放置策略
58
4.1 分区的意义
59
4.1.1 为什么要分区
59
4.1.2 分区的优点
60
4.2 范围分区
61
4.3 列表分区
62
4.4 哈希分区
63
4.5 三种分区的比较
64
4.6 放置策略
64
4.6.1 一致性哈希算法
65
4.6.2 容错性与可扩展性分析
66
4.6.3 虚拟节点
68
4.7 小结
69
参考文献
69
第5章 海量数据处理方法
70
5.1 mapreduce简介
71
5.2 mapreduce数据流
72
5.3 mapreduce数据处理
75
5.3.1 提交作业
76
5.3.2 初始化作业
78
5.3.3 分配任务
78
5.3.4 执行任务
79
5.3.5 更新任务执行进度和状态
80
5.3.6 完成作业
81
5.4 dryad简介
81
5.4.1 dfs cosmos介绍
82
5.4.2 dryad执行引擎
84
5.4.3 dryadlinq解释引擎
86
5.4.4 dryadlinq编程
88
5.5 dryad数据处理步骤
90
5.6 mapreduce vs dryad
92
5.7 小结
94
参考文献
95
第6章 数据复制与容错技术
96
6.1 海量数据复制的作用和代价
97
6.2 海量数据复制的策略
97
6.2.1 dynamo的数据库复制策略
97
6.2.2 couchdb的复制策略
99
6.2.3 pnuts的复制策略
99
6.3 海量数据的故障发现与处理
101
6.3.1 dynamo的数据库的故障发现与处理
101
6.3.2 couchdb的故障发现与处理
103
6.3.3 pnuts的故障发现与处理
103
6.4 小结
104
参考文献
104
第7章 数据压缩技术
105
7.1 数据压缩原理
106
7.1.1 数据压缩的定义
106
7.1.2 数据为什么可以压缩
107
7.1.3 数据压缩分类
107
7.2 传统压缩技术[1]
108
7.2.1 霍夫曼编码
108
7.2.2 lz77算法
109
7.3 海量数据带来的3v挑战
112
7.4 oracle混合列压缩
113
7.4.1 仓库压缩
114
7.4.2 存档压缩
114
7.5 google数据压缩技术
115
7.5.1 寻找长的重复串
115
7.5.2 压缩算法
116
7.6 hadoop压缩技术
118
7.6.1 lzo简介
118
7.6.2 lzo原理[5]
119
7.7 小结
121
参考文献
121
第8章 缓存技术
122
8.1 分布式缓存简介
123
8.1.1 分布式缓存的产生
123
8.1.2 分布式缓存的应用
123
8.1.3 分布式缓存的性能
124
8.1.4 衡量可用性的标准
125
8.2 分布式缓存的内部机制
125
8.2.1 生命期机制
126
8.2.2 一致性机制
126
8.2.3 直读与直写机制
129
8.2.4 查询机制
130
8.2.5 事件触发机制
130
8.3 分布式缓存的拓扑结构
130
8.3.1 复制式拓扑
131
8.3.2 分割式拓扑
131
8.3.3 客户端缓存拓扑
131
8.4 小结
132
参考文献
132
系 统 篇
第9章 key-value数据库
134
9.1 key-value模型综述
134
9.2 redis
135
9.2.1 redis概述
135
9.2.2 redis下载与安装
135
9.2.3 redis入门操作
136
9.2.4 redis在业内的应用
143
9.3 voldemort
143
9.3.1 voldemort概述
143
9.3.2 voldemort下载与安装
144
9.3.3 voldemort配置
145
9.3.4 voldemort开发介绍[3]
147
9.4 小结
149
参考文献
149
第10章 column-oriented数据库
150
10.1 column-oriented数据库简介
151
10.2 bigtable数据库
151
10.2.1 bigtable数据库简介
151
10.2.2 bigtable数据模型
152
10.2.3 bigtable基础架构
154
10.3 hypertable数据库
157
10.3.1 hypertable简介
157
10.3.2 hypertable安装
157
10.3.3 hypertable架构
163
10.3.4 基本概念和原理
164
10.3.5 hypertable的查询
168
10.4 cassandra数据库
175
10.4.1 cassandra简介
175
10.4.2 cassandra配置
175
10.4.3 cassandra数据库的连接
177
10.4.4 cassandra集群机制
180
10.4.5 cassandra的读/写机制
182
10.5 小结
183
参考文献
183
第11章 文档数据库
185
11.1 文档数据库简介
186
11.2 couchdb数据库
186
11.2.1 couchdb简介
186
11.2.2 couchdb安装
188
11.2.3 couchdb入门
189
11.2.4 couchdb查询
200
11.2.5 couchdb的存储结构
207
11.2.6 sql和couchdb
209
11.2.7 分布式环境中的couchdb
210
11.3 mongodb数据库
211
11.3.1 mongodb简介
211
11.3.2 mongodb的安装
212
11.3.3 mongodb入门
215
11.3.4 mongodb索引
224
11.3.5 sql与mongodb
226
11.3.6 mapreduce与mongodb
229
11.3.7 mongodb与couchdb对比
234
11.4 小结
236
参考文献
237
第12章 图存数据库
238
12.1 图存数据库的由来及基本概念
239
12.1.1 图存数据库的由来
239
12.1.2 图存数据库的基本概念
239
12.2 neo4j图存数据库
240
12.2.1 neo4j简介
240
12.2.2 neo4j使用教程
241
12.2.3 分布式neo4j——neo4j ha
251
12.2.4 neo4j工作机制及优缺点浅析
256
12.3 graphdb
258
12.3.1 graphdb简介
258
12.3.2 graphdb的整体架构
260
12.3.3 graphdb的数据模型
264
12.3.4 graphdb的安装
266
12.3.5 graphdb的使用
268
12.4 orientdb
276
12.4.1 背景
276
12.4.2 orientdb是什么
276
12.4.3 orientdb的原理及相关技术
277
12.4.4 windows下orientdb的安装与使用
282
12.4.5 相关web应用
286
12.5 三种图存数据库的比较
288
12.5.1 特征矩阵
288
12.5.2 分布式模式及应用比较
289
12.6 小结
289
参考文献
290
第13章 基于hadoop的数据管理系统
291
13.1 hadoop简介
292
13.2 hbase
293
13.2.1 hbase体系结构
293
13.2.2 hbase数据模型
297
13.2.3 hbase的安装和使用
298
13.2.4 hbase与rdbms
303
13.3 pig
304
13.3.1 pigr的安装和使用
304
13.3.2 pig latin语言
306
13.3.3 pig实例
311
13.4 hive
315
13.4.1 hive的数据存储
316
13.4.2 hive的元数据存储
316
13.4.3 安装hive
317
13.4.4 hiveql简介
318
13.4.5 hive的网络接口(webui)
328
13.4.6 hive的jdbc接口
328
13.5 小结
330
参考文献
331
第14章 newsql数据库
332
14.1 newsql数据库简介
333
14.2 mysql cluster
333
14.2.1 概述
334
14.2.2 mysql cluster的层次结构
336
14.2.3 mysql cluster的优势和应用
337
14.2.4 海量数据处理中的sharding技术
339
14.2.5 单机环境下mysql cluster的安装
343
14.2.6 mysql cluster的分布式安装与配置指导
348
14.3 voltdb
350
14.3.1 传统关系数据库与voltdb
351
14.3.2 voltdb的安装与配置
351
14.3.3 voltdb组件
354
14.3.4 hello world
355
14.3.5 使用generate脚本
361
14.3.6 eclipse集成开发
362
14.4 小结
365
参考文献
365
第15章 分布式缓存系统
366
15.1 memcached缓存技术
367
15.1.1 背景介绍
367
15.1.2 memcached缓存技术的特点
368
15.1.3 memcached安装[3]
374
15.1.4 memcached中的数据操作
375
15.1.5 memcached的使用
376
15.2 microsoft velocity分布式缓存系统
378
15.2.1 microsoft velocity简介
378
15.2.2 数据分类
379
15.2.3 velocity核心概念
380
15.2.4 velocity安装
382
15.2.5 一个简单的velocity客户端应用
385
15.2.6 扩展型和可用性
387
15.3 小结
388
参考文献
388
应 用 篇
第16章 企业应用
392
16.1 instagram
393
16.1.1 instagram如何应对数据的急剧增长
395
16.1.2 instagram的数据分片策略
398
16.2 facebook对hadoop以及hbase的应用
400
16.2.1 工作负载类型
401
16.2.2 为什么采用apache hadoop和hbase
403
16.2.3 实时hdfs
405
16.2.4 hadoop hbase的实现
409
16.3 淘宝大数据解决之道
411
16.3.1 淘宝数据分析
412
16.3.2 淘宝大数据挑战
413
16.3.3 淘宝oceanbase数据库
414
16.3.4 淘宝将来的工作
422
16.4 小结
423
参考文献
423