mongdb

简介

MongoDB 是一个基于分布式文件存储的NoSQL数据库
由C++语言编写，运行稳定，性能高
旨在为 WEB 应用提供可扩展的高性能数据存储解决方案
查看官方网站

MongoDB特点

模式自由 :可以把不同结构的文档存储在同一个数据库里
面向集合的存储：适合存储 JSON风格文件的形式
完整的索引支持：对任何属性可索引
复制和高可用性：支持服务器之间的数据复制，支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移
自动分片：支持云级别的伸缩性：自动分片功能支持水平的数据库集群，可动态添加额外的机器
丰富的查询：支持丰富的查询表达方式，查询指令使用JSON形式的标记，可轻易查询文档中的内嵌的对象及数组
快速就地更新：查询优化器会分析查询表达式，并生成一个高效的查询计划
高效的传统存储方式：支持二进制数据及大型对象（如照片或图片）

1. 基本操作

MongoDB将数据存储为一个文档，数据结构由键值(key=>value)对组成
MongoDB文档类似于JSON对象，字段值可以包含其他文档、数组、文档数组
安装管理mongodb环境
完成数据库、集合的管理
数据的增加、修改、删除、查询

名词

SQL术语/概念	MongoDB术语/概念	解释/说明
database	database	数据库
table	collection	数据库表/集合
row	document	数据记录行/文档
column	field	数据字段/域
index	index	索引
table joins		表连接,MongoDB不支持
primary key	primary key	主键,MongoDB自动将_id字段设置为主键

三元素：数据库，集合，文档
- 集合就是关系数据库中的表
- 文档对应着关系数据库中的行
文档，就是一个对象，由键值对构成，是json的扩展Bson形式

{'name':'guojing','gender':'男'}

集合：类似于关系数据库中的表，储存多个文档，结构不固定，如可以存储如下文档在一个集合中

{'name':'guojing','gender':'男'}
{'name':'huangrong','age':18}
{'book':'shuihuzhuan','heros':'108'}

数据库：是一个集合的物理容器，一个数据库中可以包含多个文档
一个服务器通常有多个数据库

1.1. 安装

下载mongodb的版本，两点注意
- 根据业界规则，偶数为稳定版，如1.6.X，奇数为开发版，如1.7.X
- 32bit的mongodb最大只能存放2G的数据，64bit就没有限制
到官网，选择合适的版本下载
解压

tar -zxvf mongodb-linux-x86_64-ubuntu1604-3.4.0.tgz

sudo mv -r mongodb-linux-x86_64-ubuntu1604-3.4.0/ /usr/local/mongodb

将可执行文件添加到PATH路径中

export PATH=/usr/local/mongodb/bin:$PATH

管理mongo

配置文件在/etc/mongod.conf
默认端口27017
启动

sudo service mongod start

停止

sudo service mongod stop

使用终端连接
这个shell就是mongodb的客户端，同时也是一个js的编译器

mongo

命令

db查看当前数据库名称
db.stats()查看当前数据库信息

终端退出连接

exit
或ctrl+c

GUI：robomongo，解压后在bin目录下找到运行程序
界面如下：

1.2 数据库操作

数据库切换

查看当前数据库名称

db

查看所有数据库名称
列出所有在物理上存在的数据库

show dbs

切换数据库
如果数据库不存在，则指向数据库，但不创建，直到插入数据或创建集合时数据库才被创建

use 数据库名称

默认的数据库为test，如果你没有创建新的数据库，集合将存放在test数据库中

数据库删除

删除当前指向的数据库
如果数据库不存在，则什么也不做

db.dropDatabase()

1.3. 集合操作

集合创建

语法

db.createCollection(name, options)

name是要创建的集合的名称
options是一个文档，用于指定集合的配置
选项参数是可选的，所以只需要到指定的集合名称。以下是可以使用的选项列表：
例1：不限制集合大小

db.createCollection("stu")

例2：限制集合大小，后面学会插入语句后可以查看效果
参数capped：默认值为false表示不设置上限，值为true表示设置上限
参数size：当capped值为true时，需要指定此参数，表示上限大小，当文档达到上限时，会将之前的数据覆盖，单位为字节

db.createCollection("sub", { capped : true, size : 10 } )

查看当前数据库的集合

语法

show collections

删除

语法

db.集合名称.drop()

1.4. 数据类型

下表为MongoDB中常用的几种数据类型：
Object ID：文档ID
String：字符串，最常用，必须是有效的UTF-8
Boolean：存储一个布尔值，true或false
Integer：整数可以是32位或64位，这取决于服务器
Double：存储浮点值
Arrays：数组或列表，多个值存储到一个键
Object：用于嵌入式的文档，即一个值为一个文档
Null：存储Null值
Timestamp：时间戳
Date：存储当前日期或时间的UNIX时间格式

object id

每个文档都有一个属性，为_id，保证每个文档的唯一性
可以自己去设置_id插入文档
如果没有提供，那么MongoDB为每个文档提供了一个独特的_id，类型为objectID
objectID是一个12字节的十六进制数
- 前4个字节为当前时间戳
- 接下来3个字节的机器ID
- 接下来的2个字节中MongoDB的服务进程id
- 最后3个字节是简单的增量值

1.5. 数据操作

插入

语法

db.集合名称.insert(document)

插入文档时，如果不指定_id参数，MongoDB会为文档分配一个唯一的ObjectId
例1

db.stu.insert({name:'gj',gender:1})

例2

s1={_id:'20160101',name:'hr'}
s1.gender=0
db.stu.insert(s1)

简单查询

语法

db.集合名称.find()

更新

语法

db.集合名称.update(
   <query>,
   <update>,
   {multi: <boolean>}
)

参数query:查询条件，类似sql语句update中where部分
参数update:更新操作符，类似sql语句update中set部分
参数multi:可选，默认是false，表示只更新找到的第一条记录，值为true表示把满足条件的文档全部更新
例3：全文档更新

db.stu.update({name:'hr'},{name:'mnc'})

例4：指定属性更新，通过操作符$set

db.stu.insert({name:'hr',gender:0})
db.stu.update({name:'hr'},{$set:{name:'hys'}})

例5：修改多条匹配到的数据

db.stu.update({},{$set:{gender:0}},{multi:true})

保存

语法

db.集合名称.save(document)

如果文档的_id已经存在则修改，如果文档的_id不存在则添加
例6

db.stu.save({_id:'20160102','name':'yk',gender:1})

例7

db.stu.save({_id:'20160102','name':'wyk'})

删除

语法

db.集合名称.remove(
   <query>,
   {
     justOne: <boolean>
   }
)

参数query:可选，删除的文档的条件
参数justOne:可选，如果设为true或1，则只删除一条，默认false，表示删除多条
例8：只删除匹配到的第一条

db.stu.remove({gender:0},{justOne:true})

例9：全部删除

db.stu.remove({})

关于size的示例

例10
创建集合

db.createCollection('sub',{capped:true,size:10})

插入第一条数据库查询

db.sub.insert({title:'linux',count:10})
db.sub.find()

插入第二条数据库查询

db.sub.insert({title:'web',count:15})
db.sub.find()

插入第三条数据库查询

db.sub.insert({title:'sql',count:8})
db.sub.find()

插入第四条数据库查询

db.sub.insert({title:'django',count:12})
db.sub.find()

插入第五条数据库查询

db.sub.insert({title:'python',count:14})
db.sub.find()

1.6

数据查询

基本查询

方法find()：查询

db.集合名称.find({条件文档})

方法findOne()：查询，只返回第一个

db.集合名称.findOne({条件文档})

方法pretty()：将结果格式化

db.集合名称.find({条件文档}).pretty()

比较运算符

等于，默认是等于判断，没有运算符
小于$lt
小于或等于$lte
大于$gt
大于或等于$gte
不等于$ne
例1：查询名称等于'gj'的学生

db.stu.find({name:'gj'})

例2：查询年龄大于或等于18的学生

db.stu.find({age:{$gte:18}})

逻辑运算符

查询时可以有多个条件，多个条件之间需要通过逻辑运算符连接
逻辑与：默认是逻辑与的关系
例3：查询年龄大于或等于18，并且性别为1的学生

db.stu.find({age:{$gte:18},gender:1})

逻辑或：使用$or
例4：查询年龄大于18，或性别为0的学生

db.stu.find({$or:[{age:{$gt:18}},{gender:1}]})

and和or一起使用
例5：查询年龄大于18或性别为0的学生，并且学生的姓名为gj

db.stu.find({$or:[{age:{$gte:18}},{gender:1}],name:'gj'})

范围运算符

使用"$in"，"$nin" 判断是否在某个范围内
例6：查询年龄为18、28的学生

db.stu.find({age:{$in:[18,28]}})

支持正则表达式

使用//或$regex编写正则表达式
例7：查询姓黄的学生

db.stu.find({name:/^黄/})
db.stu.find({name:{$regex:'^黄'}}})

自定义查询

使用$where后面写一个函数，返回满足条件的数据
例7：查询年龄大于30的学生

db.stu.find({$where:function(){return this.age>20}})

1.6.1 Limit和Skip

Limit

方法limit()：用于读取指定数量的文档
语法：

db.集合名称.find().limit(NUMBER)

参数NUMBER表示要获取文档的条数
如果没有指定参数则显示集合中的所有文档
例1：查询2条学生信息

db.stu.find().limit(2)

skip

方法skip()：用于跳过指定数量的文档
语法：

db.集合名称.find().skip(NUMBER)

参数NUMBER表示跳过的记录条数，默认值为0
例2：查询从第3条开始的学生信息

db.stu.find().skip(2)

一起使用

方法limit()和skip()可以一起使用，不分先后顺序
创建数据集

for(i=0;i<15;i++){db.t1.insert({_id:i})}

查询第5至8条数据

db.stu.find().limit(4).skip(5)
或
db.stu.find().skip(5).limit(4)

1.6.2

投影

在查询到的返回结果中，只选择必要的字段，而不是选择一个文档的整个字段
如：一个文档有5个字段，需要显示只有3个，投影其中3个字段即可
语法：
参数为字段与值，值为1表示显示，值为0不显示

db.集合名称.find({},{字段名称:1,...})

对于需要显示的字段，设置为1即可，不设置即为不显示
特殊：对于_id列默认是显示的，如果不显示需要明确设置为0
例1

db.stu.find({},{name:1,gender:1})

例2

db.stu.find({},{_id:0,name:1,gender:1})

1.6.3

排序

方法sort()，用于对结果集进行排序
语法

db.集合名称.find().sort({字段:1,...})

参数1为升序排列
参数-1为降序排列
例1：根据性别降序，再根据年龄升序

db.stu.find().sort({gender:-1,age:1})

1.6.4

统计个数

方法count()用于统计结果集中文档条数
语法

db.集合名称.find({条件}).count()

也可以与为

db.集合名称.count({条件})

例1：统计男生人数

db.stu.find({gender:1}).count()

例2：统计年龄大于20的男生人数

db.stu.count({age:{$gt:20},gender:1})
1.6.5

消除重复

方法distinct()对数据进行去重
语法

db.集合名称.distinct('去重字段',{条件})

例1:查找年龄大于18的性别（去重）

db.stu.distinct('gender',{age:{$gt:18}})
1.7

总结

安装
数据库创建、删除
集合创建、删除
文档增加、修改、删除
文档查询：find(),limit(),skip(),投影,sort(),count(),distinct()

作业

创建科目集合sub，并进行数据的操作
查询sub中的数据

高级操作

讲解关于mongodb的高级操作，包括聚合、主从复制、分片、备份与恢复、MR
完成python与mongodb的交互

2.1

聚合 aggregate

聚合(aggregate)主要用于计算数据，类似sql中的sum()、avg()
语法

db.集合名称.aggregate([{管道:{表达式}}])

管道

管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的输入

ps ajx | grep mongo

在mongodb中，管道具有同样的作用，文档处理完毕后，通过管道进行下一次处理
常用管道
- $group：将集合中的文档分组，可用于统计结果
- $match：过滤数据，只输出符合条件的文档
- $project：修改输入文档的结构，如重命名、增加、删除字段、创建计算结果
- $sort：将输入文档排序后输出
- $limit：限制聚合管道返回的文档数
- $skip：跳过指定数量的文档，并返回余下的文档
- $unwind：将数组类型的字段进行拆分

表达式

处理输入文档并输出
语法

表达式:'$列名'

常用表达式
- $sum：计算总和，$sum:1同count表示计数
- $avg：计算平均值
- $min：获取最小值
- $max：获取最大值
- $push：在结果文档中插入值到一个数组中
- $first：根据资源文档的排序获取第一个文档数据
- $last：根据资源文档的排序获取最后一个文档数据

2.1.1

$group

将集合中的文档分组，可用于统计结果
_id表示分组的依据，使用某个字段的格式为'$字段'
例1：统计男生、女生的总人数

db.stu.aggregate([
    {$group:
        {
            _id:'$gender',
            counter:{$sum:1}
        }
    }
])

Group by null

将集合中所有文档分为一组
例2：求学生总人数、平均年龄

db.stu.aggregate([
    {$group:
        {
            _id:null,
            counter:{$sum:1},
            avgAge:{$avg:'$age'}
        }
    }
])

透视数据

例3：统计学生性别及学生姓名

db.stu.aggregate([
    {$group:
        {
            _id:'$gender',
            name:{$push:'$name'}
        }
    }
])

使用$$ROOT可以将文档内容加入到结果集的数组中，代码如下

db.stu.aggregate([
    {$group:
        {
            _id:'$gender',
            name:{$push:'$$ROOT'}
        }
    }
])

2.1.2

$match

用于过滤数据，只输出符合条件的文档
使用MongoDB的标准查询操作
例1：查询年龄大于20的学生

db.stu.aggregate([
    {$match:{age:{$gt:20}}}
])

例2：查询年龄大于20的男生、女生人数

db.stu.aggregate([
    {$match:{age:{$gt:20}}},
    {$group:{_id:'$gender',counter:{$sum:1}}}
])

2.1.3

$project

修改输入文档的结构，如重命名、增加、删除字段、创建计算结果
例1：查询学生的姓名、年龄

db.stu.aggregate([
    {$project:{_id:0,name:1,age:1}}
])

例2：查询男生、女生人数，输出人数

db.stu.aggregate([
    {$group:{_id:'$gender',counter:{$sum:1}}},
    {$project:{_id:0,counter:1}}
])

2.1.4

$sort

将输入文档排序后输出
例1：查询学生信息，按年龄升序

b.stu.aggregate([{$sort:{age:1}}])

例2：查询男生、女生人数，按人数降序

db.stu.aggregate([
    {$group:{_id:'$gender',counter:{$sum:1}}},
    {$sort:{counter:-1}}
])
2.


2.1.5

$limit

限制聚合管道返回的文档数
例1：查询2条学生信息

db.stu.aggregate([{$limit:2}])

$skip

跳过指定数量的文档，并返回余下的文档
例2：查询从第3条开始的学生信息

db.stu.aggregate([{$skip:2}])

例3：统计男生、女生人数，按人数升序，取第二条数据

db.stu.aggregate([
    {$group:{_id:'$gender',counter:{$sum:1}}},
    {$sort:{counter:1}},
    {$skip:1},
    {$limit:1}
])

注意顺序：先写skip，再写limit

2.1.6

$unwind

将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值

语法1

对某字段值进行拆分

db.集合名称.aggregate([{$unwind:'$字段名称'}])

构造数据

db.t2.insert({_id:1,item:'t-shirt',size:['S','M','L']})

查询

db.t2.aggregate([{$unwind:'$size'}])

语法2

对某字段值进行拆分
处理空数组、非数组、无字段、null情况

db.inventory.aggregate([{
    $unwind:{
        path:'$字段名称',
        preserveNullAndEmptyArrays:<boolean>#防止数据丢失
    }
}])

构造数据

db.t3.insert([
{ "_id" : 1, "item" : "a", "size": [ "S", "M", "L"] },
{ "_id" : 2, "item" : "b", "size" : [ ] },
{ "_id" : 3, "item" : "c", "size": "M" },
{ "_id" : 4, "item" : "d" },
{ "_id" : 5, "item" : "e", "size" : null }
])

使用语法1查询

db.t3.aggregate([{$unwind:'$size'}])

查看查询结果，发现对于空数组、无字段、null的文档，都被丢弃了
问：如何能不丢弃呢？
答：使用语法2查询

db.t3.aggregate([{$unwind:{path:'$sizes',preserveNullAndEmptyArrays:true}}])

2.2安全

超级管理员

为了更安全的访问mongodb，需要访问者提供用户名和密码，于是需要在mongodb中创建用户
采用了角色-用户-数据库的安全管理方式
常用系统角色如下：
- root：只在admin数据库中可用，超级账号，超级权限
- Read：允许用户读取指定数据库
- readWrite：允许用户读写指定数据库
创建超级管理用户

use admin
db.createUser({
    user:'admin',
    pwd:'123',
    roles:[{role:'root',db:'admin'}]
})

启用安全认证

修改配置文件

sudo vi /etc/mongod.conf

启用身份验证
注意：keys and values之间一定要加空格, 否则解析会报错

security:
  authorization: enabled

重启服务

sudo service mongod stop
sudo service mongod start

终端连接

 mongo -u 'admin' -p '123' --authenticationDatabase 'admin'

普通用户管理

使用超级管理员登录，然后进入用户管理操作
查看当前数据库的用户

use test1
show users

创建普通用户

db.createUser({
    user:'t1',
    pwd:'123',
    roles:[{role:'readWrite',db:'test1'}]
})

终端连接

mongo -u t1 -p 123 --authenticationDatabase test1

切换数据库，执行命令查看效果
修改用户：可以修改pwd、roles属性

db.updateUser('t1',{pwd:'456'})
2.3

复制（副本集）

什么是复制

复制提供了数据的冗余备份，并在多个服务器上存储数据副本，提高了数据的可用性，并可以保证数据的安全性
复制还允许从硬件故障和服务中断中恢复数据

为什么要复制

数据备份
数据灾难恢复
读写分离
高（24* 7）数据可用性
无宕机维护
副本集对应用程序是透明

复制的工作原理

复制至少需要两个节点A、B...
A是主节点，负责处理客户端请求
其余的都是从节点，负责复制主节点上的数据
节点常见的搭配方式为：一主一从、一主多从
主节点记录在其上的所有操作，从节点定期轮询主节点获取这些操作，然后对自己的数据副本执行这些操作，从而保证从节点的数据与主节点一致
主节点与从节点进行数据交互保障数据的一致性

复制的特点

N 个节点的集群
任何节点可作为主节点
所有写入操作都在主节点上
自动故障转移
自动恢复

设置复制节点

接下来的操作需要打开多个终端窗口，而且可能会连接多台ubuntu主机，会显得有些乱，建议在xshell中实现
step1:创建数据库目录t1、t2
在Desktop目录下演示，其它目录也可以，注意权限即可

mkdir t1
mkdir t2

step2:使用如下格式启动mongod，注意replSet的名称是一致的

mongod --bind_ip 192.168.196.128 --port 27017 --dbpath ~/Desktop/t1 --replSet rs0
mongod --bind_ip 192.168.196.128 --port 27018 --dbpath ~/Desktop/t2 --replSet rs0

step3:连接主服务器，此处设置192.168.196.128:27017为主服务器

mongo --host 192.168.196.128 --port 27017

step4:初始化

rs.initiate()

初始化完成后，提示符如下图：

step5:查看当前状

rs.status()

当前状态如下图：

step6:添加复本集

rs.add('192.168.196.128:27018')

step7:复本集添加成功后，当前状态如下图：

step8:连接第二个mongo服务

mongo --host 192.168.196.128 --port 27018

连接成功后，提示符如下图：

初始化

step9:向主服务器中插入数据

use test1
for(i=0;i<10;i++){db.t1.insert({_id:i})}
db.t1.find()

step10:在从服务器中插查询
说明：如果在从服务器上进行读操作，需要设置rs.slaveOk()

rs.slaveOk()
db.t1.find()

其它说明

删除从节点

rs.remove('192.168.196.128:27018')

关闭主服务器后，再重新启动，会发现原来的从服务器变为了从服务器，新启动的服务器（原来的从服务器）变为了从服务器

2.4

备份

语法

mongodump -h dbhost -d dbname -o dbdirectory

-h：服务器地址，也可以指定端口号
-d：需要备份的数据库名称
-o：备份的数据存放位置，此目录中存放着备份出来的数据
例1

sudo mkdir test1bak
sudo mongodump -h 192.168.196.128:27017 -d test1 -o ~/Desktop/test1bak

恢复

语法

mongorestore -h dbhost -d dbname --dir dbdirectory

-h：服务器地址
-d：需要恢复的数据库实例
--dir：备份数据所在位置
例2

mongorestore -h 192.168.196.128:27017 -d test2 --dir ~/Desktop/test1bak/test1
2.5

与python交互

点击查看官方文档
安装python包

进入虚拟环境
sudo pip install pymongo
或源码安装
python setup.py

引入包pymongo

import pymongo

连接，创建客户端

client=pymongo.MongoClient("localhost", 27017)

获得数据库test1

db=client.test1

获得集合stu

stu = db.stu

添加文档

s1={name:'gj',age:18}
s1_id = stu.insert_one(s1).inserted_id

查找一个文档

s2=stu.find_one()

查找多个文档1

for cur in stu.find():
    print cur

查找多个文档2

cur=stu.find()
cur.next()
cur.next()
cur.next()

获取文档个数

print stu.count()
2.6

总结

聚合
安全
副本集
备份与恢复
与python交互

作业

熟练聚合
熟练与python交互

相关阅读:
SpringCloud面试题
 网工必知：（1）Cisco 路由器PPPOE拨号配置与NAT简单上网配置
 【网工的福利来了！】用Excel表做的“子网划分&路由聚合计算器”
肝了，一文让你看懂《Docker极简入门指南》
ImportError: libopenblas.so.0: cannot open shared object file
Linux软件包管理工具 Snap 常用命令
 squashfs文件系统
 回环设备
 Mac homebrew报错Error: homebrew-core is a shallow clone.
公钥和私钥
原文地址：https://www.cnblogs.com/skorzeny/p/9185507.html