1. 背景
DBA同事反馈说Mongp集群磁盘占用空间过大,超过监控告警95%阈值,因此建议删除部分资源或者申请扩容,本着开源节流的理念,还是乖乖看哪些老数据应该删除。但Mongo中的库和表过多,因此如何进行统计?
2. MongoDB库表占用空间统计
其实,MongoDB中库表的占用空间统计方式N多种,比如通过各种语言依赖包如java的mongodb-driver、python的pymongo等支持统计,选择个人擅长的一种即可。
由于mongo命令行支持运行js代码,因此计划使用js代码来执行(免得要打开各种IDE界面或命令行窗口)
2.1 库占用统计
库占用简单,运行如下命令即可
show dbs;
运行结果如下
mongos> show dbs; CloudCrawler 0.000GB MarkHistory 0.025GB Medal 0.005GB Result 0.072GB ResultHistory 0.051GB admin 0.000GB admind_for_test 0.000GB
2.2 表占用统计
表占用统计,即统计每个库下每个表的大小,运行如下命令即可,该代码仅统计指定库下表的分布
tabName = db.getCollectionNames(); function getReadableFileSizeString(tabName) { for(var j=0;j<tabName.length;j++){ var name=tabName[j]; var cnt=db.getCollection(name).find({}).count(); var fileSizeInBytes= db.getCollection(name).stats().size; var i = -1; var byteUnits = [' kB', ' MB', ' GB', ' TB', 'PB', 'EB', 'ZB', 'YB']; do { fileSizeInBytes = fileSizeInBytes / 1024; i++; } while (fileSizeInBytes > 1024); print(name + ' cnt:' + cnt + ' size:'+Math.max(fileSizeInBytes, 0.1).toFixed(1) + byteUnits[i]); } }; getReadableFileSizeString(tabName);
运行结果,标识edt_manage_prod库下各个collection的统计
edu_manage_prod: CheckTask cnt:53 size:7.7 kB OCR_TMP_GFS.chunks cnt:2554250 size:96.6 GB OCR_TMP_GFS.files cnt:2529063 size:1.2 GB eduManifestQuestion cnt:709 size:15.7 MB jhi_user cnt:0 size:0.1 kB survey_result cnt:25 size:101.3 kB survey_task cnt:19 size:44.6 kB system.profile cnt:185 size:210.6 kB
3. 解决
按照如上即可统计中所有库对应表的占用大小,找到占比最大几张表,与业务线确认表是否仍在使用,确认后执行备份后删除即可。
注意:
(1) 执行db.collection.remove()只是清空数据,占用的磁盘空间仍没有释放,因此建议使用db.collection.drop()或执行remove后对该collection重命名,即可彻底释放