free 命令 buffers and cached 解释
N多人总是询问,当在linux在输入free时内存总数怎么加起来不一样啊,下面我来解释一下free命令的输出。
我们运行free命令时都会看到如下的信息:
#free
total used free shared buffers cached
Mem: 1025236 1002324 22912 0 26900 228140
-/+ buffers/cache: 747284 277952
Swap: 1044216 53912 990304
今天我主要讲讲第一行的buffers和cached的含义。
free命令显示的 buffers 上面是 26900 和 cached 上面是 228140,这些数字是从 /proc/meminfo中获取的。
#cat /proc/meminfo | grep Buffers
Buffers: 26912 kB
#cat /proc/meminfo | grep Cached
Cached: 228180 kB
会有些不同是因为你没有在同时运行命令,命令之间有时间间隔,你再试试这个命令:
#cat /proc/meminfo | grep Buffers;free
Buffers: 27624 kB
total used free shared buffers cached
Mem: 1025236 987924 37312 0 27624 197972
应该一样了吧。
那么具体buffers和cached代表什么意思呐,我们看一下kernel code. 首先我们看buffers proc中的meminfo初始化是在 proc_misc_init ,其中会 初始化 meminfo_read_proc 函数,当我们cat /proc/meminfo此函数会被调用。 meminfo_read_proc 会打印Buffers信息 是通过 i.bufferram的值打印的,具体 i 是什么结构很简单你看看代码就明白了。 我们主要看看i.bufferram是怎么统计的。 meminfo_read_proc -> si_meminfo(&i) 进行统计 void si_meminfo(struct sysinfo *val) { ... val->bufferram = nr_blockdev_pages(); //统计Buffers ... } long nr_blockdev_pages(void) { struct list_head *p; long ret = 0; spin_lock(&bdev_lock); list_for_each(p, &all_bdevs) { //查看所有块设备 struct block_device *bdev; bdev = list_entry(p, struct block_device, bd_list); //指向一个块设备 ret += bdev->bd_inode->i_mapping->nrpages; //统计页数 } spin_unlock(&bdev_lock); return ret; } 函数意思是查找所有的块设备然后通过块设备的inode的i_mapping统计页数,那么nrpages是怎么增加的,谁又会引用inode和i_mapping,我们继续向下看。 int add_to_page_cache(struct page *page, struct address_space *mapping, pgoff_t offset, gfp_t gfp_mask) { int error = radix_tree_preload(gfp_mask & ~__GFP_HIGHMEM); if (error == 0) { write_lock_irq(&mapping->tree_lock); error = radix_tree_insert(&mapping->page_tree, offset, page); if (!error) { page_cache_get(page); SetPageLocked(page); page->mapping = mapping; page->index = offset; mapping->nrpages++; //更新mapping的nrpages字段 __inc_zone_page_state(page, NR_FILE_PAGES); } write_unlock_irq(&mapping->tree_lock); radix_tree_preload_end(); } return error; } void __remove_from_page_cache(struct page *page) { struct address_space *mapping = page->mapping; radix_tree_delete(&mapping->page_tree, page->index); page->mapping = NULL; mapping->nrpages--; __dec_zone_page_state(page, NR_FILE_PAGES); } 我搜索kernel发现最终更新mapping->nrpages字段的函数就是add_to_page_cache和__femove_frome_page_cache函数, 那么他们使用的mapping是块设备的吗还是文件的呐,文件的inode中自带了mapping如果是文件的mapping传递进来了,那么更新的就不是块设备的信息,Buffer信息也不会反应。 如果传递的是块设备的mapping那么相应的统计信息会从Buffer中反应出来。 那么我们下面就可以看看kernel中哪些地方是把块设备的mapping传递进来了。 sys_read ->vfs_read 其中会调用 file->f_op->read(file, buf, count, pos); 那么如果文件是一个目录就会调用相关目录的操作函数read,我们以ext3举例: sys_getdents (读目录系统调用) -> vfs_readdir -> file->f_op->readdir(file, buf, filler); 调用相关文件系统的读目录函数 那么ext3就下面 const struct file_operations ext3_dir_operations = { .llseek = generic_file_llseek, .read = generic_read_dir, .readdir = ext3_readdir, // 读目录函数 .ioctl = ext3_ioctl, /* BKL held */ .fsync = ext3_sync_file, /* BKL held */ #ifdef CONFIG_EXT3_INDEX .release = ext3_release_dir, #endif }; ext3_readdir 函数会调用 ext3_get_blocks_handle,page_cache_readahead等函数 调用page_cache_readahead 时明显传递的是 sb->s_bdev->bd_inode->i_mapping,都会更新块设备的mapping->nrpages字段, 就是说当进行读目录时可能会增加Buffers的值,相应的当对目录进行操作时,像在目录中建立文件,重命名等动作都会涉及到mapping->nrpage字段。 还有就是当读取文件的间接块时也会更新mapping->nrpage字段,具体看看ext3_get_blocks_handle函数你就会明白了。 然后我们看cached meminfo_read_proc中有 cached = global_page_state(NR_FILE_PAGES) - total_swapcache_pages - i.bufferram; //NR_FILE_PAGES的页面 - 所有交换缓存页和我们上面讲的buffers页。 那么global_page_state(NR_FILE_PAGES)是什么,我们下面进行解释。 static inline unsigned long global_page_state(enum zone_stat_item item) { long x = atomic_long_read(&vm_stat[item]); #ifdef CONFIG_SMP if (x < 0) x = 0; #endif return x; } vm_stat是一个枚举数组,下面的结构是枚举值。 enum zone_stat_item { NR_ANON_PAGES, /* Mapped anonymous pages */ NR_FILE_MAPPED, /* pagecache pages mapped into pagetables. only modified from process context */ NR_FILE_PAGES, NR_SLAB, /* Pages used by slab allocator */ NR_PAGETABLE, /* used for pagetables */ NR_FILE_DIRTY, NR_WRITEBACK, NR_UNSTABLE_NFS, /* NFS unstable pages */ NR_BOUNCE, #ifdef CONFIG_NUMA NUMA_HIT, /* allocated in intended node */ NUMA_MISS, /* allocated in non intended node */ NUMA_FOREIGN, /* was intended here, hit elsewhere */ NUMA_INTERLEAVE_HIT, /* interleaver preferred this zone */ NUMA_LOCAL, /* allocation from local node */ NUMA_OTHER, /* allocation from other node */ #endif NR_VM_ZONE_STAT_ITEMS }; 看看上面两个函数 add_to_page_cache 有 __inc_zone_page_state(page, NR_FILE_PAGES); _remove_from_page_cache 有 __dec_zone_page_state(page, NR_FILE_PAGES); __add_to_swap_cache 也有 __inc_zone_page_state(page, NR_FILE_PAGES); __delete_from_swap_cache 进行减少操作。 就是说所有调用 add_to_page_cache的函数都会进行统计,包括目录操作,文件的数据读取,再加上swap的就是NR_FILE_PAGES所有进行统计的信息。 这样会不会有重叠呐,不会看上面 cached 的算法 cached = global_page_state(NR_FILE_PAGES) - total_swapcache_pages - i.bufferram; 把重叠部分读减去了。