【算法】海量数据处理算法（top K问题）

【算法】海量数据处理算法（top K问题）
举例

　　有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

思路
- 首先把文件分开
- 针对每个文件hash遍历，统计每个词语的频率
- 使用堆进行遍历
- 把堆归并起来
具体的方案

　　1.分治：

　　顺序读文件中，对于每个词c，取hash(c)%2000，然后按照该值存到2000个小文件中（同一个词hash值相同，放在同一个文件中）。这样每个文件大概是500k（1G/2000 = 500k）左右

　　注意：如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

　　2.hash遍历：

　　对每个小文件，用hash的方式统计每个文件中出现的词以及相应的频率（相当于hash去重）

　　3.堆遍历：

　　用最小堆取出出现频率最大的100个词（最坏的情况同一个hash文件中，前100就是整个文件的前100），

　　并把100个词及相应的频率存入文件，这样又得到了5000（每个词一个频率，100 * 2000 / 50，估计有50倍的重复率）个文件。

　　4.归并整合

　　下一步就是把这5000个文件进行归并（类似与归并排序）的过程了，可以将文件两辆合并，去前100 即可。
相关阅读:
第十天python3 函数的销毁
 第九天python3 闭包
 第八天pyhton3 函数的返回值、作用域
 第七天python3 函数、参数及参数解构(二)
音视频不同步排查方法
 第六天python3 函数、参数及参数解构(一)
第五天python3 内建函数总结
 第四天python3 python解析式-生成器-迭代器
 刷
 [转载]基于Java反序列化
原文地址：https://www.cnblogs.com/h--d/p/14965418.html

【算法】海量数据处理算法（top K问题）

举例

思路

具体的方案