• 【算法】海量数据处理算法(top K问题)


    举例

      有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

    思路

    • 首先把文件分开

    • 针对每个文件hash遍历,统计每个词语的频率

    • 使用堆进行遍历

    • 把堆归并起来

    具体的方案

      1.分治: 

      顺序读文件中,对于每个词c,取hash(c)%2000,然后按照该值存到2000个小文件中(同一个词hash值相同,放在同一个文件中)。这样每个文件大概是500k(1G/2000 = 500k)左右

      注意:如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。

      2.hash遍历: 

      对每个小文件,用hash的方式统计每个文件中出现的词以及相应的频率(相当于hash去重)

      3.堆遍历: 

      用 最小堆取出出现频率最大的100个词(最坏的情况同一个hash文件中,前100就是整个文件的前100),

      并把100个词及相应的频率存入文件,这样又得到了5000(每个词一个频率,100 * 2000 / 50,估计有50倍的重复率)个文件。

      4.归并整合

      下一步就是把这5000个文件进行归并(类似与归并排序)的过程了,可以将文件两辆合并,去前100 即可。

  • 相关阅读:
    第十天python3 函数的销毁
    第九天python3 闭包
    第八天pyhton3 函数的返回值、作用域
    第七天python3 函数、参数及参数解构(二)
    音视频不同步排查方法
    第六天python3 函数、参数及参数解构(一)
    第五天python3 内建函数总结
    第四天python3 python解析式-生成器-迭代器

    [转载]基于Java反序列化
  • 原文地址:https://www.cnblogs.com/h--d/p/14965418.html
Copyright © 2020-2023  润新知