• 统计文章内各个单词出现的次数


    算法的思路是:

    1. 从头到尾遍历文件,从文件中读取遍历到的每一个单词。
    2. 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
    3. 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
    4. 当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
    5. 遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。

      具体实现和结果如下:

    算法的思路是:
    从头到尾遍历文件,从文件中读取遍历到的每一个单词。
    把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
    遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
    当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
    遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。
      具体实现和结果如下:
    [cpp] view plain copy print?
    // 出现次数最多的K个单词.cpp : Defines the entry point for the console application.  
    #include "stdafx.h"  
    #include <hash_map>  
    #include <string>  
    #include <fstream>  
    #include <queue>  
    #include <iostream>  
    #include <algorithm>  
    #include <boost/timer.hpp>   
    using namespace std;  
    using namespace boost;  
    void top_k_words()//出现次数最多的是个单词  
    {  
        timer t;  
        ifstream fin;  
        fin.open("modern c.txt");  
        if (!fin)  
        {  
            cout<<"can not open file"<<endl;  
        }  
        string s;  
        hash_map<string,int> countwords;  
        while (true)  
        {  
            fin>>s;  
            countwords[s]++;  
            if (fin.eof())  
            {  
                break;  
            }  
              
        }  
        cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;  
        priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;  
        for(hash_map<string,int>::const_iterator i=countwords.begin();  
            i!=countwords.end();i++)  
        {  
            countmax.push(make_pair(i->second,i->first));  
            if (countmax.size()>10)  
            {  
                countmax.pop();  
            }  
        }  
        while(!countmax.empty())  
        {  
            cout<<countmax.top().second<<" "<<countmax.top().first<<endl;  
            countmax.pop();  
        }  
        cout<<"time elapsed "<<t.elapsed()<<endl;  
    }  
    int main(int argc, char* argv[])  
    {  
        top_k_words();  
      
        system("pause");  
        return 0;  
    }  
  • 相关阅读:
    CCF_2014_09_2_画图
    计蒜课_等和分隔子集
    计蒜客_合法分数的组合
    读构建之法的读书笔记
    四则运算及感想
    psp 第二周
    第二周 词频统计
    历年作品点评
    四人小组项目
    品读《构建之法》及几个问题的提出
  • 原文地址:https://www.cnblogs.com/hdk1993/p/5853427.html
Copyright © 2020-2023  润新知