单词统计 - 润新知

单词统计

用户需求：

英语的26 个字母的频率在一本小说中是如何分布的？

某类型文章中常出现的单词是什么？

某作家最常用的词汇是什么？

《哈利波特》中最常用的短语是什么，等等。

我们就写一些程序来解决这个问题，满足一下我们的好奇心。

第0步：输出某个英文文本文件中 26 字母出现的频率，由高到低排列，并显示字母出现的百分比，精确到小数点后面两位。

字母频率 = 这个字母出现的次数 / （所有A-Z，a-z字母出现的总数）

如果两个字母出现的频率一样，那么就按照字典序排列。如果 S 和 T 出现频率都是 10.21%，那么， S 要排在T 的前面。

第1步：输出单个文件中的前 N 个最常出现的英语单词。

作用：一个用于统计文本文件中的英语单词出现频率。

单词：以英文字母开头，由英文字母和字母数字符号组成的字符串视为一个单词。单词以分隔符分割且不区分大小写。在输出时，所有单词都用小写字符表示。

英文字母：A-Z，a-z

字母数字符号：A-Z，a-z，0-9

package test;

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

import java.text.NumberFormat;

import java.util.ArrayList;

import java.util.Collections;

import java.util.Comparator;

import java.util.List;

import java.util.Map;

import java.util.TreeMap;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class zimu {



     private static String formattedDecimalToPercentage(double decimal)

        {

            //获取格式化对象

            NumberFormat nt = NumberFormat.getPercentInstance();

            //设置百分数精确度2即保留两位小数

            nt.setMinimumFractionDigits(2);

            return nt.format(decimal);

        }

public static void main(String []args) {

    String a1;

    char a='A';

    int a2[]=new int[27];

    char b1[]=new char[26];

    char b2[]=new char[26];

    double c1[]=new double[26];

    for(int i=0;i<26;i++)

    {

    b1[i]=a;

    b2[i]=(char)(a+32);

    a++;

    }

    try {

        BufferedReader in = new BufferedReader(new FileReader("D:\piao.txt"));

        String str;

        while ((str = in.readLine()) != null) {

            char[] d=str.toCharArray();

            for(int i=0;i<d.length-1;i++) {

                for(int j=0;j<26;j++) {

                    if(b1[j]==d[i]||b2[j]==d[i]) {

                        a2[j]++;

                    }

                }

            }

        }



        a2[26]=0;

        for(int i=0;i<26;i++) {

            a2[26]=a2[i]+a2[26];

        }

        for(int i=0;i<26;i++) {

             c1[i]=(double)((double)a2[i]/(double)a2[26]);

        }





       for(int i=0;i<26;i++) {

            System.out.print(b1[i]);

            System.out.print("和");

            System.out.print(b2[i]);

            System.out.print("出现的次数为：");

            System.out.print(a2[i]);

            double d=(double)((double)a2[i]/(double)a2[26]);

            String result2=formattedDecimalToPercentage(d);

            System.out.println("   百分比为："+result2);

        }

       System.out.println("       ");

        System.out.println("出现单词次数较多的前十个为：");

        BufferedReader reader = new BufferedReader(new FileReader(

                "D:\\piao.txt"));

        StringBuffer buffer = new StringBuffer();

        String line = null;

        while ((line = reader.readLine()) != null) {

            buffer.append(line);

        }

        reader.close();

        Pattern expression = Pattern.compile("[a-zA-Z]+");

        String string = buffer.toString();

        Matcher matcher = expression.matcher(string);//

        Map<String, Integer> map = new TreeMap<String, Integer>();

        String word = "";

        int times = 0;

        while (matcher.find()) {

            word = matcher.group();

            if (map.containsKey(word)) {

                times = map.get(word);

                map.put(word, times + 1);

            } else {

                map.put(word, 1);

            }

        }



        List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(

                map.entrySet());

        Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() {

            public int compare(Map.Entry<String, Integer> left,

                    Map.Entry<String, Integer> right) {

                return (left.getValue()).compareTo(right.getValue());

            }

        };

        Collections.sort(list, comparator);// 排序

        int last = list.size() - 1;

        int asdad=0;

        for(int i=last;i>0;i--) {

            String key = list.get(i).getKey();

            Integer value = list.get(i).getValue();

            asdad=asdad+value;



        }



        for (int i = last; i > last - 10; i--) {

            String key = list.get(i).getKey();

            Integer value = list.get(i).getValue();

            System.out.print(key + " :" + value);

           double d=(double)((double)value/(double)asdad);

           String result2=formattedDecimalToPercentage(d);

        System.out.println("   百分比为："+result2);

        }



    } catch (IOException e) {

    }

}

}
相关阅读:
chrome、firefox、IE中input输入光标位置错位解决方案
 IE兼容opacity
Linux下redis5的安装及伪分布式集群搭建
 Linux文件编辑命令详细整理
 saltstack
redis集群
 系统调优
 centos7 telnet 登录升级ssh
keepalive简单高可用 ha
docker
原文地址：https://www.cnblogs.com/g414056667/p/13064324.html