• 【把玩信息图之标签云】看看我一年的邮件在扯什么


    2013年开始了,用一个信息图缅怀我的2012:用标签云展示我一年的邮件在扯什么。

    整个标签云的制作过程利用现有技术,方便操作。

    准备数据

    利用邮件客户端将2012年的邮件导出到目录

    image

    然后用在控制台,用dir /b > input.txt 命令,仅仅将标题输出到一个文件内容(这里是取巧了,只统计邮件标题,其实根据需要可以导出内容进行处理,方式不展开讨论了)

    image

    统计词频

    词库当然是利用现成的,在网上找了一个盘古分词(盘古分词:http://pangusegment.codeplex.com/),写了几行代码调用完成了词频统计(只适用于小型统计)

    编译好的程序见附件,可直接使用:

    1 输入文本内容放入input.txt
    2 运行xqptag.exe,生成词频在data.txt

    如果需要修改词库,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改

    得到data.txt文件如图所示:

    image

    数据处理

    data.txt是按照词频顺序排列的,以[词]:[出现次数]这样的格式排列

    如果希望出现的未出现,可能是词库未包含,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改,修改方法参考盘古官网说明。

    如果不希望的词出现,例如txt或者一些助词之类,可手工处理。

    生成标签云

    在众多标签云生成软件中,我选择了tagxedo,无需注册:http://www.tagxedo.com/

    访问网站,点击create

    image

    在load目录中的enter text,输入修改过的词频数据,点击submit就会生成一个粗略的标签云

    image

    image

    当然这个并不是我们想要的样式,我还要进行调整:

    最重要的一步:在word | layout option 中的word一页 apply nonlatin heuristics 设置为no,这样才不会将中文的词分开

    设置方向:Orientation中选择方向Horizontal(水平)

    选择样式、主题、颜色… 大家慢慢发掘

    最后用save生成可下载的图片文件,大功告成!

    image

  • 相关阅读:
    C#’s ~ vs Java’s finalize
    做Java开发这一年
    assertThat, assertEquals, assertTrue
    给Cuke4Duke添加一个AfterAll标签(一):使用Cuke4Duke
    心理问题的根源
    何谓数学
    人生谁看透
    人本主义与自由意志
    哲学的基本问题
    贫穷与教育
  • 原文地址:https://www.cnblogs.com/anic/p/2919764.html
Copyright © 2020-2023  润新知