• 毕设开发手记(六)


          STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法:

    • 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用)
    • 通过停用词表删词。(很小的停用词表,只有十几个单字无意义名/动词)
    • 该篇文章中出现概率小于3的删词。
    • 全部文章出现概率低于1%或者高于90%的删词。

          不过降维效果的确猛,都是按位数降的……从W级降到百级。小恐怖~后面就是大规模测试还有小修改了,打算明天释出第一个release!

  • 相关阅读:
    java生成验证码
    springmvc笔记(来自慕课网)
    angularJs编写多指令的情况
    四年前端开发的迷茫.
    angularJs的ui-router总结
    grunt构建前端自动化的开发环境
    socket传送文件
    socket--粘包
    socket--接受大数据
    动态导入模块
  • 原文地址:https://www.cnblogs.com/codingmylife/p/1735059.html
Copyright © 2020-2023  润新知