• 一次聚类引发的一系列问题(工作经验篇)


    在这次聚类功能的完成过程中,增长了一些工作经验:

    一、中间结果应当存储:整个功能分成两段过程,第一部分是请求引擎,获取分词结果,第二部分是根据分词结果聚类。第一部分请求引擎的分词结果应当保存,不管是查问题还是继续调试均能起到很好的帮助,后面更是开辟了一个功能,直接使用分词结果文件进行聚类,不需要第一步,为了防止第一步完成后,第二步执行过程中程序出错,下次还需要执行第一步。

    二、分批存储结果:由于数据量比较大,所以需要分批聚类,而每批聚类的结果应该分别存储到文件中,防止执行了一部分程序出错还需要从头执行。

    三、忽略小的影响,保证整体的运行:在请求引擎的过程中有时可能某一批数据请求出错,然后整体都报错了,无法继续进行。而对于大量的数据来说,一小部分的数据丢失并没有太大影响。这部分应当把错误catch掉,继续运行。

    四、参数化程序:由于聚类过程中间一些处理方案的选择会对聚类结果产生影响,不同的数据适合不同的方案,所以需要参数能动态选择方案,这个参数的解析应该独立在聚类过程之外,方便改动和阅读。

  • 相关阅读:
    圖標網址
    webmethod Ajax请求格式和返回类型 汇总
    第一阶段图标动效打卡
    大数据可视化--控件设计
    Python 多任务(进程) day1(3)
    Python 多任务(进程) day1(2)
    Python 多任务(进程) day1(1)
    Python 多任务(线程) day2 (2)
    Python 多任务(线程) day1
    TCP和UDP的一些注意事项
  • 原文地址:https://www.cnblogs.com/fiftyonesteps/p/11424334.html
Copyright © 2020-2023  润新知