• 2014-08-4


      今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到classpath里面的包就很多很多,如果自己一个一个的添加,也许一天下来就差不多完了(我自己就这样折腾了好几个小时),最后在网上到处搜找到了“classpath多个包添加”这个方法。还有用shell的,但是自己还不会。程序差不多就跑通了。那今天目前遇到的问题:

      1、classpath的添加

      2、java的OutOfMemoryError:Java heap space:分开处理了part-r-00000,和part-r-00001

      3、还有就是最后关联规则的度量标准,虽然知道有哪些,但是还是不是特别明白其数值大小代表什么意思。

      http://www.cnblogs.com/fengfenggirl/p/3255173.html;

      http://web.engr.illinois.edu/~hanj/pdf/pkdd07_twu.pdf;

      http://www.nyu.edu/classes/jcf/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf;

      4、一开始的数据的处理就有问题:对于关联规则,一、不存在时间顺序问题,二、每一个事物里面不要用重复的数据,这样用python处理的话,就要考虑用到数据结构。python处理: http://woodpecker.org.cn/diveintopython/native_data_types/lists.html;http://woodpecker.org.cn/diveintopython/index.html;http://sebug.net/paper/python/ch09s04.html;

    http://wangwei007.blog.51cto.com/68019/903426

      5、数据的report和action,不能每一个都有记录,只保留需要加载的:view0,view1,related。

  • 相关阅读:
    求助:C#读文本文件(编码未知)的问题
    求助:字符的显示问题
    常用的xml文件操作
    关于旧表导入新表的数据冲突问题
    通过批处理管理安装windows服务
    windows服务,批处理安装
    ajax的请求的超时处理
    消息队列的使用
    c#程序执行cmd命令
    dynamic(翻译)
  • 原文地址:https://www.cnblogs.com/leewiki/p/3891104.html
Copyright © 2020-2023  润新知