• 天池大数据比赛


      第一赛季结束了,以往都是在网上找到有用的博客摘抄过来,这次参加比赛,难得有些切实体验,恰好好久没动手写东西了,这次就动动手,动动脚。。。流水账式的记录开始

      刚拿到数据,首先想到就是SVD,嘿嘿,这个东西学了这么久,正好碰到这么多的数据,那么多的维度(每个用户对应那么多商品,商品又有那么多用户购买,而且数据肯定特别稀疏),但是直接用SVD,面对10000*200w的维度还是很有难度的。窃以为刚好每个商品都有一个类别属性,统计了下约有8900个类别,不过这也是不小的数字。怎么对类别个数进行压缩呢?这么对类别,应该会有相似的吧,比如说裤子和裙子,嘿嘿,马上想到了聚类,这个学了好久的东西这次可以用下喽!马上对类别进行聚类,但是选择多少个类簇合适呢?这下我又发挥了自己的“聪明才智”,多试几个从10,到1000都试一下,比较那个什么距离平方和最小的。而且还把结果画成曲线,ok,就是那个拐角点出的值,好!就选100个类簇了,这下好开森哈!8900多个类被我压缩成100个了,那么仔细看下我的战果把,打开所用的工具weka(哇嘎哇嘎,诶诶诶,这东西一直也为是个玩具,这下用起来还挺“方便”的——挺弱智的),在100个类中,有很多类下只有3个—4个子类,而有的

  • 相关阅读:
    Java中==和equals的区别
    (转)JAVA-反射机制的使用
    JAVA三框架工作原理是什么?
    Spring的IoC模式
    JavaEE中为什么出现中文乱码?
    Android--Apache HttpClient(2种实现)
    Android之网络----使用HttpClient发送HTTP请求(通过get方法获取数据)
    Android—Http连接之GET/POST请求
    2014 12 04
    struts2的HelloWorld的基本过程
  • 原文地址:https://www.cnblogs.com/hugh2006/p/4459357.html
Copyright © 2020-2023  润新知