10月19日,在人大明德法学院听了大数据公益大学的技术聚会,共三个报告听了两个,第三个报告是关于大数据展示的,听了几分钟感觉主题是做表格和报表,兴趣不大就提前走了。这是我第一次进人大,从西门进去走几步就可以看到法学院的几栋大楼,都是红色的,在明媚的阳光和湛蓝天空的映衬下,显得很是气派。
聚会的第一个报告是easyhadoop的开发者向磊讲解他开发的Xadoop系统,这个Xadoop是用来界面化管理hadoop集群的,12年8月份提交至github网站,全球第二个同类产品,100%开源。easyhaoop是Xadoop的前身。向总介绍了开发easyhadoop的缘由,那时他还在暴风影音担任数据工程师,处理各种数据,量很大。刚开始尝试hadoop的时候尝到了甜头,原来需要一个月跑完的数据现在几个小时就可以跑完了。集群由开始的7、8台增长到几十台,集群一大问题就来了,运维很繁琐,当需要登录各台服务器查看日志时就很不方便了,所以就自己动手写了easyhadoop,由此还获得阿里云编程大赛的一等奖。
向总介绍整个产品的架构是这样的,最底层的是hdfs、map/reduce,往上是hadoop,再往上是pig、hive、mahout,再往上就是Xadoop的客户端了。用Xadoop可以界面化控制各台服务器的开或关,查看日志、内存、CPU、各台服务器的负载等。向总展示了将hadoop安装在单片机上的运行情况,他非常看好用ARM服务器做运算,因为传统的CPU适合处理事件流,不适合处理数据流,而且12颗ARM CPU相当于一个Intel CPU,而且价格更低,但是ARM对操作系统的支持比较差。 向总的讲座有产品、有演示,还是很有意思的。
第二个报告是马恩驰讲解RTB的。我对RTB有点了解,但不专业。RTB大概就是广告主对各网站的流量资源进行交易和竞价的广告交易平台或是广告超市。与传统售卖广告位的方式相比,RTB是对每个访问的用户进行竞价,即对每个PV进行竞价。由于本人了解实在有限,还是补充一些来自网上的资料吧。
小马哥主要的内容还的是关于算法方面的,就是基于DSP平台的竞价模型。在RBT系统中存储的数据分为两方面,一是基于人的属性,如性别、年龄、收入等情况,二是其他属性,如用户的购买行为等特征。数据很稀疏,需要进行降维,他采用的方法是SVD(主成分分析),通过R的 svd( ) 函数进行运算,还有一个专门进行主成分分析的包irlba,运算速度非常快。 竞价模型主要有两个,一个是基于数据的竞价,一个是基于逻辑的竞价,坦白说竞价部分我没有听懂,所以大家去看一下PPT吧。最后,他推荐一本关于推荐和预测模型方面的书,原版英文,书名Applied Predictive Modeling(应用预测模型),有兴趣的可以搜一下。
提问环节,我问了一个问题——你们公司是如何用R的,是用来建模和测试算法,还是直接参与产品的运算。他的回答很明确,R不适合线上的运算 ,他们用来测试算法的,据他所知facebook也是这么干的,调好算法后再转为C或java的编程。还问了一下,hadoop上可以运行SVD吗?其他同学帮着回答了,答案是可以。