大数据提取价值信息技术实现方案

分5步：

1、通过FTP採集文件

2、把文件入到HDFS系统

3、使用HIVE从HDFS中选择数据

4、使用DataStage或Infomatica把数据入库

5、入库到Sybase IQ数据库

注意事项：

1、不一定用ftp採集文件，反正仅仅要把海量文件採集过来就可以；

2、採集的源文件一定是海量的，能够文件数海量，也能够文件中的内容海量，要不然就不叫大数据了；

3、这里面主要用到了hadoop的hdfs，没实用到mapreduce。

4、mapreduce事实上是hive帮你实现了；

5、使用hive是由于仅仅要会sql的人都会使用hive，学习成本低，一般企业特别是老企业会sql的开发者一大把。

6、DataStage是ibm的，认为不好用，所以如今用Infomatica替换。

7、ibm的东西都是卖的非常廉价，但维护费非常贵，他不开源所以你不得不找他来帮忙维护，所以我一直非常讨厌它；

8、ibm的东西不光维护贵，并且扩节点也不廉价。如今公司部分主机已转向HP；

9、不一定选择Sybase IQ。所以公司选择了也没啥大问题，查询的速度挺快，更新和插入临时也不认为很慢。它是基于列存储的并且价格比oracle廉价很许多。

应用场景：

比方你的站点有大量的用户搜索信息，能够把这信息文件入到hdfs，然后通过select出每一个keyword的查找次数，最终把这个关键词和次数入库到IQ。

那么。你直接看IQ。就能够知道近期大家搜索的最多最关注的是什么词语了。

本文出自：ouyida3的csdn

2015.3.18

相关阅读:
C#项目打包，并自动安装SQL数据库（转）
[转]将List对象列表转换成JSON格式的类
查找算法集：顺序查找、二分查找、插值查找、动态查找(数组实现、链表实现)
C#编码好习惯
数据库构思与设计规范
ASP.NET下母版页和内容页中的事件发生顺序整理
记录要点
div挡住select的5种方法
html源码获取方法
TransactionScope 分布式事务

原文地址：https://www.cnblogs.com/yjbjingcha/p/6751613.html