• 大数据处理的一些总结和应用(有关舆情监控)


        说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角

    大数据的概念:


    1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。

    2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

    3、海量异构的数据(包括文本、图像、声音等)。

    大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)



    大数据处理的应用场景有很多:

    1.阿里巴巴平台----淘宝双十一

    2.证券交易系统

    3.智慧城市

    4.情报分析,舆情监控



    大数据处理的的发展历史和架构演进,可以看成:

    是从传统手工作坊(分布式批处理)到流水线工厂(hadoop)再到没有中间商 的O2O平台(spark)

    开源工具简介---批处理

    Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

    HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。

    MapReduce:是一种编程模型,用于大规模数据集的并行运算。

    Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。

    Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin。

    Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是Google bigtable的一个开源的实现。

    Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。




    舆情监控系统的系统流程:



    最近去一个文科院校讲了一节课:基于大数据处理的舆情监控系统及其应用简介,ppt分享出来希望大家批评指正:

    http://download.csdn.net/detail/wangyaninglm/9504994

  • 相关阅读:
    国外保健品品牌介绍
    海淘第一单
    表查询语句与方法
    表与表关系
    表完整性约束
    表字段数据类型
    存储引擎
    数据库之MySQL基本操作
    MAC重置MySQL root 密码
    进程池、线程池、协程
  • 原文地址:https://www.cnblogs.com/wangyaning/p/7853903.html
Copyright © 2020-2023  润新知