• 大数据学习(一)基本概念


      大数据凭借其 数据量大 数据类型多样 产生与处理速度块 价值高  的4V特性 成为学术界和工业界的研究热点 由于传统软件难以在可接受的时间范围内处理大数据 所以学术界和工艺界研发了许多分布式的大数据系统来解决大规模数据的存储 梳理分析和挖掘等问题
           比如社交网站 脸书 每天要处理约25亿条消息 所以数据量大(Volume) 除了消息还有视频啊 什么的 数据类型多样(Variety)  而且需要实时的去分析和应对这些消息 所以说产生与处理的速度快(Velocity)  我们可以通过这些数据分析用户的喜好啊 浏览什么的 就可以给对应的用户提供潜在的服务 所以这个价值高(Value)  这就是大数据的4V特性 
           大数据的处理框架 Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储

      目前在学习Spark

  • 相关阅读:
    PHP 实现无限极栏目分类
    CI 中css样式或者js样式加载不进来的情况
    php 写model层
    Struts1 中$ 没有解析的问题
    App设计相关网站
    如何知道 win10 的激活到期时间和期限等
    dev XtraMessageBox按钮显示中文
    静电的ui教程
    从零开始做UI-静电的sketch设计教室 视频教程
    SQL Server2005作业执行失败的解决办法
  • 原文地址:https://www.cnblogs.com/oushiyang/p/14861410.html
Copyright © 2020-2023  润新知