• 了解大数据


    了解大数据

    一.大数据

        1.大数据的定义

       麦肯锡全球研究所:一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。

        2.大数据的特点

      大量,高速,多样,价值

        3.数据的结构

          结构化的数据:

        简单来说就是数据库,是由二维表结构来逻辑表达和实现的数据

          非结构化的数据:

        数据结构不规则或不完整,没有预定义的数据模型

        4.我们身边有哪些是大数据

      电信数据:通话数据,短信数据,手机浏览数据;银行数据;微信聊天数据......

        5.大数据带来了什么

      数据挖掘:

        用户画像;知识图谱

      人工智能:

        Google的 ‘ 阿尔法狗 ’;阿里巴巴的”ET“,百度的”无人驾驶汽车“

      区块链:

        数字货币,物联网

        总结:

      大数据就是互联网发展到现今阶段的一种表象或特征

    二.人工智能

        1.人工智能是什么

      人工智能:英文缩写为AI。它是研究,开发用于模拟,延伸和扩展的智能的理论,方法,技术及应用系统的一门新的技术科学

      总结:大数据+深度学习=人工智能

        2.人工智能三大发展要素

        *计算机硬件

        *算法

        *数据

    三.机器学习和深度学习

        1.机器学习的定义

      专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能

        2.机器学习基本过程

           机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿出这个模型来测试其他的数据,最终获得满意的经验来处理其他的数据。

           总结:数据导入—>数据清洗—>特征工程—>训练模型—>评估模型—>预测新数据

        3.机器学习的分类

      监督学习,无监督学习,半监督学习,强化学习。

        4.算法的分类

      回归算法(监督学习),聚类算法,分类算法,神经网络,将维算法,SVM支持向量机,推荐算法(t特殊),其他算法

        5.深度学习

      深度学习是机器学习中一种基于数据进行表征学习的方法—含有多隐层的神经网络

        6.机器学习和深度学习的应用

      广泛用于数据挖掘,计算机视觉,自然语言处理,生物特征识别机器人领域等。

    四.数据挖掘

        1.什么是数据挖掘

    • 从大量的数据中挖掘出隐含的,未知的,用户可能感兴趣的和对决策有潜在价值的知识和规则
    • 简单的说,数据挖掘就是从大量的数据中发现有用信息的过程

        2.数据挖掘怎么挖数据

      通过大数据(数据,分布式技术)和挖掘算法(机器学习算法)

        3.挖掘能做什么

      用户可能感兴趣的和对决策有潜在价值的知识和规则

     五.大数据技术体系

        1.大数据体系

    • 开发语言:Java ,Python,Scala
    • 分布式存储:Hdfs,Hbase,Redis,Mongedb;
    • 分布式计算:Mapreducer,Sark Core,Storm;
    • 数据仓库技术:Hive ,Sqoop,Flume,Spark SQL
    • 机器学习:Mahout,Scikit—lean,MLlib

        2.分布式计算

      分布式计算将该应用分解为许多小的部分,分配给多台计算机进行处理。

    六.学习大数据之前的准备

        1.掌握一门大数据开发语言

      -Java

    • 必须掌握J2SE,jdbc,JS,sql语句,sevlet,jsp,spring框架等。
    • 见百战程序员Java1000集视频

      -Python

    • 必须掌握Python语法,Python面向对象,Python数据库等
    • 见百战程序员1000集视频

      -熟悉linux

       -数列linux常用命令

     七.大数据职位介绍

       

      按需求排序:数据挖掘工程师;

            Spark开发工程师,数据仓库工程师,Hadoop开发工程师

      工资

    (大数据开发工程师)

    (数据仓库)

    (数据仓库)

    (大数据开发工程师)

    总结:数据挖掘,机器学习,算法工程师工资几乎都超过两万

    八.大数据简历怎么写

    • 个人资料
    • 工资经历
    • 职业技能
    • 期望薪资  填写面议
    • 项目经验
    • 自我评价

    九.大数据的学习方法

       ·多写代码 (大数据偏向实战)

      —纸上得来终觉浅,绝知此事要躬行

      —看再多的书,也比不上设计调试一个简单的程序

      —写代码和其它事情比例 7:3

       ·看优秀的书和视频

      —《程序员的数学》《大数据之美》等

      —连续看视频的时间不能超过30分钟

       ·设计规划

      —多画图,数据流程图

      —多画步骤图。完成一个需求往往需要多个jop依次执行,每个jop做什么事情,每个jop的每个任务做什么事情

       ·多思考,归纳总结

      —每个案例学完之后,每段代码敲完之后,都要进行总结

      —大数据编程比较灵活,一个需求往往有多种解决办法

       ·多交流

      —学习的时候为自己找一个“伴”

      —不耻下问

       ·多看日志学会独立解决问题

      —解决问题只能靠日志信息

      —先看日志,看不懂再问老师及其他人

       ·一份付出,一份回报

    大数据重点课程介绍

    • Linux基础
    • 高并发集群(前两个为后面3个做准备)
    • Hadoop离线计算体系

        — HDFS

        — Mapreduce

        — Hive

        — Hbase

        — Sqoop,Flume,zookeeper,CDH,impala,oozie等

    • Sprak内存计算体系

        —Spark core,Spark Sql,sprak streaming,Scala语言

    • 机器学习

        —R语言,Python机器学习,Spark MLlib

  • 相关阅读:
    蓝牙遥控小车设计(二)——车体搭建和利用串口遥控小车
    WIN7下使用sublime text3替代arduino IDE(安装方法和所遇到的问题)
    在使用Arduino中遇到的问题(无法使用中文注释、程序无法下载)
    python 任务调度模块sched
    使用__all__限制模块可被导入对象
    python判断任务是CPU密集型还是IO密集型
    使用__slots__限制实例的属性
    使用装饰器获取被调用函数的执行的时间
    python上下文管理器
    http协议以及http1.0和http1.1的区别
  • 原文地址:https://www.cnblogs.com/zqfdgzrc/p/10498397.html
Copyright © 2020-2023  润新知