• 数据科学概述


    一、说在前面

      老师给找的课好久了一直没看,今天开始!

    二、笔记

      

    一、数据的特性
        广泛性
        多样性
            结构化数据
                关系数据
            非结构化数据80%以上
                网页
                文本
                图像
                视频
                语音
    二、数据科学的内涵
        1.用数据的方法研究科学
            生物信息学、天体信息学、地球科学等
            例:
                开普勒三大定律
        2.用科学的方法研究数据
            统计学、机器学习、数据挖掘、数据库
            常见的数据类型
                表格:最经典的数据
                点集:很多数据都可以看成是某种空间的点的集合
                时间序列:文本、通话和DNA序列等都可以看成是时间序列
                图像视频:可以看成两个变量的函数
                网页和报纸:每篇文章都可以看成是时间序列,整个网页和报纸又具有空间结构
                网络数据:网络数据本质上是图,由节点和联系节点的边构成
    
            注:数据分析的基本假设:观察到的数据都是由背后的一个模型产生
            
            数据分析的主要困难
                数据量大
                维数高(核心困难):模型复杂度和计算量随着维数的增加和指数增长
                    如何克服:
                        将模型限制在一个技校的特殊类里面    如线性模型
                        利用数据可能有的特殊结构(例如稀疏性    低维或低秩    光滑性等)通过正则化和降维来实现。
                类型复杂:表格、图像、文本、视频
                噪音大:数据在生成、采集、传输和处理等流程均可能引入噪音
    
            算法的重要性
                与模型相辅相成并在计算机上实现
                从算法角度看,处理大数据有两条思路
                    降低算法的复杂度:
                        如梯度下降
                    分布式计算:
                        把大问题分解成小问题,然后分而治之,如MapReduce框架
    
            机器学习
                机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
                机器学习是对能通过经验自动改进的计算机算法的研究。
                机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
  • 相关阅读:
    最佳调度问题_分支限界法
    运动员最佳配对问题
    最小重量机器设计问题
    实现银行家算法和先进先出算法_对文件读写数据
    n皇后问题_回溯法
    0-1背包_回溯法
    根据前序、中序、后序遍历还原二叉树
    矩阵连乘问题_动态规划
    最长公共子序列_动态规划
    最优二叉查找树_动态规划
  • 原文地址:https://www.cnblogs.com/suanai/p/14476390.html
Copyright © 2020-2023  润新知