• Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)


    Introduction to data management 

    整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等

    What is data management?

      

    Introduction to data model 

    什么是data model?

    三个aspects - Structure, Operations, Constrants

    四个基本 data operation - selection(filtering, 选满足条件的row or index), projection(选一部分field or column), union(求并集), join(见下图)  

      

      

    Constraints

    types of contraints:

      

      

      

      

     Differenet kinds of data models

    relational data model - DB

    simi-structured data model : xml, json 等树结构

    vector space model: 从text 和image 取数据. 除了讲vector model 还讲到了 similarity search

      TF - term frequency, term 出现的次数,是个绝对值

      IDF - inversed document frequency : log2(文档数n / term出现的次数 count), 比如下面出现的 单词new 的 IDF 是 log2(3/2)

      DF - 和 IDF 相反,就是 log2(term出现的次数  / count文档数n)

      

      tf-idf matrix 就是把 tf 和 idf 值 相乘得到的

       

        

      

      

    Graph data model 

    Graph data model 经常用来解决下面的问题

      

    转载请注明出处 http://www.cnblogs.com/mashuai-191/
  • 相关阅读:
    python基础7
    python基础7
    十大经典预测算法(一)----线性回归
    RNN-循环神经网络
    CNN之经典卷积网络框架原理
    卷积神经网络CNN
    决策树的生成
    欠拟合、过拟合及解决方法
    决策树
    KD树
  • 原文地址:https://www.cnblogs.com/mashuai-191/p/10102030.html
Copyright © 2020-2023  润新知