• 吴恩达 机器学习 笔记 some tips on applying machine Learning



    1. to deal with underfitting

      增加feature的数目(通过feature的平方,立方项等增加feature或者增加其他的feature)

      减小λ的值


    2. to deal with overfitting

      找更多的训练样本

      减少feature的数目

      用regulation,增加λ的值θ

    3. evaluate hypothesis

      通过把数据分为,训练样本和测试样本,min J train(θ)得到θ的系数(利用training data),然后用testing data和已经得到的weights系数

      求J test(θ)的值,该值越小,说明hypothesis的拟合效果越好


    4. coss validation 主要是用来model selection(避免underfiting和overfitting)

                a.先通过把数据分为,training data ,cross validation data ,testing data

                b.用不同的model(hypothesis)+training data来min J train(θ)得到一组θ的值

                c.用cross validation data 和得到的θ求, J cv(θ),通过代价最小就可以选择model了

                d.用testing data来测试算法的准确率j test(θ)

    5. porter stemmer(将意思相近的单词归为同一类)

    6. 人工地查看错误的分类,然后根据这些再选择需要的feature(先选择quick and dirty的实现方法,再error analysis选择新的feature )

    7. precision and recall 

      背景:(例),例如判断病人患癌症为1,不患为0,一批训练样本中,只有0.5%患有癌症,如果根据样本训练出来的算法的准确率高达95%,但是,如果我们判断所有患者都有癌症,准确率高达99.5%(但这样肯定不是一个好的算法)

      所以我们除了关注准确率之外还要关注precision 和 recall

      根据 f score准则,选择precision recall合适的算法

      metric =2*Precision*Recall/(Precision+Recall)

  • 相关阅读:
    常用排序算法及java语言实现
    机器学习实战笔记(python3实现)01--概述
    笔试错题--(字符串常量池和JVM运行时数据区)
    笔试错题(典型题)
    java进阶--java网络编程
    01_Java基础_第1天(Java概述、环境变量、注释、关键字、标识符、常量)
    数据库3(DBUtils)
    数据库2(JDBC、DBUtils)
    数据库1(数据库、表及表数据、SQL语句)
    Linux的基本命令
  • 原文地址:https://www.cnblogs.com/OnMyWay321/p/5093858.html
Copyright © 2020-2023  润新知