• logistic原理与实践


    逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,得到的是0~1之间的概率分布.自变量范围是,值域范围限制在0~1之间.在搜索广告、信息处理和生物统计中有广泛的应用.例如搜索广告的点击率预估,将影响概率预测的各种信息作为变量,比如广告的位置、广告和搜索词的相关性、广告展示的时间(比如晚上广告的点击率会略高于下午)

     

    优缺点:

    优点:

    1)容易使用和解释,实用价值高的常用市场预测方法;

    2)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;

    3)可以适用于连续性和类别性自变量;

    缺点:

    1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转.​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

    2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感.导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值.

    ###########################R语言################################

    index <- which(iris$Species == 'setosa')

    ir <- iris[- index,]

    levels(ir$Species)[1] <- ''

    split <- sample(100,100*(2/3))

    #生成训练集

    ir_train <- ir[split,]

    #生成测试集

    ir_test <- ir[-split,]

    fit <- glm(Species ~.,family=binomial(link='logit'),data=ir_train)

    summary(fit)

    real <- ir_test$Species

    predict <- predict(fit,type='response',newdata=ir_test)

    data.frame(real,predict)

    res <- data.frame(real,predict =ifelse(predict>0.5,'virginca','versicorlor'))

    #查看模型效果

    #################################Matlab#######################################

    data = importdata('somelab.xlsx');
    x(:,1:4) = data.data.Sheet1(:,1:4);
    y(:,1) = data.data.Sheet1(:,7);
    a =glmfit(x(1:80,1:4),y(1:80,1),'binomial', 'link', 'logit');
    logitFit = glmval(b,x(80:100,1:4), 'logit');

    ###############################Weka##########################################

    Funtion:

    Logistic

    SimpleLogistic

     

  • 相关阅读:
    Linux安装.net core
    在IIS中如何配置SSL(https)
    Lambda的前世今生
    Java建造者模式
    leetcode 83 Remove Duplicates from Sorted List
    【设计】Office
    【设计】简书品牌重构
    【设计总结】
    【交互设计】
    【设计总结】
  • 原文地址:https://www.cnblogs.com/dudumiaomiao/p/5946767.html
Copyright © 2020-2023  润新知