• 错题集锦(三)


    错题集锦(三)

    标签(空格分隔): 找工作


    模式分类相关

    1. 什么是判决函数,什么是判决面?
    • 对特征点进行分类的界面就是判决面;
    • 分类界面的函数就是判决函数。
    1. 后验概率p(y|x)与贝叶斯公式的关系,使用后验概率、贝叶斯决策的先决条件?
    • 类别的经验分布概率即先验概率p(y);
    • 条件概率已知或者可计算即p(x|y=i);
    1. 概率、统计与机器学习的关系?
    • 概率论及其分布函数特性是理论基础;
    • 统计是应用,利用样本统计量来估计概率模型中的参数,而后进一步获得更有用的统计数据;
    • 统计是机器学习中统计判决部分的理论依据。

    贝叶斯学习

    • 两个前提条件:
    1. 类别,已知类别的个数以及每个类别的概率,即先验概率p(y);
    2. 特征数据在各个类别中的分布,及条件概率p(x|y).
    • 要解决的问题:
    1. 已知:测试数据,训练数据和类别;
    2. 求:分类超平面或者测试数据的分类。
    • p(y)是否已知呢?
    1. p(y)已知。直接使用贝叶斯公式即可;
    2. p(y)未知。但一种类别的错误率已知,求另外一个类别的错误率,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

    线性分类器

    线性分类器有三大类:感知机准则函数,SVM、Fisher准则。贝叶斯分类器不是线性分类器!

    • 感知机准则:(h(x) = sign(w^{T}x)),分类的准则是最小化代价函数,是神经网络的基础。
    • SVM:由感知机演化而来,目标是最大化margin,是一种典型的线性分类器。(用核函数来解决非线性可分问题);
    • Fisher准则:(LDA)将所有样本点映射到一条由原点出发的直线,使得同一类中样本距离尽可能小,不同类中样本距离尽可能大。
    • 贝叶斯分类器:一种基于统计方法的分类器,需要先了解样本的分布特点,在满足一定的条件时其优化目标与线性分类器有相同的结构,其余条件下不是线性分类。

    Hive

    • Hive使用类sql语句进行相关操作,称为HQL;
    • Hive构建在基于静态批处理的Hadoop之上,而Hadoop通常有较高的延迟在作业调度时需要大量的开销。所以Hive并不能在大规模数据集上实现低延迟快速的查询;
    • Hive的最佳使用场合是大数据集的批处理作业,如网络日志分析;
    • Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,然后返回作业结果给用户。

    Discriminative Mode & Generative Model

    判别式模型和生成式模型是怎么来的呢?
    在机器学习的过程中,归根结底我们要求的是后验概率(p(y|x)),也就是根据有限的训练样本集尽可能估计出后验概率——已知数据点的特征,求得它所属的类别。
    但是一般后验概率难以直接计算,大体来说,解决该类问题大体有两种策略:

    • 判别式模型:给定(x),可通过直接建模(p(c|x))来预测(c),这样的模型就是判别式模型.
      SVM, 决策树,BP神经网络,线性判别分析,线性回归,条件随机场
    • 产生式模型:先对联合概率分布(p(x, c))建模,然后再由此获得(p(c|x)),这样的模型是生成式模型
      GMM等混合模型,朴素贝叶斯,隐马尔科夫,马尔科夫随机场

    整数240共有多少个因数?

    (240 = 2^4 * 3 * 5)
    故因数2可能出现的次数有0,1,2,3,4,共5种可能;
    因数3出现的次数有0,1共2种可能;
    因数5出现的次数有0,1共2种可能。
    所以240的因数个数为:522 = 20种

    java concurrent包

    • Semaphore:类,控制某个资源可被访问的次数;
    • Future:接口,用于获取异步计算的结果;
    • ReentrantLock:类,具有与synchronized方法和语句所访问的隐式监视器锁相同的一些基本行为和语义,用于锁定线程;
    • CountDownLatch:类,可以用来在一个线程中等待多个线程完成任务的类。

    Linux chmod命令

    使用权限:所有使用者
    Linux档案调用分为三级:档案拥有者、群组、其他。

    • u 表示该档案的拥有者,g表示与该档案属于同一个群体者,o表示其他以外的人,a表示这三者都是;
    • + 表示增加权限,- 表示取消权限,=表示唯一设定权限;
    • r 可读,w 可写入,x 可修改;
    • chmod也可以用数字来表示权限,语法为:chmod abc file,其中abc各为一个数字,分别表示User,Group,及Other的权限;
    • r = 4, w = 2, x = 1;
      例:
      文件aaa的访问权限为rw-r--r--,先要增加所有用户的执行权限和同组用户的写权限,下列哪些命令是正确的?
      chmod a+x g+w aaa;
      chmod 775 aaa.

    常见数据库的类型

    MongoDB属于文档型非关系数据库;
    Redis属于K-V键值对数据库;
    HBase属于列数据库。

    MySQL主从复制

    • 基于日志(binlog)
    • master将数据改变记录到二进制日志(binary log)中,也就是配置文件log-bin置顶的文件;
    • slave将master的binary log events拷贝到它的中继日志(relay log)中;
    • slave重做中继日志中的时间,将改变反应它自己的数据。
    • 基于GTID(全局事务标示符)

    内存对齐

    计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值时某个数k(通常为4或8的倍数)。
    每个特定平台上的编译器都有自己的默认对齐系数(32位机器一般为4,64位机器一般为8)。我们可以通过预编译命令#program pack(k),k = 1,2,4,8,16.
    先局部对齐,然后再全局对齐。

    TCP/IP协议簇

    TCP,UDP属于传输层,ICMP,IP属于网络层协议,而ICMP主要用于在主机与路由器之间传递控制信息,包括报告错误、交换受限控制和状态信息等

    拥塞避免和慢启动

    当拥塞发生时(超时或收到重复确认),慢启动门限ssthresh被设置为当前拥塞窗口cwnd大小的一半。同时cwnd重置为1.新的数据被接收,则cwnd增加,规则为到达ssthresh之前,慢启动即swnd指数增长;到达ssthresh之后拥塞避免,即cwnd加1.
    例题:
    客户端c和服务器s之间建立一个TCP连接,该链接总是以1KB的最大段长发送TCP段,客户端C有足够的数据要发送。当拥塞窗口为16KB时发生超时,如果接下来的4个RTT往返时间内的TCP段的传输是成功的,那么当第4个RTT时间内发送的所有TCP段都得到了ACK时,拥塞窗口的大小为:9KB。
    解析:当拥塞窗口为16KB时,发生了超时,则慢启动门限ssthresh被设置为原来大小的一半,即8KB。
    而拥塞窗口swnd变为1KB,第一个RTT为1KB;第二个RTT变为2KB;第三个RTT变为4KB;第四个RTT变为8KB。这是慢启动阶段,指数增长。达到ssthresh=8KB后执行拥塞避免,cwnd+1变为9KB。

  • 相关阅读:
    ~随笔A016~分布式技术发展
    BoF图像检索
    立体匹配-----NCC视差匹配
    对极几何与基础矩阵
    相机标定
    图像的拼接----RANSAC算法
    SIFT特征提取与检索
    Harris角点检测
    Python---图像基础处理
    PSO算法
  • 原文地址:https://www.cnblogs.com/little-YTMM/p/5664617.html
Copyright © 2020-2023  润新知