错题集锦(三)
标签(空格分隔): 找工作
模式分类相关
- 什么是判决函数,什么是判决面?
- 对特征点进行分类的界面就是判决面;
- 分类界面的函数就是判决函数。
- 后验概率p(y|x)与贝叶斯公式的关系,使用后验概率、贝叶斯决策的先决条件?
- 类别的经验分布概率即先验概率p(y);
- 条件概率已知或者可计算即p(x|y=i);
- 概率、统计与机器学习的关系?
- 概率论及其分布函数特性是理论基础;
- 统计是应用,利用样本统计量来估计概率模型中的参数,而后进一步获得更有用的统计数据;
- 统计是机器学习中统计判决部分的理论依据。
贝叶斯学习
- 两个前提条件:
- 类别,已知类别的个数以及每个类别的概率,即先验概率p(y);
- 特征数据在各个类别中的分布,及条件概率p(x|y).
- 要解决的问题:
- 已知:测试数据,训练数据和类别;
- 求:分类超平面或者测试数据的分类。
- p(y)是否已知呢?
- p(y)已知。直接使用贝叶斯公式即可;
- p(y)未知。但一种类别的错误率已知,求另外一个类别的错误率,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
线性分类器
线性分类器有三大类:感知机准则函数,SVM、Fisher准则。贝叶斯分类器不是线性分类器!
- 感知机准则:(h(x) = sign(w^{T}x)),分类的准则是最小化代价函数,是神经网络的基础。
- SVM:由感知机演化而来,目标是最大化margin,是一种典型的线性分类器。(用核函数来解决非线性可分问题);
- Fisher准则:(LDA)将所有样本点映射到一条由原点出发的直线,使得同一类中样本距离尽可能小,不同类中样本距离尽可能大。
- 贝叶斯分类器:一种基于统计方法的分类器,需要先了解样本的分布特点,在满足一定的条件时其优化目标与线性分类器有相同的结构,其余条件下不是线性分类。
Hive
- Hive使用类sql语句进行相关操作,称为HQL;
- Hive构建在基于静态批处理的Hadoop之上,而Hadoop通常有较高的延迟在作业调度时需要大量的开销。所以Hive并不能在大规模数据集上实现低延迟快速的查询;
- Hive的最佳使用场合是大数据集的批处理作业,如网络日志分析;
- Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,然后返回作业结果给用户。
Discriminative Mode & Generative Model
判别式模型和生成式模型是怎么来的呢?
在机器学习的过程中,归根结底我们要求的是后验概率(p(y|x)),也就是根据有限的训练样本集尽可能估计出后验概率——已知数据点的特征,求得它所属的类别。
但是一般后验概率难以直接计算,大体来说,解决该类问题大体有两种策略:
- 判别式模型:给定(x),可通过直接建模(p(c|x))来预测(c),这样的模型就是判别式模型.
SVM, 决策树,BP神经网络,线性判别分析,线性回归,条件随机场 - 产生式模型:先对联合概率分布(p(x, c))建模,然后再由此获得(p(c|x)),这样的模型是生成式模型
GMM等混合模型,朴素贝叶斯,隐马尔科夫,马尔科夫随机场
整数240共有多少个因数?
(240 = 2^4 * 3 * 5)
故因数2可能出现的次数有0,1,2,3,4,共5种可能;
因数3出现的次数有0,1共2种可能;
因数5出现的次数有0,1共2种可能。
所以240的因数个数为:522 = 20种
java concurrent包
- Semaphore:类,控制某个资源可被访问的次数;
- Future:接口,用于获取异步计算的结果;
- ReentrantLock:类,具有与synchronized方法和语句所访问的隐式监视器锁相同的一些基本行为和语义,用于锁定线程;
- CountDownLatch:类,可以用来在一个线程中等待多个线程完成任务的类。
Linux chmod命令
使用权限:所有使用者
Linux档案调用分为三级:档案拥有者、群组、其他。
- u 表示该档案的拥有者,g表示与该档案属于同一个群体者,o表示其他以外的人,a表示这三者都是;
- + 表示增加权限,- 表示取消权限,=表示唯一设定权限;
- r 可读,w 可写入,x 可修改;
- chmod也可以用数字来表示权限,语法为:chmod abc file,其中abc各为一个数字,分别表示User,Group,及Other的权限;
- r = 4, w = 2, x = 1;
例:
文件aaa的访问权限为rw-r--r--,先要增加所有用户的执行权限和同组用户的写权限,下列哪些命令是正确的?
chmod a+x g+w aaa;
chmod 775 aaa.
常见数据库的类型
MongoDB属于文档型非关系数据库;
Redis属于K-V键值对数据库;
HBase属于列数据库。
MySQL主从复制
- 基于日志(binlog)
- master将数据改变记录到二进制日志(binary log)中,也就是配置文件log-bin置顶的文件;
- slave将master的binary log events拷贝到它的中继日志(relay log)中;
- slave重做中继日志中的时间,将改变反应它自己的数据。
- 基于GTID(全局事务标示符)
内存对齐
计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值时某个数k(通常为4或8的倍数)。
每个特定平台上的编译器都有自己的默认对齐系数(32位机器一般为4,64位机器一般为8)。我们可以通过预编译命令#program pack(k),k = 1,2,4,8,16.
先局部对齐,然后再全局对齐。
TCP/IP协议簇
TCP,UDP属于传输层,ICMP,IP属于网络层协议,而ICMP主要用于在主机与路由器之间传递控制信息,包括报告错误、交换受限控制和状态信息等
拥塞避免和慢启动
当拥塞发生时(超时或收到重复确认),慢启动门限ssthresh被设置为当前拥塞窗口cwnd大小的一半。同时cwnd重置为1.新的数据被接收,则cwnd增加,规则为到达ssthresh之前,慢启动即swnd指数增长;到达ssthresh之后拥塞避免,即cwnd加1.
例题:
客户端c和服务器s之间建立一个TCP连接,该链接总是以1KB的最大段长发送TCP段,客户端C有足够的数据要发送。当拥塞窗口为16KB时发生超时,如果接下来的4个RTT往返时间内的TCP段的传输是成功的,那么当第4个RTT时间内发送的所有TCP段都得到了ACK时,拥塞窗口的大小为:9KB。
解析:当拥塞窗口为16KB时,发生了超时,则慢启动门限ssthresh被设置为原来大小的一半,即8KB。
而拥塞窗口swnd变为1KB,第一个RTT为1KB;第二个RTT变为2KB;第三个RTT变为4KB;第四个RTT变为8KB。这是慢启动阶段,指数增长。达到ssthresh=8KB后执行拥塞避免,cwnd+1变为9KB。