1汽油性能
- 必须在寒冷时容易启动,升温迅速且在大多数情况下运行平稳
- 价格经济型,污染排放低
- 不会对发动机沉淀或者腐蚀燃料系统
燃料性能的一个重要指标是抗爆性质,指的是防止燃料在发动机中的不正常燃烧,这是会产生砰砰的声音。发动机的抗爆性能也同等重要。辛烷值是一种衡量汽油抗爆性能的一个重要参数。辛烷值是辛烷在异辛烷庚烷混合物体积中的百分比。举例来说,体积为90%的异辛烷和10%的庚烷等同于汽油的抗爆性质,则该汽油的辛烷值(RON)为90
发动机长时间或严重爆震会导致动力丧失、发动机内部过热甚至损毁发动机。爆震的发生是因为汽油的抗爆性能低于实际情况对发动机的要求。一般发生在特殊情况,例如猛烈加速或者爬坡时。
利用增加压缩比提高发动机效率的方法受制于汽油的辛烷品质。加铅汽油可以增加压缩比,但是加铅会造成环境污染,所以全球范围内逐渐淘汰了含铅燃料。
生产汽油的炼油过程决定了汽油混合物的组分数量和质量,炼油厂采用的原料也会对汽油质量和辛烷值产生影响。在某些汽油生产过程中,减少含硫量也会减少汽油辛烷值。而含铅添加剂的禁止使用迫使炼油厂寻找替代产品维持汽油辛烷值。例如催化裂解、重整和烷基化等工艺被开发出来,提高了汽油和辛烷值混合物的产量。
参考:http://www.acfa.org.sg/newsletters/acfa1008c.pdf
特征工程是数据分析中最耗时间和精力的一部分工作。更多的是工程上的经验和权衡。
- 选择合适的特征
像专家咨询哪些因素会对最终结果产生较大和较小的影响,这邪恶特征就是我们的特征的第一候选集。
这个特征集合有可能会很大,在尝试降维前,我们要使用特征工程的方法去选择出较为重要的特征集合。这步方法仅仅是统计学上的方法。
最简单的是方差筛选。方差较大的特征,我们认为它是比较有用的,如果方差较小,比如小于1,那么可能这个特征对我们的算法没有太多的作用。在实际应用中,我们会指定一个方差的阈值,当方差小于这个阈值的特征会被我们筛选。
具体的特征选择方法有很多,一般分为三类:第一类过滤法比较简单,它按照特征的发散性或者相关性指标对各个特征进行评分,设定评分阈值或者待选择阈值的个数,选择适合的特征。第二种是包装法,根据目标函数,通常是预测效果评分,每次选择部分特征,或者排除部分特征。第三类为嵌入法,它使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数大小来选择特征,类似于过滤法,但是他是通过机器学习训练确定特征的优劣而不是直接从特征的一些统计学指标来确定特征的优劣。
1.1 过滤法选择特征
上面有一个使用特征的方差来过滤特征,除了特征的方差这一种方法,还有一些其他的统计学指标可以使用。比如说,相关系数,这个主要用于连续纸的监督学习算法中,我们分别计算所有训练集中各个特征与输出值之间的相关系数,设定一个阈值,选择相关系数较大的部分的特征。第三个可以使用的是假设检验,比如卡方检验,卡方检验检验某个特征分布和输出值分布的相关性,这个可能比方差更好,我们可以给定卡方阈值,选择卡方值较大的部分的特征。
除了卡方检验,我们还可以使用f检验和t检验,他们都是使用假设检验的方法。第四个是互信息,即从信息熵的角度分析各个特征和输出值之间的关系评分。互信息也就是信息增益。互信息值越大,说明该特征值和输出值之间的相关性就越大,越需要保留。
1.2 包装法选择特征
包装法的解决思路没有过滤法那么直接,他会选择一个目标函数来一步步的筛选特征。
最常用的包装法是递归消除特征法(recursive feature elimination RFE)递归消除特征法是使用一个机器学习模型来进行多轮训练,每轮训练后,消除若干权值系数的对应的特征,在基于新的特征集进行下一轮训练。
1.3 嵌入法选择特征
嵌入法也是用于机器学习的方法来选择特征,但是他和RFE的区别是它不是通过不停的筛掉特征来进行训练的,而是使用的都是特征全集。
最常用的是L1和L2正则化来选择特征。正则化惩罚项越大,那么模型的系数就会越小。当正则化惩罚项大到一定程度的时候,部分特征系数就会变为0,当正则化惩罚项继续增大到一定程度时,所有特征系数都会趋向0,但是我们会发现一些特征系数时会更容易先变成0,这部分系数就是可以被删掉的,也就是说我们选择特征系数较大的特征。