Evernote Export
Crowdflower搜索结果相关性
文件和数据描述
train.csv训练数据集包括:
- id:产品ID查询:使用的搜索词
- product_description:完整的产品说明以及HTML格式标记
- median_relevance:3个评分者的中位数相关性得分。该值是1到4之间的整数。
- relevant_variance:评分者给出的相关性分数的变化。
测试集 test.csv
- id:产品ID查询:使用的搜索词
- product_description:完整的产品说明以及HTML格式标记
sampleSubmission.csv - 格式正确的示例提交文件允许使用外部数据,例如词典,词库,语言语料库。但是,它们不得与此特定数据集直接相关。必须将您的外部数据来源发布到论坛,以确保社区中所有参与者的公平性。
package | model | model_select | feature | weighting |
---|---|---|---|---|
XGBoost | gblinear | MSE | High/Low | Yes |
XGBoost | gblinear | COCR | High/Low | Yes |
XGBoost | gblinear | Softmax | High/Low | Yes |
XGBoost | gblinear | Softkappa | High/Low | Yes |
XGBoost | gbtree | MSE | Low | Yes |
XGBoost | gbtree | COCR | Low | Yes |
XGBoost | gbtree | Softmax | Low | Yes |
XGBoost | gbtree | Softkappa | Low | Yes |
Sklearn | GradientBoostingRegressor | Low | Yes | |
Sklearn | ExtraTreeRegressor | Low | Yes | |
Sklearn | RandomForestRegressor | Low | Yes | |
Sklearn | SVR | Low | Yes | |
Sklearn | Ridge | High/Low | No | |
Sklearn | Lasso | High/Low | No | |
Sklearn | LogisticRegression | High/Low | No | |
Keras | NN Regression | Low | No | |
RGF | Regression | Low | No |
集成学习
**集成学习:**是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据进行预测,从而提高整体分类器的泛化能力
三种常见框架:bagging、boosting、stacking
bagging:决定用某一种类型的分类器的时候,通过抽样的方法抽样出不同的子训练集(自助抽样)
boosting:选择基模型数据集,由基模型(弱模型)等根据权重的方式集成为强模型
stacking:堆叠集成学习方式,底层基模型不断训练给上层的模型进行预测
集成模型的选择
Bias 方差与偏差
岭回归是有偏的,但是方差结果显示更好
bagging公式
E(F)=γ⋅i∑mE(fi)=σ2∗ρ+mσ2∗(1−ρ)
boosting的偏差与方差
E(F)=γ⋅i∑mE(fi)=m2∗γ2∗σ2
支持向量机回归(SVR)
数据预处理的步骤
1.剔除HTML标签
- 通过bs4库提取HTML中的文本信息
2.单词替换 - 拼写错误修正
- 同义词替换
- 其他单词替换
3.词干化
特征提取
1.词频数目统计
- 词出现次数
2.距离特征统计 - 分词后之间的距离,查询关键词和产品描述之间的距离,分组距离、统计量等
3.术语频率和逆文档频率统计 - tf-idf 自然语言处理的方面应用的词向量
4.id统计 - 查询id热编码操作
- query的独热编码 独热编码
独热编码:即 One-Hot编码,又称为一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效
自然状态码:000,001,010,011,100,101
独热编码:000001,000010,000100,001000,010000,100000
距离特征:Jaccard coeffcient JaccardCoef(A,B)=∣A⋃B∣∣A⋂B∣
Dice distance DiceDist(A,B)=∣A∣+∣B∣2∣A⋂B∣
基本距离特征:
- D(ngram(qi,n),ngram(ti,n))
- D(ngram(qi,n),ngram(di,n))
- D(ngram(ti,n),ngram(ti,n))
距离特征
-
统计距离特征
-
1.根据查询或者其他中位数等进行分组
-
Gr=i∣ri=r
-
Gq,r=i∣qi=q,ri=r
其中qϵqirϵ1,2,3,4 -
2.对于每一个样本计算一堆距离
-
Si,r,n=D(ngram(ti,n),ngram(tj,n)∣jϵGr,j̸=i)
-
SQi,r,n=D(ngram(ti,n),ngram(tj,n)∣jϵGq,r,j̸=i)
其中 rϵ1,2,3,4D(−,−)ϵJaccardCoef(−,−),DiceDist(−,−) -
3.对于Si,r,n和SQi,r,n来说需要计算的值有
-
最小值
-
中位数(2分位)
-
最大值
-
平均值
-
标准差
-
其他评估标准
TF-IDF特征
- 基本TF-IDF特征
- TF-IDF