【第一课】kaggle初识

Evernote Export

Crowdflower搜索结果相关性

文件和数据描述
train.csv训练数据集包括：

id：产品ID查询：使用的搜索词
product_description：完整的产品说明以及HTML格式标记
median_relevance：3个评分者的中位数相关性得分。该值是1到4之间的整数。
relevant_variance：评分者给出的相关性分数的变化。

测试集 test.csv

id：产品ID查询：使用的搜索词
product_description：完整的产品说明以及HTML格式标记
sampleSubmission.csv
格式正确的示例提交文件允许使用外部数据，例如词典，词库，语言语料库。但是，它们不得与此特定数据集直接相关。必须将您的外部数据来源发布到论坛，以确保社区中所有参与者的公平性。

package	model	model_select	feature	weighting
XGBoost	gblinear	MSE	High/Low	Yes
XGBoost	gblinear	COCR	High/Low	Yes
XGBoost	gblinear	Softmax	High/Low	Yes
XGBoost	gblinear	Softkappa	High/Low	Yes
XGBoost	gbtree	MSE	Low	Yes
XGBoost	gbtree	COCR	Low	Yes
XGBoost	gbtree	Softmax	Low	Yes
XGBoost	gbtree	Softkappa	Low	Yes
Sklearn	GradientBoostingRegressor		Low	Yes
Sklearn	ExtraTreeRegressor		Low	Yes
Sklearn	RandomForestRegressor		Low	Yes
Sklearn	SVR		Low	Yes
Sklearn	Ridge		High/Low	No
Sklearn	Lasso		High/Low	No
Sklearn	LogisticRegression		High/Low	No
Keras	NN Regression		Low	No
RGF	Regression		Low	No

集成学习

**集成学习：**是目前机器学习的一大热门方向，所谓集成学习简单理解就是指采用多个分类器对数据进行预测，从而提高整体分类器的泛化能力
三种常见框架：bagging、boosting、stacking
bagging：决定用某一种类型的分类器的时候，通过抽样的方法抽样出不同的子训练集(自助抽样)
boosting：选择基模型数据集，由基模型(弱模型)等根据权重的方式集成为强模型
stacking：堆叠集成学习方式，底层基模型不断训练给上层的模型进行预测

集成模型的选择

Bias 方差与偏差
岭回归是有偏的，但是方差结果显示更好
bagging公式

E(F)=γ⋅i∑mE(fi)=σ2∗ρ+mσ2∗(1−ρ)

boosting的偏差与方差

E(F)=γ⋅i∑mE(fi)=m2∗γ2∗σ2

支持向量机回归(SVR)

数据预处理的步骤

1.剔除HTML标签

通过bs4库提取HTML中的文本信息
2.单词替换
拼写错误修正
同义词替换
其他单词替换
3.词干化

特征提取

1.词频数目统计

词出现次数
2.距离特征统计
分词后之间的距离，查询关键词和产品描述之间的距离，分组距离、统计量等
3.术语频率和逆文档频率统计
tf-idf 自然语言处理的方面应用的词向量
4.id统计
查询id热编码操作
query的独热编码 独热编码
独热编码：即 One-Hot编码，又称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效

自然状态码：000,001,010,011,100,101
独热编码：000001,000010,000100,001000,010000,100000
距离特征:Jaccard coeffcient JaccardCoef(A,B)=∣A⋃B∣∣A⋂B∣
Dice distance DiceDist(A,B)=∣A∣+∣B∣2∣A⋂B∣
基本距离特征：

D(ngram(qi,n),ngram(ti,n))

D(ngram(qi,n),ngram(di,n))

D(ngram(ti,n),ngram(ti,n))

距离特征

统计距离特征
1.根据查询或者其他中位数等进行分组
Gr=i∣ri=r
Gq,r=i∣qi=q,ri=r
其中qϵqirϵ1,2,3,4
2.对于每一个样本计算一堆距离
Si,r,n=D(ngram(ti,n),ngram(tj,n)∣jϵGr,j̸=i)
SQi,r,n=D(ngram(ti,n),ngram(tj,n)∣jϵGq,r,j̸=i)
其中 rϵ1,2,3,4D(−,−)ϵJaccardCoef(−,−),DiceDist(−,−)
3.对于Si,r,n和SQi,r,n来说需要计算的值有
最小值
中位数(2分位)
最大值
平均值
标准差
其他评估标准

TF-IDF特征

基本TF-IDF特征
- TF-IDF

Win a contest, win a challenge

相关阅读:
是什么阻止你达成人生的目标？
安装cocoa pods
Mac安装mysql
Mac安装jee开发环境，webservice环境搭建
Mac使用Github
从一个app开始学iOS
Macbook Pro开机黑屏了。
U盘安装OSX
数据分析有时候的结果并不令人满意
vmvare fusion 8

原文地址：https://www.cnblogs.com/pandaboy1123/p/10365235.html