11-机器学习开发流程--初识

11-机器学习开发流程--初识

1.数据收集与存储

数据来源:

　　(1).用户访问行为数据

　　(2).业务数据

　　(3).外部第三方数据

数据存储:

　　(1).需要存储的数据:原始数据,预处理后数据,模型结果

　　(2).存储设施:mysql,HDFS,HBase,Solr,Elasticsearch,Kafka,Redis等

数据收集方式:

　　Flume & Kafka

#机器学习可用公开数据集

http://archive.ics.uci.edu/ml/datasets.html (里面的数据不需要进行特征工程)

https://tianchi.aliyun.com/datalab/index.html (需要做特征工程)

数据清洗和转换

实际生产环境中机器学习比较耗时的一部分

大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的数值表示

大部分的情况下,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分:

　　(1).数据过滤

　　(2).处理数据缺失

　　(3).处理可能的异常,错误或者异常值

　　(4).合并多个数据源数据

　　(5).数据汇总

(因为机器学习对数据的处理必须数据类型,故需要对数据进行处理)

对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型来说,这种表示就是包含数值数据的向量和矩阵

　　(1).将类别数据编码变为对应的数值表示(一般使用1-of-k方法)--dumy

　　(2).从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)

　　(3).处理图像或者音频数据(像素,声波,音频,振幅等<傅里叶变换>)

　　(4).数值数据转换为类别数据已减少变量的值,比如年龄分段

　　(5).对数值数据进行转换,比如对数转换

　　(6).对特征进行正则化,标准化,以保证同一模型的不同输入变量的值域相同

　　(7).对现有变量进行组合或转换以生成新特征,比如平均数(做虚拟变量)不断尝试
相关阅读:
chrome 连接池超时值
 chrome 内部设置
 error: incomplete type 'blink::Event' named in nested name specifier note: forward declaration of 'blink::Event'
js promise详解
 How Chromium Displays Web Pages
调试chromium设置 How to enable logging
禁止ultraedit域名
 chromium paint graphic
Web IDL in Blink
js的闭包
原文地址：https://www.cnblogs.com/lixiaohao1992/p/9485650.html