很久没有更新图形图像处理方面的博客了,最近在培训数据发掘方面的技术,就把学到的东西和大家分享下。
1. 压箱底的资料
还有一些平时收集 的压箱底的资料拿出来和大家分享下:
IPOL —-经典计算机视觉算法的c实现
http://www.ipol.im/?utm_source=doi
https://www.codecademy.com/ —-编程语言自学成才
我的python就是在这个网站自学的,基本上把python的基本数据结构,list,dist等等介绍了一遍,只要一周左右甚至更短的时间就可以基本掌握一门全新的语言
在线处理网站
如果没有visio这是最好的选择!
一些大牛的博客
刘未鹏
http://mindhacks.cn/
http://mindhacks.cn/2011/11/04/how-to-interview-a-person-for-two-years/
http://mindhacks.cn/2012/08/27/modern-cpp-practices/
写技术博客的选择
在csdn耕耘了8年有余,一直很喜欢这里,然而不知道为何身边的朋友高手就是github,stackoverflow
后面我也准备尝试一些其他的平台
- 知乎:https://www.zhihu.com/people/wynshiter/activities
- https://cn.wordpress.org/
- 简书:
- https://pages.github.com/
2. Transwarp 机器学习培训
转型机器学习方向的过程是痛苦的。最近在上海花了一周时间参加transwarp的数据分析师培训,这是我时隔7年之后再次踏上魔都的土地。上次来这里还是7年前来看上海世博会,不同的是此处上海之行是由北京启程。我乘坐的是最早一班复兴号列车,由于很多外国人都在新奇 的拍照,这一路风驰电掣的路过祖国的大好河山,让我也怀揣着满满的民族自豪感惊异于祖国 的发展速度。2010年那会来上海一趟多难呀,尤其要买个卧铺,真是难上加难。
非常感谢单位领导给予的宝贵培训机会,之前说实话并未有全面系统的学过机器学习内容。但最重要的还是不知道:真实,工业级,业务上究竟怎么开展机器学习与业务的结合工作。这次培训基本给了我答案。transwarp 通过
推荐其支持托拉拽的机器学习产品sophon,让我直观的感受了整套机器学习工具平台的使用过程,以及机器学习模型的建模套路。其中之前我一直不太注重的有以下两点:
1.特征工程,归一化,字符串索引
2.评价指标,roc,方差和等
机器学习的算法
到底如何衡量业务是否需要机器学习?
- 业务问题是否适用机器学习算法?
- 如何选择模型
- 设计开发节奏
- 最终产品的检验
完整的数据发掘建模流程
特征工程
特征工程是机器学习的决定性因素,是机器学习成功的关键
“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”
纵观Kaggle、KDD,阿里天池等国内外大大小小的比赛,每个竞赛的冠军其实
并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,
然后使用一些常见的算法,比如Linear Regression(线性回归),就能得到出色的
性能。
领域特定知识( domain specific knowledge),
最近还看到公众号上面一些好的文章,整取领悟以后分享出来
可视化托拉拽机器学习产品
KNIME https://www.knime.com/
对于机器学习和数据科学的初学者来说,最大的挑战之一是需要同时学习太多知识,特别是如果你不知道如何编码。你需要快速地适应线性代数、统计以及其他数学概念,并学习如何编码它们,对于新用户来说,这可能会有点难以承受。
如果你没有编码的背景并且发现很难学习下去,这时你可以用一个GUI驱动的工具来学习数据科学。当你刚开始学习的时候,可以集中精力学习实际的项目。一旦适应了基本的概念,你就可以在以后慢慢学习如何编写代码。
在今天的文章中,我将介绍一个基于GUI的工具:KNIME
sophon
星环还通过Transwarp Sophon来帮助数据工程师开发数据挖掘的应用。Sophon提供了可视化界面工具Midas 用于创建模型,用户只需通过拖拽数据源对象和运算符就能完成模型设计,然后将设计的模型在TDH集群上训 练或预测分析。
此外,Sophon还整合了深度学习框架Tensorflow,使用户可以通过拖拽生成各种神经网络模型,灵活调参和训练,将大数据和人工智能结合起来推动业务创新。
未完待续。。。。