作为刚入门的小白,刚刚以实验出真理的心态抱着大腿完成了一次图像分类达到top1-96的宝贵经历。
以下是对于前辈讲座理解以及这次实践后理解心得:
机器学习是什么?
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验(训练)自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
机器学习是机器能通过分析寻找有监督或者无监督数据(数据集)的特征与模式,对未知的数据进行预测,并达到一一定准确率!
深度学习是什么?
是机器学习的一个分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
深度学习能够自动寻找特征,避免手工提取特征的麻烦。
深度学习模型结构复杂,计算时间长。
深度学习在有大量数据的背景下表现比常见机器学习算法好,但数据量小的时候不建议使用。
深度学习为黑盒,可解释性很差。
首先,正常情况,先看一两本机器学习的书籍。比如西瓜书,或者集体智慧编程之类的算法入门。
了解一些算法原理:
聚类算法(k-means, k-means++, 层次聚类, 谱聚类)
分类算法(感知机, logstic回归 ,SVM)
回归算法(线性回归,神经网络)
集成学习(随机森林)
评估指标(准确率,召回率)
另外,必须有一定的数学基础:
- 微积分(多元微分,梯度,拉格朗日)
- 线性代数(矩阵奇异值分解,特征矩阵)
- 概率论(贝叶斯,条件概率,联合概率分布)
再者,还要有编程基础:
熟练使用Python
最好对C++,C也熟练使用(经常用这俩为运行缓慢的C写接口)
对大数据平台(Spark, Hive, Hadoop)有兴趣的需要学习Java
对Numpy, Pandas, Scikit-learn等包熟练使用(调包侠的基本素养)
最后,数据是王道,无数次调整参数,实践出真知。
对于数据来说,大部分实验室都得有自己的特色数据,企业不仅需要买数据,跟地方合作采数据,还有完整的标注团队。所以数据是王道。
对于个人,通过无数次调参实验,解决过程中实践反馈的问题。当自己有想法,再去实践,看能不能达到自己的预期。