唐宇迪,计算机专业博士,网易云课堂人工智能认证行家,51CTO学院讲师,CSDN博客专家、讲师。拥有多年人工智能领域培训经验,带领课程研发团队累计开发AI课程60余门,覆盖当下人工智能热门领域
该书结合了机器学习、数据分析和 Python 语言,通过案例以通俗易懂的方式讲解了如何将算法应用到实际任务。 全书共 20 章,大致分为 4 个部分。第一部分介绍了 Python 的工具包,包括科学计算库 Numpy、数据分析库 Pandas、可视化库 Matplotlib;第 2 部分讲解了机器学习中的经典算法,例如回归算法、决策树、集成算法、支持向量机、聚类算法等;第 3 部分介绍了深度学习中的常用算法,包括神经网络、卷积神经网络、递归神经网络;第 4 部分是项目实战,基于真实数据集,将算法模型应用到实际业务中。
该书适合对人工智能、机器学习、数据分析等方向感兴趣的初学者和爱好者。
该书的推荐学习路线图:
《Python数据分析与机器学习实战-唐宇迪》读书笔记第1 章--机器学习概念、入门环境
1.1机器学习的应用领域:
2、机器学习流程:
一般来说,机器学习流程大致分为以下几步:
第①步:数据收集与预处理。例如,新闻中会掺杂很多特殊字符和广告等无关因素,要先把这些剔除掉。除此之外,可能还会用到对文章进行分词、提取关键词等操作,这些在后续案例中会进行详细分析。
第②步:特征工程,也叫作特征抽取。例如,有一段新闻,描述“科比职业生涯画上圆满句号,今天正式退役了”。显然这是一篇与体育相关的新闻,但是计算机可不认识科比,所以还需要将人能读懂的字符转换成计算机能识别的数值。这一步看起来容易,做起来就非常难了,如何构造合适的输入特征也是机器学习中非常重要的一部分。
第③步:模型构建。这一步只要训练一个分类器即可,当然,建模过程中还会涉及很多调参工作,随便建立一个差不多的模型很容易,但是想要将模型做得完美还需要大量的实验。
第④步:评估与预测。最后,模型构建完成就可以进行判断预测,一篇文章经过预处理再被传入模型中,机器就会告诉我们按照它所学数据得出的是什么结果。
1.3环境配置:
1)推荐下载Anaconda集成环境。
下载对应版本安装即可。集成jupyter notebook、spyder等。注意修改为清华的镜像,参考:https://www.cnblogs.com/downmoon/p/12447551.html
不过,邀月个人还是钟爱Eclipse,毕竟多开发语言环境。
如果还有个别包无法使用pip install,可以在这里尝试下载whl。https://www.lfd.uci.edu/~gohlke/pythonlibs/
2)jupyter notebook
一个非常适合教学的工具。
如果安装或配置方面有什么问题,可以参考这里:https://www.cnblogs.com/downmoon/p/12598135.html
1.4其他资源 :
Github:https://github.com/
GitHub提供了非常丰富的开源项目和代码。
kaggle社区:https://www.kaggle.com/
其内容都是和数据科学相关的,大家可以把它当成一个竞赛站点,不仅包括各行各业的数据集,而且还有各路大神的解决方案。
本章小结:本章从整体上介绍了Python和机器学习的学习路线,该书所使用的环境只需一个Anaconda即可搞定。
第1章完。
该书资源下载,请至异步社区:https://www.epubit.com