数据科学是一个大领域,如果你想成为一个优秀的数据专家,自学是必要的技能。
MOOCs是数据科学的主要来源。有许多网站提供了 MOOCs,比如Coursera、Coursera和Udacity都还不错。无论您的语言是R、python、Java还是c/c++,MOOCs都有涵盖。
如果你是一个初学者,并且了解数据科学到底是什么,或者你成为下一个前沿领域的专家。
这里提供几个公开课列表,您可以根据自己的情况去学习。
关于这些课程资源的一些的指导说明:
-
你需要考虑到需要的条件,决定所需的学时和持续时间看是否适合自己。
-
所有的课程是基于你了解统计学的。
-
课程安排是w.r.t.的专业水平,即初级课程安排在专家级课程前面。
-
在课程中可能涉及到编程语言,软件工具等。
The Analytics Edge (麻省理工学院)
水平: Beginners-Expert
学时: 10 - 15小时/周
状态: Archived
持续时间: 12周
需要的条件: 无
工具: R
这是用R来学习数据分析的最好课程。课程提供基于一些业务案例的专题和大量的练习。
这个课程对学习时间要求很严格,但是绝对值得。
案例包括《点球成金》、eHarmony、弗雷明汉心脏研究,Twitter,IBM Watson和Netflix。
通过这些例子,我们会教你以下分析方法:线性回归,逻辑回归,各种树、文本分析、集群化、可视化和优化组合。
机器学习 (斯坦福大学)
水平: Beginners-Expert
学时: 7 - 12小时/周
状态: On-demand
持续时间: 11周
需要的条件: 编程
工具: Octave
当你在网络上接触关于机器学习的课程,一定有这个课程视频。它由机器学习领域最好的教授之一Andrew Ng.讲授,完整的课程涵盖了所有机器学习的核心概念。
包括:
(1)监督学习(参数或非参数算法,支持向量机,内核,神经网络)。
(2)无监督学习(集群、降维、推荐系统、深入学习)。
(3) 机器学习的最佳实践(偏差/方差理论,在机器学习和人工智能方面的创新过程)。
数据科学和机器学习要领(微软)
Data Science and Machine Learning Essentials
水平: Beginners-Intermediate
学时: 3 - 4小时/周
状态: On-demand
持续时间: 5周
需要的条件: 无
工具: R
这个课程是MIT专家和微软合作的,帮你学习数据科学以更好地应用于职场。
本课程结束时,你就会知道如何用数据科学和机器学习模型来构建和获得见解。
你将通过Azure 机器学习, R & Python来构建一个云数据解决方案的案例来学习数据采集、准备、探索和可视化方面的关键概念
数据库 (斯坦福大学)
水平: 初学者
学时: 8 - 10小时/周
状态:Self-paced
持续时间: 10周
需要的条件: 无
工具: SQL、XML查询
如果你要处理数据,数据库是不可避免的。
本课程涵盖了数据库设计和数据库管理系统应用程序的使用。
它包括广泛覆盖的关系模型,包含XML数据,DTDs模板、XML模板的内容,同时包含查询和转换语言XPath,Xquery和XSLT的内容。
课程包括UML中的数据库设计,基于依赖关系和正常形式的相关设计原则。
编码矩阵:线性代数在计算机科学的应用 (布朗大学)
Coding the Matrix: Linear Algebra through Computer Science Applications
水平: Beginner-Intermediate
学时: 10 - 14小时/周
状态: Archived
持续时间: 10周
需要的条件: 无
工具: Python
线性代数不仅是计算机科学的重要组成,而且机器学习、图形和统计数据都需要。
这是一个杰出的课程,将指导你完成真正的案例和python任务。
你需要编写程序实现基本矩阵和向量的功能和算法,并使用这些实现任务:二维图形变换、脸变形、人脸检测、图像转换、模糊和边缘检测、图像视角移除、分类肿瘤恶性或良性、整数分解、纠错编码和秘密共享。
另一个更基础的课程是德克萨斯奥斯丁大学的LAFF。
学习数据 (加州理工学院)
水平: Intermediate-Expert
学时: 10 - 14小时/周
状态: Archived
持续时间: 10周
需要的条件: 概率矩阵,微积分
工具: 没有限制
对机器学习爱好者来说这是有史以来最好的公开课。
这是机器的学习入门课程(ML),覆盖基本理论、算法和应用程序,但是需要一个有良好的线性代数,微积分和概率背景以及编程技能。
教授这门课的是Yaser S.Abu-Mostafa ,他是加州理工学院电气工程和计算机科学教授,不仅是亚马逊里机器学习的畅销书的作者,也是一个会简化学习方法的教授。
CSCI E-109 Data Science(哈佛扩展学校)
水平: Beginners-Expert
学时: 7 - 12小时/周
状态: Archived
持续时间: 16周
需要的条件: 无
工具: Python,d3
非常优秀的课程。
本课程介绍五个关键方面的调查方法:
通过data wrangling,清洗和采样得到合适的数据集;
数据管理能够快速、可靠访问大数据;
探索性数据分析生成假说;
基于统计方法如回归和分类来预测;
通过可视化、故事和易理解的总结来和他人沟通。
数据科学概论 (华盛顿大学)
水平: Beginner-Intermediate
学时: 10 - 14小时/周
状态: Archived
持续时间: 10周
需要的条件: 编程
工具: Python,R,SQL
介绍数据科学的基础知识,通过实践经验从大数据中提取价值。
本课程教你一些数据科学的基本技术,包括SQL和NoSQL大规模数据管理解决方案(例如 MapReduce和时代),数据挖掘算法(如聚类和关联规则挖掘)和基本统计建模(例如线性和非线性回归)。
网络、人群和市场 (康奈尔大学)
水平: Beginners-Expert
学时: 4 - 8小时/周
状态: Archived
持续时间: 10周
需要的条件: 无
工具: 无
这项课程将通过研究社会、经济和技术在世界上是如何连接的基本问题的探索现代生活的相互联系。
学生将探索博弈论,互联网结构,社会传播,社会力量传播的普及,信息瀑布。
链接分析的另一个重要的知识来源是SNAP。
数据分析: Take It to the MAX() (DelftX)
Data Analysis: Take It to the MAX()
水平: Intermediate
学时: 4 - 6小时/周
状态: On-demand
持续时间: 8周
需要的条件:基本的电子表格。
工具: MS-excel,python
即使在大数据时代,有大量的数据分析师还是严重依赖于电子表格收集意见。
对于那些想要使用excel增强分析能力的人这是一个优秀的课程。
你将深入探究电子表格数据分析:数据透视表,VLOOKUPS,Named ranges,what-if分析,并做出图形——这些将在第一周的课程中讲授。
之后,你将学习的电子表格模型的质量,尤其是如何确保您的电子表格保持无差错和强大。
最后,你还需要学习Python编程语言,帮助我们分析和操作电子表格中的数据。