文 | 帆软数据应用研究院 水手哥
更多大数据资讯和企业案例可关注 :知乎专栏《帆软数据应用研究院》
近日,Gartner公布了2017年度数据科学和机器学习领域的最酷供应商,清一色的美国厂商,但还是实至名归的。
何为“最酷供应商”?Gartner定义为具有以下技术或服务的小型公司,有三个评选维度:一是创新力,为用户带来前所未有的工作和生活方式。二是影响力,具有或即将具有商业影响力,而不仅仅是“一种技术”。三是吸引力,在过去6个月时间内引起了分析师的兴趣或好奇心。简而言之,所谓最酷供应商,即行业的明日之星。
一、评选背景
Gartner的2017年数据科学平台魔力象限调研数据显示,人才问题,即缺乏足够技能的用户仍然是数据科学计划中最突出的障碍,机器学习和其他高级分析技能的人才需求不能得到满足。调查中同样表明,R和Python语言依然是主流语言,但是Spark的应用比例较去年翻了一番,Scala也开始崭露头角。详见下图。
数据和分析领导者正在寻求新的方法,以更好地应用数据科学和机器学习,他们迫切需要将开源技术和新概念融入到复杂的企业环境中的软件产品,从而在数据科学中的那些广受推崇的技术中获得真正价值。所以,在今年Gartner围绕开源支持、解决人才危机和在数据科学前沿研究课题创新三个方面,评选出了4个最酷的供应商。
二、4个最酷供应商
1、Continuum Analytics(www.continuum.io)
为什么酷:如果有一个企业被认为是python成功的驱动力,那么它必须是Continuum Analytics。随着其Anaconda分布的Python库,Continuum是任何Python软件工程师所熟知的。Continuum Analytics正在通过数据科学平台扩大其企业产品。Anaconda集成了最好的开源Python库,使它们易于使用和维护。它还在Python开放源代码世界中建立了参考堆栈。它还提供了可视化功能(Bokeh),一个用于Python(Numba)的快速编译器和用于大数据科学工作负载(Dask)的并行化框架。
存在的挑战: Continuum Analytics通常为提供Anaconda分发的Python库以及其包管理器Conda而着名。然而,最近已经展现了建立数据科学平台供应商的雄心。该平台目前在Anaconda的各个部分(如TensorFlow,Theano,scikit-learn,Jupyter,R,Spark)之间缺少集成组件,还需要更加一致的外观和感觉。
2、DataRobot(www.datarobot.com)
为什么酷: DataRobot为广泛的数据科学人才短缺提供了一个创新的解决方案,可能会严重影响数据科学人员配置举措和数据科学团队的最佳结构。该供应商的产品也可以作为许多个人希望在机器学习中获得兴趣的催化剂。其机器学习平台的设计利用了数据准备,功能工程,模型选择和部署自动化的自动化程序,目的是通过高级分析简化和加速洞察力的产生。Gartner将这套功能称为智能数据发现 - 商业智能(BI)和分析市场的下一波中断。
DataRobot的自动化模型构建为用户提供了从多个来源(如R,Python,H2O和Spark)中提取的最佳拟合模型的排行榜。机器学习的这种指导性方法呼吁经验丰富的数据科学家寻求更高的生产力和公民数据科学家寻求更高级的数据科学功能。
目前,DataRobot的自动化和引导界面功能比其他具有类似价值主张的产品领先一步。与其他自动化机器学习解决方案或智能数据发现工具不同的是,DataRobot不是一个黑匣子。数据科学家,数据工程师和其他好奇的分析思想可以在下面看起来,以检查解决方案的功能工程,并收集DataRobot自己的数据科学家团队优先考虑的技术。这种透明度对于高度受管制行业的数据和分析领导者,或者对于模型具有强大的治理和可审计性要求的组织特别有吸引力。
存在的挑战: DataRobot面临着自动化机器学习和智能数据发现领域的竞争,几乎全部是 “数学科学平台的魔力象限”的供应商,其中有一些用于商业智能和分析的魔力象限(如IBM与沃森分析公司,Salesforce's BeyondCore )和许多其他创业公司。数据科学领域和现代BI和分析领域的供应商将力图利用数据科学家的供求之间日益扩大的差距。超越竞争对手的这一冲击将是关键的挑战,特别是因为我们认为专利不太可能在这个领域提供足够的保护。
3、Experfy(www.experfy.com)
为什么酷: 基于哈佛创新实验室,Experfy开创了采用数据科学人才的另一种方法,解决通过高度成就的数据科学专家的市场寻找一流技能的问题。Experfy验证了市场上列出的所有个人的经验和说明的技能。这种方法可以将客户与由于缺乏预算而不能全职雇用的专家连接,或者因为这些数据科学家在学术界或更理想的雇主中高兴地工作。
Experfy的咨询市场将请求者的项目与数据科学人才进行了算术匹配,因此请求者获得竞争性投标,节省开支,同时提高质量,减少项目的时间。Experfy还通过一个正在蓬勃发展的按需培训平台,为客户的员工提供高质量的教育。它提供由专家开发和实施的50个在线课程,或者也可以在现场提供任何课程。Experfy渠道是另一个创新,Experfy将其方法应用于特定的数据科学产品,如RapidMiner和Statistica。Experfy使用其严格的验证过程策划产品专用人才库,为特定产品创建项目市场,并利用其专家为产品开发培训。
虽然它成立于2014年,但已经拥有一批高素质的企业客户,以及数据科学平台供应商和创业公司。
存在的挑战: 为了维持其目前的专家社区增长率,同时保持其高标准的进入壁垒,可能会凸显经验不足的短板。经验丰富的公司可能会面临其他创新型公司的激烈竞争,这些公司正在探索定位和应用数据科学人才的替代方法,例如,Kaggle(最近被Google收购),Gigster和Aigency。
Experfy还将面临来自封闭数据科学人才差距的其他方法的竞争。许多大型供应商和创业公司都发布了智能数据发现工具和指导性分析,可以执行数据科学家的许多任务。许多组织正在着手制定公民数据科学家培训计划,为数据科学项目做出重大贡献。大学也在本科和研究生层面生产更多的年轻人才,他们接受过R,Python和Spark等开源技术的培训。但是,在可预见的将来,对数据科学人才的需求将远远超过供应量。
4、Skymind(https://skymind.ai)
为什么酷: Skymind,独特地提供基于Java的深度学习功能,可以使用少数商业可用的开源深入学习框架之一本机利用Apache Hadoop和Spark:Deeplearning4j。Skymind为深度学习技术提供支持,培训和服务,这对大多数企业来说是新的,但具有重大的潜力。Skymind的技术适用于各种数据科学问题,如高精度推荐系统,图像识别和异常检测,欺诈检测和合规违规。
大多数其他深入学习框架具有强大的研究或学术根源(Torch,Caffe,TensorFlow,Microsoft Cognitive Toolkit),因此,它们依赖Python,R或Scala等编程语言进行原型设计。然而,这些软件语言对企业来说仍然是一些新鲜事。相反,Skymind专注于Java - 生产部署中最广泛的语言 - 呼吁企业环境,并增加对现有企业架构投资的价值。凭借Java编写,Skymind可以直接利用流行的技术来存储深入学习所需的数据--Hadoop,Kafka或Elasticsearch以及Spark。Skymind还促进基于JavaScript的可视化来说明数据的有趣方面和深入学习的结果。Skymind” 客户称赞解决方案的灵活性; 它是白盒子和开源的。
存在的挑战: 深度学习处于快速演变的状态。因此,Skymind也必须快速发展,以跟上竞争对手和终端用户的需求。Skymind的未来版本虽然更高级,但可能与当前产品不兼容。深入学习创新的步伐可能导致切入点,软件错误等缺陷。目前,Skymind通过在Gitter聊天解决了许多问题,但这可能不足以最终取得成功 - 特别是Deeplearning4j,这强调了其产品。
鉴于深度学习的巨大潜力,以及大量投资于一些深入学习的框架(如BigDL和TensorFlow),Skymind的资金可能不足以保持领先地位。