文本挖掘是从文本数据中获得有价值的信息和知识,是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。本人的课题是关于金融方向的文本数据挖掘,是数据挖掘的一个子方向。如今随着互联网金融的发展,消费者对于数据有更多的需求,投资人除基础数据以外,还希望能看到更多的趋势和内部分析,所以金融方向的数据挖掘具有很大的应用价值。
几款公认的比较强大的开源数据挖掘软件
1.RapidMiner
RapidMiner是一个数据挖掘软件平台,有开源版本和商业版本,提供了一个集成的开发环境包括数据预处理,机器学习,深度学习,文本挖掘,和预测分析。它用于商业和商业应用以及研究,教育,培训,快速原型制作和应用开发,并支持机器学习过程的所有步骤,包括数据准备,结果可视化,模型验证和优化。该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案、模型和算法。
2.NLTK
NLK的全称为Natural Language Toolkit,是一套基于python的自然语言处理工具集,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码,是一个开源项目。
3.SPSS
SPSS,全称为Statistical Package for the Social Sciences,即社会科学统计包,由IBM公司开发,收费软件但提供一段时间的免费试用,该平台提供了高级统计分析,庞大的机器学习算法库,文本分析,开源可扩展性,与大数据的集成以及在应用程序中的无缝部署。它具有易用性,灵活性和可伸缩性,能提高效率并将风险最小化。
4.SAS
SAS,全称为Statistical Analysis System,即统计分析系统,收费软件,但是有30天的免费试用,是由北卡罗来纳州立大学两位生物统计学研究生所编写及制定,最早只是一个数学统计软件,于1976年由Jim Goodnight及John Sall博士等人成立统计分析系统公司,并且正式推出相关软件。统计分析系统公司不断地与各行各业共同发展商业资料分析与预测技术,重要应用领域涵盖政府的经济决策与企业的决策支援应用等,成为了全球第五大软件公司。统计分析系统软件是用于决策支援的大型集成资讯系统,但该软件系统最早的功能限于统计分析;至今,统计分析功能也仍是它的重要模组和核心功能。目前统计分析系统最新的版本为9.4。经过多年的发展,统计分析系统已经遍布全世界,使用的单位遍及金融、医药卫生、生产、运输、通讯、科学研究、政府和教育等领域;在资料处理和统计分析领域,统计分析系统被誉统计软件界的巨无霸。
这些软件是如何吸引用户的?
这些软件有的是开源的,如NLTK,它不但免费而且易于安装,这就为它的广泛使用打下基础;而有的是收费软件,但是他们也会提供免费试用的版本,供大家使用。而这些收费软件就是依仗于他们优秀的设计、卓越的性能、以及对用户更为友好的服务使得用户愿意为他们掏钱。当然,使用盗版软件的人也不在少数。显然,收费软件就是想凭此盈利,因为大家都是要恰饭的,而那些开源的项目如NLTK,他们不求回报,只是单纯地想要为这个领域的研究做出一些贡献,我们应该感谢这些开源项目背后的人们。
这些软件的发展趋势
1.RapidMiner
RapidMiner,以前称为YALE(一种学习环境),由多特蒙德技术大学的人工智能部门的Ralf Klinkenberg,Ingo Mierswa和Simon Fischer于2001年开始开发。 从2006年开始,它的发展是由Rapid-I驱动的,Rapid-I是同年由Ingo Mierswa和Ralf Klinkenberg创立的公司。在2007年,该软件的名称从YALE更改为RapidMiner。2013年,该公司从Rapid-I更名为RapidMiner。现在RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,能简化数据挖掘过程,但在中国属于小众的数据挖掘软件,一般大型的数据挖掘人物无法胜任,小型的又要与SAS、SPSS竞争,灵活性不如R、PYTHON,而且是一款收费软件。
2.NLTK
NLTK,自然语言处理工具包,是在NLP领域中,最常使用的一个Python库。NLTK由Steven Bird、Ewan Klein和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发,第一次发行是在2001年,这个开源项目一直在更新,最新的版本是在2019年8月20日发布的3.4.5版本,可以看出NLTK这个项目在自然语言处理领域还是很受到欢迎的。 NLTK已成功用作教学工具,个人学习工具以及原型设计和构建研究系统的平台。美国和25个国家/地区中有32所大学在课程中使用NLTK。
3.SPSS
SPSS,原名社会科学统计包(Statistical Package for the Social Sciences),是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS的最新版本为25,而且更名为IBM SPSS Statistics。迄今,SPSS公司已有40余年的成长历史。SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,精通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS应用很广,最大的缺陷就是太过简单,仅可对一些简单数据进行一些简单分析,功能比较少。
4.SAS
1966年,美国农业部(USDA)收集到巨量的农业数据,急需一种计算机化统计程序来对其进行分析。由美国国家卫生研究院(NIH)资助的八所大学联合会共同解决了这一问题。 最终,统计分析系统(statistical analysis system),也就是SAS应运而生,既给了SAS公司一个响亮的名字,亦成为了公司化运作的起点。位于北卡罗来纳州首府罗利市的北卡罗来纳州立大学(NCSU)成为该联盟的领导者,因为其更为强大的大型中央处理计算机计算能力而胜出。 NCSU教职员工Jim Goodnight和Jim Barr成为项目负责人。 Barr创建了整个架构,Goodnight则负责实施和实现架构上的各种功能特性,并拓展了系统的性能。 当NIH于1972年停止供资时,社团联盟同意为该项目提供资金,使NCSU能够继续开发维护系统运作,从而支持其统计分析需求。 SAS把数据存取,管理,分析和展现有机地融为一体,它功能强大,统计方法齐,使用简便,操作灵活,能够提供联机帮助功能。
SAS已在全球100多个国家和地区拥有29000多个客户群,直接用户超过300万人。在我国,国家信息中心,国家统计局,卫生部,中国科学院等都是SAS系统的大用户。SAS已被广泛应用于政府行政管理,科研,教育,生产和金融等不同领域,并且发挥着愈来愈重要的作用。
这些软件能存续多久?十年还是二十年?
软件的存续时间与它的自身不断改革、以及市场环境有关。若一款软件能不断得到改善来适应用户的需求,那么这款软件的存续时间就会稍长一些。比如NTKS作为一个自然语言处理领域上的一个开源项目,而自然语言处理在未来还是会比较火热,所以NLKS还是会存续相当长的一段时间,至于其他的数据分析软件若是能好好维护、适时更新、注重用户的体验应该也能存续一段时间,因为既然是收费软件那么肯定拥有一定的用户基础。