随着经济、科技的快速发展,人们遇到的数据信息量越来越大,这就促使了数据挖掘技术的兴起。随着数据挖掘技术的推广,一些因素逐渐成为制约数据挖掘深入的关键问题。而挖掘过程的不可见性是其中一个主要方面。
数据挖掘可视化技术可理解为处理计算或实测数据的一种方法,它以图形、图像来描述物理现象,使看不见的现象成为可见,为研究、使用人员提供前所未有的机会来理解大量数据所蕴含的丰富内容,发现通常数值信息发现不了的现象。
数据挖掘可视化技术是随着数据挖掘技术和信息可视化技术的发展而产生的,它有效地把人的感知能力和领域知识应用到数据挖掘的过程中。它以刻画结构和显示数据的功能性,以及人类感知模式、例 外、倾向和关系的能力为基础,用可视化来加强数据挖掘处理。数据挖掘是从大量的历史数据中抽取 出潜在的、有价值的知识过程。可视化就是把数据、信息和知识转化为可视的表示形式的过程。它为人类与计算机这两个信息处理系统之间提供了一个接口。使用有效的可视化技术,可以快速高效地与大量数据打交道,以发现其中隐藏的特征、关系、模式和趋势等,可以引导出新的预见和更高效的决策。
同时,数据可视化在不同的粒度或抽象层面上,将不同的属性或维度相结合,观察数据库或数据仓库的数据。首先将数据进行可视化映射,把数据表转换为可视化结构(结合了空间基、标记和图形属性的结构),然后通过定义位置、缩放比例、裁减等图形参数创建可视化结构的视图,并通过用户的交互动作来控制这些变换的参数,例如把视图约束到特定的数据范围,或者改变变换的属性等。最常见的数据可视化技术包括柱状图、饼状图、散点图、三维立方体、曲线、数据分布图表等。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。
数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。同时NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。