非结构化数据包括以下几个类型:
文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译。当然,流数据中有一些字段需要更加高级的分析和发掘功能。
交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中。人们表达对人、产品的看法和观点,并以文本字段的方式存储。为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术。你需要将文本数据以实体集合的形式展现,并结合其中的关系属性。
图像:图像识别算法已经逐渐成为了主流。此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加具有挑战性。
音频:目前有许多研究是针对于解译音频流数据的内容,并能够判断说话者的情绪。然后在利用文本分析技术对这部分数据进行分析。
视频:毫无疑问,视频是最具挑战性的数据类型。图像识别技术可以对每一帧图像进行抽取,当然,要真正做到对视频内容进行分析还需要技术的进一步发展。而视频中又包括音频,可以用上述的技术进行解译。
具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。