数据
Structured Data vs. Unstructured Data vs. Semi-Structured Data
大数据和非结构化数据--最大的财富和最大的挑战
结构化数据
高度组织--使用SQL处理 Excle
flexibility and usability.
Specialized tools: Specialized tools are required to manipulate unstructured data
专门的工具来处理非结构化数据
图像-语音-文字-->视频
世界的本源--交互的界面--交互的方式-交互的本体和客体
趋势判断
非结构化数据的处理方式,在非结构化数据日益增多的今天,如何处理已经成为了一项重要的方式
工具目前还没有普及化,很多公司还将工作做成了一个功能,作为竞争的一项优势,但随着大众各自的数据的累积
以及对数据处理的需求,会产生各种处理工具,随之而来的是各种非结构化数据的而处理工具的普及。
步骤
1. Define your goal and required type of content
ask yourself why you need to keep unstructured data in order.
2. Consider your business needs and capabilities
3. Take care of the storage space
4. Clean up collected information
5. Analyze data with AI/ML technology
you can find ready-made solutions available on the market
or create one with a development team,
depending on your initial goals
6. Use the info to your advantage
非结构化数据处理方式
AI can help you get a handle on your data and extract value no matter what industry you’re in.
using Machine Learning (ML) to analyse and manage their data
1. Throw It Away
Edge AI-edge computing
2. Deduplicate It
3. Tier It
分层存储(Tiered Storage)
4.Structure It
This semi-structured data can then be loaded into databases for analytical processing
5.pipeline it
通过对处理非结构化数据的ML进行组合和分解,构成一整个工作流,进而构建出最终的产出
针对以上提出的四点,做一个经验的解读和说明
目前而言,处理非结构化数据的原则有很多,那我们的处理方式有哪些呢
1.针对自己的目标,进行有目的的数据采集,可以规划采集的对象,采集的原则以及采集的路线或者采集的人员等等,这个角度来讲
数据千千万,选择自己需要的进行采集,不需要的可以清理了
2.对数据去重,很多非结构化数据,会由于各种原因产生相同或者相似的数据,所以在数据处理中需要对数据做去重处理
这里的去重,和结构化数据去重有所不同,结构化数据一般是一样,而非结构化数据,对去重的定义则有很多种方式
例如图像,就有各种去重的方式和方法。
3.对数据进行分级和分层,分级分层,对数据的存储有着重要的作用,不常用的数据,按照目前各大云商的说法,可以存放在IO低的对象存储中
一来节约成本,二来可以对数据做一个很好的备份,以防止目前对数据认知不足而造成的数据缺失。
4. 拿到非结构化数据,对非结构化数据进行标注,然后结合非结构化数据以及标注数据,可以很好的用于深度学习算法的训练,进而更好的增强算法
对非结构化数据理解,这个层面上来讲,将非结构化数据进行结构化处理也就成为了一种可行和必要的方式。通过已经训练好的算法对新的数据
通常这些算法出来的数据大都是半结构化数据,比如json或者xml类型的数据,通过对半结构数据提取,可以有效地将非结构化数据进行结构化解构和汇总
5.计算机技术的目标是降本增效,本质是处理数据。???
信息的目标是达成目标-如果降本增效是社会的目标,那么计算机的目标就是降本增效,如果社会的目标不是,那么计算的目标就不是
人工智能是狭域的,而人类智能是广域的
无数可能的探索方向中,判断更可能找到资源的方向。判断力,是广域生存最核心的竞争优势
所谓“算法中立”不过是人们对新技术的一种理想化乌托邦式的想想。一个算法设计的背后包含着人的立场与决策
行为科学的思想-- 本质上即两套不同的数据分析和信息收集的对立机制
规则零:错过不等于失去。
参考
https://www.ironmountain.com/blogs/2020/4-ways-to-deal-with-unstructured-data