图形数据库成为主流
盖蒂
每十年似乎都有其数据库。在1990年代,关系数据库成为主要的数据环境,它的易用性和表格格式使其成为不断增长的为数据网络提供动力的自然需求。虽然关系数据库仍然很强大,但2000年代见证了XML数据库的兴起,NoSQL(不需要将数据库以纯表格形式进行结构化)的想法开始流行起来。在2010年代,随着Hadoop作为数据平台的兴起和衰落,JSON数据库获得了广泛的关注。有鉴于此,有充分的证据表明图形数据库将成为2020年代的首选数据库,
自从早期以来,图形数据库就以一种或另一种形式出现,但与关系数据库相比,它们通常较慢,更复杂且适用性更受限制。它们也主要被视为 学术数据库,因为此类数据库最早的用例之一是建立逻辑分析系统,并且由于其学术联系,该数据库在相当长的时间内一直处于商业雷达之下。
但是,到2014年年中,已经取得了几项关键的进步,使图数据库技术成为了几项先河。Neo4J是一个早期且仍被广泛使用的图形数据库,已经开始获得足够的成熟度和渗透性,开始被用于某些类别的数学图形处理。硬件(通过云计算)也已经足够快,可以克服许多关键的早期性能挑战。图查询语言(SPARQL)随第二版发布,解决了早期版本带来的许多问题,包括引入了更新功能,这意味着可以出现一种用于动态添加内容的一致机制。 join,这是任何数据库的核心要求之一,但对图形数据库尤为重要。
重要的是,几家公司开始尝试使用图形数据库来解决在公司一级变得烦人的问题-企业元数据的管理,主数据管理,自然语言处理,知识导航和其他相关问题,而搜索技术本身已触底出来。具有讽刺意味的是,机器学习通常使用数据聚类方法进行文本分析,作为蛮力替代方案,近来,它已逐渐成为帮助构建图形数据库的另一种机制,其程度是,最新的图形数据库现在已纳入了机器学习算法和工具作为其核心套件的一部分。
图形数据库提供了一种按类(而不是表)进行组织的方法,它们是可感知网络的并且是高级的... [+]
盖蒂
最后,图形数据库越来越多地利用完全出乎意料的发展优势-图形处理单元或GPU(那些专门用于创建复杂的三维图形的专用多核计算机)的强大功能和先进性。这些GPU通过创建细分为三角形的网格来工作-数百万甚至数十亿个三角形。通过将属性分配给组成这些网格的点(节点)和线(边),GPU可以计算颜色,光照,边缘的硬度和柔软度,位移以及许多其他属性,并且可以非常非常快地执行此操作,因为他们采用的管道架构。
事实证明,图数据库实际上与图形处理中使用的网格并没有太大的区别(实际上它们几乎相同),特别是从将属性分配给节点和边的角度来看。每个节点代表一个概念,每个边代表一个关系。这意味着,尤其是在2010年代末,图数据库供应商越来越多地利用GPU遍历和比较这些图上的节点值,从而有效地利用了GPU为图数据库提供的强大并行功能。虽然也将继续使用更多传统的CPU,但GPU上的图形数据库很可能会在2020年代真正占据一席之地。
当前,图数据库分为两大类:属性图和语义图。关键方面有所不同:语义图将边缘视为标识关系的全局命名对象,而属性图将边缘视为基于周围节点的唯一事物。这意味着可以将文字属性(例如日期或字符串)分配给属性图中的关系。语义图形中存在一个类似的属性,称为reification,在该属性中,节点+边在一起被赋予了一个标识符,但是目前SPARQL尚未本质上支持此功能。
SPARQL的下一个版本很有可能会改变,该版本可能会在2020年代初正式出现,同时还会对可变谓词路径进行一些更改。实际上,这意味着属性和语义图数据库将在未来几年内合并为一个类别。除此之外,还将看到图形数据库与NoSQL数据库的合并(采用JSON或XML风格,或者在某些情况下都采用)。
图形数据库在本质上比传统的关系数据库系统更灵活,因为可以将有关数据库的元数据视为数据本身,并且可以以完全相同的方式进行访问。实际上,可以使用图轻松表示关系数据库,因为关系表/列/行/键结构本身就是图的一种形式。直到最近为止,这种灵活性是以性能为代价的-但是随着转向GPU,这种性能优势已在很大程度上消失了。
越来越多的系统也启用关系填充,以隐藏表格数据库和图形数据库之间差异的详细信息,以便它们可以与现有工具集(例如用于数据分析或可视化的工具集)一起使用,但是随着完整图形功能变得标准化,新工具将会利用该标准化来利用灵活性 和性能,这意味着图形数据库有潜力在 2030年之前取代 现有的关系市场。
图形数据库的市场在不断发展,合并期可能在... [+]
盖蒂
市场状况
在大约十年前的某个时刻,可能有四个商业数据库和几个开源图形数据库,全部共同为一个与关系市场相比是微观的市场服务。记得当时在几个语义会议上的贸易展览会上走的时候,有希望的供应商的数量超过了参与者。情况已不再如此,在过去几年中,供应商的数量和图数据库专家的数量都猛增了,以至于值得讨论不同类别的供应商。