浅谈K-D Tree

浅谈K-D Tree

初步认识(K-D) (Tree)

(K-D) (Tree)是一种基于空间分割的二叉树形数据结构，一般用于高维信息检索。因为(OI)中很多问题都能转化为高维信息检索，所以(K-D) (Tree)的用途十分广泛。

(K-D) (Tree)树高严格为(logn)每一个结点都代表着一个高维信息点。每一棵子树表示的范围是该子树内所有点的(k)维正交包围盒，左右子树代表的范围不相交。

建树

(K-D) (Tree)一般采用中位数循环切割的方式建树。假设当前结点是以第(x)维中位数分割成两棵子树的，那么当前节点的儿子结点就应该用第((x+1)mod) (k)维中位数来切割。以(k=2)为例：

总之就是切完(x)就切(y)啦。求中位数可以用( m std::nth)_( m element())，复杂度(O(n))，会把中位数放到序列中间来。

建树总时间复杂度：(T(n)=2T(n/2)+O(n)=O(nlogn))

插入

就像二叉查找树一样一直搜索到底，作为叶子插入。但是数据不随机的时候有可能会使树退化成链，所以需要用到替罪羊树重构的方式保持平衡。均摊(O(log^2n))。由于保持平衡的代价较大，所以不强制在线的时候，应该把插入换成激活，也就是先把这个点扔里面，但是处于未激活的状态，点上的信息不进入统计范围。激活之后就算是一个实实在在存在的结点了。

删除

不能真的从树里删掉某个点，因为那样会改变树的结构。用激活的反操作把它标记掉，如果要重构树的时候再清掉。

最近点查询

我们可以用(O(1))的时间求出某个点到左右子树正交包围盒的最短距离，先去较小的那个子树里求答案，再来访问较大的子树。用最优性剪纸，如果当前最短距离比已经求出来的答案还大的话那就不访问这个子树了。在数据随机的情况下期望复杂度为(O(logn))

正交范围查询

从根开始查询，如果当前子树与查询范围没有交集则直接退出，被完全包含就统计信息之后直接退出，否则递归访问左右子树。(k)维的(k-d) (tree)正交范围查询的复杂度是(O(n^{frac{k-1}{k}}))，(k=2)为例：

假设查询范围只有上边界和右边界，两层孩子一共(4)棵子树，每棵(frac{n}{4})个点。这(4)棵子树中有一棵完全被包含=(O(1))，(2)棵子树只有一个边界=(2F(frac{n}{4}))，还有一棵与原问题一致=(T(frac{n}{4}))。

对于只有一个边界的问题来说，该边界只会与两棵子树相交，所以(F(n)=2F(frac{n}{4})+O(1)=O(sqrt{n}))

所以(2)维(k-d) (tree)的正交范围查询复杂度为(T(n)=T(frac{n}{4})+O(sqrt{n})=O(sqrt{n}))

如果遇到(TLE)，那么请第一时间来检查子树正交包围盒范围是否可能出错。

有没有可能通过空儿子得到错误的范围。最好一开始就把(0)结点的范围设成极值。

(K-D) (Tree)与传统树套树的比较

空间复杂度为(O(n))，不容易被卡空间。

结构简单并且支持复杂的操作。

便于剪枝，因为寻址快，效率一般更好。
相关阅读:
BAT 大厂最流行的测试技术体系与测试职业发展晋级指南
 通知 | 2021 第一期《测试开发实战宝典》赠书活动顺利结束！
你还缺个好工作？但7月毕业季即将来临怎么办
 一图看懂云栖大会「云原生」重磅发布
 阿里云重磅发布业务中台产品 BizWorks，中台发展进入下一个阶段
 云栖·追踪云原生｜Serverless入围阿里云十大核心技术
 先行一步，7大技术创新和突破，阿里云把 Serverless 领域的这些难题都给解了
 New homework
German
suggestion
原文地址：https://www.cnblogs.com/AKMer/p/10387266.html

初步认识(K-D) (Tree)

建树

插入

删除

最近点查询

正交范围查询

(K-D) (Tree)与传统树套树的比较