select in 在postgresql的效率问题

select in 在postgresql的效率问题
在知乎上看到这样一个问题：

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率？修改

电商网站，一个商品属性表，几十万条记录，80M，索引只有主键id，做这样的查询如何提高效率？
select * from table where id in (几百或几千个id)
这些id没啥规律，分散的。。。。
看了一下答案，感觉有好多不靠谱的，但是口说无凭，所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4，但感觉mysql应该也差不多，首先创建一个简单表，只有简单的3列，在这个问题的下面好多人提到了需要看表的大小，其实这个问题和表大小无关，只和index的大小有关，因为是index是建立在int上的，所以只和纪录数目有关。
Table "public.t9" Column | Type | Modifiers --------+----------------+----------- c1 | integer | c2 | character(100) | c3 | character(200) | Indexes: "i1" UNIQUE, btree (c1)

insert into t9 values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180));

之后生成一些随机数，Mac上用jot，Linux上用shuf

for ((i=0;i<100000;i++)) do jot -r 1 1000 600000 >>rand.file done

然后根据rand.file 生成查询语句：

select * from t9 where c1 in ( 494613, 575087, 363588, 527650, 251670, 343456, 426858, 202886, 254037, ... 1 );

分别生成3个sql文件，in内变量的数目分别是100，1000和10000个，执行这3个sql文件，看看时间

➜ try psql study -f test_100.sql -o /dev/null LOG: duration: 2.879 ms ➜ try psql study -f test_1000.sql -o /dev/null LOG: duration: 11.974 ms ➜ try psql study -f test_10000.sql -o /dev/null LOG: duration: 355.689 ms

可以看到只有在in内数据到了10，000个的时候数据时间会有比较大的变化，但也不过是在300多ms内完成。

那如果按照有些回答那样，先建一个临时表，然后用in subquery，并且希望这时候可以两表join呢？为了简单我直接用两表join了

drop table t_tmp; create table t_tmp(id int); insert into t_tmp (id) values (494613), (575087), (363588), (345980),
... (1)
; select t9.* from t9, t_tmp where t9.c1 = t_tmp.id;

时间如何呢？

try psql study -f test_create_10000.sql -o /dev/null LOG: duration: 2.078 ms LOG: duration: 1.233 ms LOG: duration: 224.112 ms LOG: duration: 322.108 ms

除去drop和create的时间，依然花费了500+的时间，这里的前提还是我用的ssd盘，所以写LOG的时间会快很多。为什么会这么慢呢？用explain看一下，这时候数据量较大，直接走Merge join 了

那1000行数据的效率如何呢？

try psql study -f test_create_1000.sql -o exp.out LOG: duration: 2.476 ms LOG: duration: 0.967 ms LOG: duration: 2.391 ms LOG: duration: 8.780 ms

100行的数据如下：

➜ try psql study -f test_create_100.sql -o /dev/null LOG: duration: 2.020 ms LOG: duration: 1.028 ms LOG: duration: 1.074 ms LOG: duration: 1.912 ms

可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少，explain看的话是在用NLJ了。但在数据量更大（按照原问题，这里in的数量其实无法预知）的情况下效率只会更低，再加上额外的表维护成本和多余的SQL语句，DBA肯定不喜欢的，还是相信数据库，放心大胆直接用in list来搞定这些问题吧。
相关阅读:
子串周期查询问题的相关算法及其应用（原文为2019年国家集训队论文集）
微软最有价值专家 Azure DevOps MVP（第六年）
当一个程序员一天被打扰 10 次, 后果很惊人
 什么是CAP定理?
Java中的锁原理、锁优化、CAS、AQS详解
 如何停止一个正在运行的线程？
lammps总结（7.27-7.30）
packmol建模
 Linux 命令（1）
ElementUI中的el-select中多选回显数据后没法重新选择和更改
原文地址：https://www.cnblogs.com/db2zos/p/5357761.html

select in 在postgresql的效率问题

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率？修改