NVMe - 润新知

SATA Vs. PCIE Vs.NVMe

NVMe, AHCI and IDE are transfer protocols(languages). They run on top of transfer interfaces such as PCIe or SATA(spoken,written).

SATA is the market incumbent and dominant interface for connecting an SSD to the PC.

It employs the command protocol AHCI(it also supports IDE) which was built with slower spinning disks in mind rather than flash memory.

SATA transfers rate begins at 150MB/s and max out at 600MB/s for SATA3. For most consumer uses of SSDs this is absolutely adequate.

PCIE supersedes SATA as the latest high bandwidth interface. Entry level PCIE SSD speeds are two or three times faster than the older generation of SATA3.0 SSDs.

It is mainly due to the number of channels contained by each to transfer data(roughly 10 for SATA and 25 for PCIE ). However, depending on usage, real world benchmarks may not reflect this massive gain due to bottlenecks elsewhere in the PC.

NVMe is the latest high performance and optimized protocol which supersedes AHCI and compliments PCIe technology.

It is akin to a more efficient language between storage device and PC: one message needs to be sent for a 4GB transfer instead of two, NVMe can handle 65000 queues of data each with 65000 commands, instead of one queue that with the capacity for 32 commands, and it only has seven major commands(read,write,flush etc). NVMe delivers better performance and reduced latency and is a scalable, but at a price.

This particular drive relies upon a new M.2 internal mount on the PC motherboard, as presumably will other future NVMe based SSDs. NVMe will also be the protocol of choice for the next generation of storage technologies such as 3D Xpoint.

NVMe是一种Host与SSD之间通讯的协议，它在协议栈中隶属高层。

NVMe在协议栈中处于应用层或者命令层，它是指挥官，军师，在三国的话，就是诸葛亮的角色。”运筹帷幄之中，决胜千里之外”。军师设计好计谋，就交由手下五虎大将去执行。NVMe的手下大将就是PCIe，它所制定的任何命令，都交由虎将PCIe去完成。虽然NVMe的命令可能可以由别的接口协议完成，但NVMe与PCIe合作形成的战斗力无疑是最强的。

NVMe是为SSD所生的。NVMe出现之前，SSD绝大多数走的是AHCI和SATA的协议，后者其实是为传统HDD服务的。与HDD相比，SSD具有更低的延时和更高的性能，AHCI已经不能跟上SSD性能发展的步伐了，已经成为制约SSD性能的瓶颈。所有SATA接口的SSD，你去看性能参数，会发现都不会超过600MB/s。如果碰到有人跟你说它的SATA SSD读取性能可以超过600MB/s，直接拨打110报警。不是底层Flash带宽不够，是SATA接口速度限制了，因为SATA现在最高带宽就是600MB/s。OK，既然SATA接口速度太慢，我用PCIe好了，不过上层协议还是AHCI。五虎上将有了，由刘备指挥，让人不禁感叹暴殄天物呀。刘备什么水平，诸葛亮出现之前，居无定所，一会跟着曹操混，一会又跟着吕布混，谁肯收留就跟谁混。惨呀！AHCI和刘备一个德行，只有一个命令队列，最多同时只能发32条命令，HDD时代（群雄逐鹿）还能混混，SSD时代（三足鼎立）就只有被灭的份。刘备需要三顾茅庐，需要诸葛亮的辅佐。同样，SSD需要PCIe，更需要NVMe。

在这样的背景下，Intel等巨头携天子以令诸侯，集大家智慧，制定出了NVMe规范，目的就是释放SSD性能潜力，解SSD倒悬之苦。

上面只列了几个巨头，参与的公司远不止这些。没有上榜的公司不要见怪。

NVMe制定了Host与SSD之间通讯的命令，以及命令如何执行的。

NVMe有两种命令，一种叫Admin Command，用以Host管理和控制SSD；另外一种就是I/O Command，用以Host和SSD之间数据的传输。下面是NVMe1.2支持的命令列表：

NVMe支持的Admin Command：

NVMe支持的I/O Command：

跟ATA spec中定义的命令相比，NVMe的命令个数少了很多，完全是为SSD量身定制的。大家现在别纠结于具体的命令，了解一下就好。老板交代干活的时候，再找spec一个一个看吧。

命令有了，那么，Host又是怎么把这些命令发送给SSD执行呢？

NVMe有三宝：Submission Queue （SQ），Completion Queue（CQ）和Doorbell Register （DB）。 SQ和CQ位于Host的内存中，DB则位于SSD的控制器内部。上图：

这张图信息量比较大，除了让我们知道SQ和CQ在Host的memory中以及DB在SSD端外，而且让我们对一个PCIe系统有一个具体的认识。上图中的NVMe Subsystem一般就是SSD。请看这张图几秒钟，然后闭上眼，脑补SSD所处的位置：SSD作为一个PCIe Endpoint通过PCIe连着Root Complex （RC）, 然后RC连接着CPU和内存。RC是什么？我们可以认为RC就是CPU的代言人，助理，或者小蜜。作为系统中最高层，CPU说：我很忙的，你SSD有什么事情先跟我小蜜说！尽管如此，SSD的地位还是较过去提升了一级，过去SSD别说直接接触霸道总裁，就是连小蜜的面都见不到，SSD和小蜜之间还隔着一座南桥呢。滚蛋吧，南桥君！

扯远了，刚才要说什么来着。对了，是三宝。SQ位于Host内存中，Host要发送命令时，先把准备好的命令放在SQ中，然后通知SSD来取；CQ也是位于Host内存中，一个命令执行完成，成功或失败，SSD总会往CQ中写入命令完成状态。DB（大宝？）又是干什么用的呢？Host发送命令时，不是直接往SSD中发送命令的，而是把命令准备好放在自己的内存中，那怎么通知SSD来获取命令执行呢？Host就是通过写SSD端的大宝寄存器来告知SSD的：饭已OK了，下来密西吧！

OK，具体的我们来看看NVMe是如何处理命令的，看图说话：

这是NVMe1.2规范中的第207张图。不知道是人家图画得好呢，还是NVMe就是这么简单，抑或是我比较聪明，反正上面的命令处理流程我一看就明白了。好吧，给没我聪明的人再解释一下。

说，把大象放冰箱一共要几步？答：三步。

第一步，打开冰箱门；

第二步，放进大象；

第三步，关上冰箱门。

说，NVMe处理命令需要几步？答：八步：

第一步：Host写命令到SQ；

第二步：Host写DB，通知SSD取指；

第三步：SSD收到通知，于是从SQ中取指；

第四步：SSD执行指令；

第五步：指令执行完成，SSD往CQ中写指令执行结果；

第六步：然后SSD发短信通知Host指令完成；

第七步：收到短信，Host处理CQ，查看指令完成状态；

第八步：Host处理完CQ中的指令执行结果，通过DB回复SSD：指令执行结果已处理，辛苦您了！

==== Section 2 ====

上回书说道，NVMe有三宝：SQ,CQ和DB。接下来我们就详细的看看这吉祥三宝。

Host往SQ中写入命令， SSD往CQ中写入命令完成结果。SQ与CQ的关系，可以是一对一的关系，也可以是多对一的关系，但不管怎样，他们是成对的：有因就有果，有SQ就必然有CQ。

有两种SQ和CQ，一种是Admin，另外一种是I/O，前者放Admin命令，用以Host管理控制SSD，后者放置I/O命令，用以Host与SSD之间传输数据。”你挑着担，我牵着马”（西游记的节奏呀），Admin SQ/CQ 和I/O SQ/CQ各司其职，你不能把Admin命令放到I/O SQ中，同样，你也不能把I/O命令放到Admin SQ里面。如果你不信这个邪，可以不遵守这个规矩试试，看看会发生什么，反正后果自负。

正如上图所示，系统中只有一对Admin SQ/CQ，它们是一一对应的关系；I/O SQ/CQ却可以很多，多达65535（64K减去一个SQ/CQ）。行政人员少，干活的人多，很多公司都是这样的吧，所以Admin SQ/CQ少，I/O SQ/CQ多就不难理解了。Host端每个Core可以有一个或者多个SQ，但只有一个CQ。给每个Core分配一对SQ/CQ好理解，为什么一个Core中还要多个SQ呢？一是性能需求，一个Core中有多线程，可以做到一个线程独享一个SQ；二是QoS需求，什么是QoS？Quality of Service，服务质量。脑补一个场景，蛋蛋一边看小电影，同时迅雷在后台下载小电影，由于电脑配置差，看个小电影都卡。蛋蛋最讨厌看小电影的时候卡顿了，因为你刚刚燃起的激情会被那个缓冲浇灭。所以，蛋蛋不要卡顿！怎么办？NVMe建议，你设置两个SQ，一个赋予高优先级，一个低优先级，把看小电影所需的命令放到高优先级的SQ，迅雷下载所需的命令放到低优先级的SQ，这样，你那破电脑就能把有限的资源优先满足你看小电影了。至于迅雷卡不卡，下载慢不慢，这个时候已经不重要了。能让蛋蛋舒舒服服的看完一个小电影，就是好的QoS。

实际系统中用多少个SQ，取决于系统配置和性能需求，可灵活设置I/O SQ个数。关于系统中I/O SQ的个数，NVMe白皮书给出如下建议：

作为队列，每个SQ和CQ都有一定的深度：对Admin SQ/CQ来说，其深度可以是2-4096（4K）；对I/O SQ/CQ，深度可以是2-65536(64K)。队列深度也是可以配置的。

SQ/CQ的个数可以配置，每个SQ/CQ的深度又可以配置，因此NVMe的性能是可以通过配置队列个数和队列深度来灵活调节的。NVMe太牛了吧，想胖就胖，想瘦就瘦；想高就高，想矮就矮，整一孙悟空呀！我们已经知道，AHCI只有一个命令队列，且队列深度是固定的32，就凡人一个，和NVMe相比，无论是在命令队列广度还是深度上，都是无法望其项背的；NVMe命令队列的百般变化，更是AHCI无法做到的。说到百般变化，我突然又想到一件残忍的事情：PCIe也是可以的。一个PCIe接口，可以有1,2,4,8,12,16,32条lane！SATA都要哭了，单挑都挑不过你，你还来群殴我。总之AHCI/SATA和NVMe/PCIe 这么一比较，画面太美，蛋蛋不敢看。

蛋蛋在这里总是贬低AHCI/SATA，有人要说蛋蛋忘恩负义，过河拆桥。怎么说？想当年，你SSD刚出来的时候，要不是AHCI/SATA收留了你，辛苦把你养大，都不知道你现在在哪里流浪。现在好了，你SSD翅膀硬了，不说一句感谢的话，倒反过来嫌弃我。各位看官，误会了，前面都是演戏，不说你AHCI/SATA不好，怎么能突出我NVMe/PCIe的好，毕竟后者才是男女一号，这么做完全是剧情需要。戏外，SSD不会忘记你AHCI/SATA的好。忘恩负义？蛋蛋不是那种人。

虽然是在戏里，但总说AHCI/SATA的不好，这样真的好吗？蛋蛋是个怀旧的人，突然就有种蛋蛋的忧伤。好吧，以后就谈NVME，不说AHCI了。孰好孰坏，留与读者评说。

戏还得继续演。

每个SQ放入的是命令条目，无论是Admin还是I/O命令，每个命令条目大小都是64字节；每个CQ放入的是命令完成状态信息条目，每个条目大小是16字节。

在继续谈大宝（DB）之前，先对SQ和CQ做个小结：

SQ用以Host发命令，CQ用以SSD回命令完成状态
SQ/CQ可以在Host的内存中，也可以在SSD中，但一般在Host 内存中（所有系列文章都是基于SQ/CQ在Host内存中讲的）;
两种类型的SQ/CQ：Admin和I/O，前者发送Admin命令，后者发送I/O命令;
系统中只能有一对Admin SQ/CQ，但可以有很多对I/O SQ/CQ;
I/O SQ与CQ可以是一对一的关系，也可以是一对多的关系；
I/O SQ是可以赋予不同优先级的；
I/O SQ/CQ深度可达64K，Admin SQ/CQ深达4K；
I/O SQ/CQ的广度和深度都可以灵活配置；
每条命令大小是64字节，每条命令完成状态是16字节；
不要过河拆桥。

SQ/CQ中的”Q”,是Queue，队列的意思，无论SQ还是CQ，都是队列，并且是环形队列。队列有几要素，除了队列深度，队列内容，还有两个重要的，就是队列的头（Head）和尾巴（Tail）。大家都排过队，你加入队伍的时候，都是站到队伍的最后，如果你插队，蛋蛋就会鄙视你。队伍最前头的那个，正在被服务或者等待被服务，一旦完成，就离开队伍。队列的头尾很重要，头决定谁会被马上服务，尾巴决定了新来的人站的位置。DB，就是用来记录了一个SQ或者CQ的Head和Tail。每个SQ或者CQ，都有两个对应的DB: Head DB和Tail DB。DB是在SSD端的寄存器，记录SQ和CQ的头和尾巴的位置。

上面是一个队列的生产/消费模型。生产者往队列的Tail写入东西，消费者往队列的Head取出东西。对一个SQ来说，它的生产者是Host，因为它往SQ的Tail位置写入命令，消费者是SSD，因为它往SQ的Head取出指令执行；对一个CQ来说，刚好相反，生产者是SSD，因为它往CQ的Tail写入命令完成信息，消费者则是Host，它从CQ的Head取出命令完成信息。

举个例子，看图说话.

1. 开始假设SQ1和CQ1是空的，Head = Tail = 0.

2. 这个时候，Host往SQ1中写入了三个命令，SQ1的Tail则变成3。 Host在往SQ1写入三个命令后，同时漂洋过海去更新SSD Controller端的SQ1 Tail DB寄存器，值为3。Host更新这个寄存器的同时，也是在告诉SSD Controller：有新命令了，需要你去取。

3. SSD Controller收到通知后，于是派人去SQ1把3个命令都取回来执行。SSD把SQ1的三个命令都消费了，SQ1的Head从而也调整为3，SSD Controller会把这个Head值写入到本地的SQ1 Head DB寄存器。

4. SSD执行完了两个命令，于是往CQ1中写入两个命令完成信息，同时更新CQ1对应的Tail DB 寄存器，值为2。SSD并且发消息给Host：有命令完成，请注意查看。

5. Host收到SSD的短信通知，于是从CQ1中取出那两条完成信息处理。处理完毕，Host又漂洋过海的往CQ1 Head DB寄存器中写入CQ1的head，值为2。

看完这个例子，又重温了一下命令处理流程。之前我们也许只记住了命令处理需要8步（距离曹植一步之遥），看完上面的例子，我们应该对命令处理流程有个更深入具体的认识。

那么，DB在命令处理流程中起了什么作用呢？

首先，如前所示，它记住了SQ和CQ的头和尾。对SQ来说，SSD是消费者，它直接和队列的头打交道，很清楚SQ的头在哪里，所以SQ head DB由SSD自己维护；但它不知道队伍有多长，尾巴在哪，后面还有多少命令等待执行，相反，Host知道，所以SQ Tail DB由Host来更新。SSD结合SQ的头和尾，就知道还有多少命令在SQ中等待执行了。对CQ来说，SSD是生产者，它很清楚CQ的尾巴在哪里，所以CQ Tail DB由自己更新，但是SSD不知道Host处理了多少条命令完成信息，需要Host告知，因此CQ Head DB由Host更新。SSD根据CQ的头和尾，就知道CQ能不能以及能接受多少命令完成信息。

DB的另外一个作用，就是通知作用：Host更新SQ Tail DB的同时，也是在告知SSD有新的命令需要处理；Host更新CQ Head DB的同时，也是在告知SSD，你返回的命令完成状态信息我已经处理，同时表示谢意。

这里有一个对Host不公平的地方，Host对DB只能写，还仅限于写SQ Tail DB和CQ Head DB，不能读取DB。蛋蛋突然想唱首歌：

Host就是这样痴情。在这个限制下，我们看看Host是怎样维护SQ和CQ的。SQ的尾巴没有问题，Host是生产者，对新命令来说，它清楚自己应该站在队伍哪里。但是Head呢？SSD在取指的时候，是偷偷进行的，Host对此毫不知情。Host发了取指通知后，它并不清楚SSD什么时候去取命令，取了多少命令。怎么破？机智如你，如果是你，你会怎么做？山人自有妙计。给个提示：

这是什么鬼东西？这是SSD往CQ中写入的命令完成状态信息（16字节）。

是的，SSD往CQ中写入命令状态信息的同时，还把SQ Head DB的信息告知了Host！！这样，Host对SQ中Head和Tail的信息都有了，轻松玩转SQ。

CQ呢？Host知道Head，不知道Tail。那怎么能知道Tail呢？思路很简单，既然你SSD知道，那你告诉我呗！SSD怎么告诉Host呢？还是通过SSD返回命令状态信息中。哈哈，看到上图中的“P”吗？干什么用，做标记用。

具体是这样的：一开始CQ中每条命令完成条目中的”P” bit初始化为0，SSD在往CQ中写入命令完成条目时，会把”P”写成1。记住一点，CQ是在Host端的内存中，Host可以检查CQ中的所有内容，当然包括”P”了。Host记住上次的Tail，然后往下一个一个检查”P”，就能得出新的Tail了。就是这样。

最后，给大宝做个小结：

DB在SSD Controller端，是寄存器
DB记录着SQ和CQ的Head和Tail
每个SQ或者CQ有两个DB: Head DB 和Tail DB
Host只能写DB，不能读DB
Host通过SSD往CQ中写入的命令完成状态获取Head或者Tail