3D NAND性能 - 润新知

3D NAND性能

3D NAND性能

ISSCC 2021上，3D NAND展示了3D NAND技术。三星、SK hynix和K IOxia（+ Western Digital）分享了3D TLC NAND设计，英特尔展示了144层3D QLC NAND。

3D TLC

三星、SK hynix和Kioxia / WD介绍了下一代3D TLC的信息。

三星很在性能上处于领先地位，读取延迟最低、写入速度最快。然而，位密度仍然明显滞后，宣称这一代的位密度跃升了70%。三星能够避免使用串叠，可以将128层的堆栈作为单层制造，竞争对手都不得不将堆栈分成两层，增加了所需的晶圆厂步骤。三星采用串叠导致密度劣势。如果将这一转变再推迟一代，使用其他技术的组合（最显著的是CMOS underArray layout）实现了这种密度的提高，涉及到垂直通道的高宽比蚀刻时，三星已经领先竞争对手好几年了，而垂直通道的高宽比蚀刻是扩展3D NAND的最关键的制造步骤。

SK hynix和Kioxia / WD所描述的TLC部件，区别在于SK hynix的是512Gb芯片，而Kioxia的容量为1Tb芯片。尽管Kioxia吹捧更高的NAND接口速度，两种设计都具有相似的性能和密度。Kioxia和Western Digital宣布了162层3D NAND，总层数落后于SK hynix和Micron。cell阵列的水平密度提高了10％，Kioxia和Western Digital可能将垂直通道比任何竞争对手都更紧密地排列在一起。

3D QLC

唯一 QLC更新的公司是英特尔。

总的来说，英特尔比其他任何竞争对手都更加注重QLC NAND。这款144L QLC是英特尔没有与美光科技共同开发的第一代3D NAND，在某些方面是独一无二的。英特尔将其3D NAND闪存业务出售给SK hynix，正在获得想要的NAND。仅有144层，英特尔是层数的落后者。与9X层的QLC相比，英特尔具有更好的性能和密度-但是SK hynix和Kioxia描述的新型TLC的QLC版本应具有可比的密度。英特尔已经放弃使用96L QLC的方式来描述块大小， 144层NAND的48MB块尺寸看起来也很大。

CuA(CMOS-under-array)

英特尔/美光3D NAND重大创新是CMOS Under the Array（CuA）设计。将大多数NAND芯片的外围电路（页面缓冲器、读取放大器、电荷泵等）置于存储单元的垂直堆栈之下，不是并排放置。

节省了大量的裸片空间，将超过90％的裸片面积用于存储单元阵列。SK hynix是下一个做出这种改变的厂商，称之为"Periphery under Cell"（PuC）。Kioxia（当时的东芝）和西数在ISSCC 2019上展示了128层的CuA设计，第五代BiCS 3D NAND最终以112L设计投产，没有CuA。ISSCC展示"170+"层的CuA设计，第六代BiCS 3D NAND将是162层的CuA设计。

除了节省裸片空间，3D NAND的CuA/PuC的设计风格还允许裸片包含更多的外围电路，这样做的成本效益比更高。将裸片的存储器阵列划分为更多独立的平面，每个平面都有大部分外围电路副本。大多数没有采用CuA布局的3D NAND，每个裸片只使用两个平面，都在使用CuA，标准是每个裸片使用四个平面。这提供了额外的并行性，提高了每颗晶粒的性能，并抵消了通常因使用较少晶粒达到相同总容量而导致的 SSD整体性能下降。

CuA结构并非没有挑战和缺点。当制造商首次切换到CuA时，大大增加外围电路的可用裸片空间。每一代相继增加的层数意味着管理相同数量存储单元的die空间就更少了，外围电路仍然必须缩小。将外围电路置于存储单元阵列之下还会带来新的限制。例如，三星提到，当电荷泵不再能够使用易于包含在3D NAND堆栈中的高金属结构时，这就为电荷泵构造大型电容器带来挑战。

On-Die Parallelism：每个die四个平面

将NAND闪存管die分为四个平面可以使该die并行处理更多的操作，但是并不能使其表现得像四个独立的die。因为并行执行操作受到限制：例如，同时写入仍必须在每个平面内的同一字线上进行。但是随着闪存芯片数量的增加，制造商一直在努力放松一些限制。在过去的几年中，制造商推出了“独立”的多平面读取，这意味着在不同平面中的同时读取对每个平面内的读取位置没有任何限制，这是随机读取吞吐量的一大胜利。

现在，放宽了对多平面操作的另一个限制：不需要在不同平面上进行读取操作的时序。这使得一个平面可以从SLC页面执行多次读取，而另一平面则可以从TLC或QLC页面执行单个较慢的读取。此功能称为异步独立（多）平面读取。实际效果是，对于读取操作，一个大的4平面die现在可以匹配四个较小的1平面die的性能。这可以缓解更高的每个芯片容量给每个通道仅具有一个或两个芯片的SSD带来的性能下降。

Kioxia和WD报告说，要实现此功能，必须停止在平面之间共享电荷泵，以免因读取操作不同步而导致电压和电流波动不及时。英特尔还通过其4平面144L QLC达到了此功能的一半：将多个平面配对为多个平面组，每个平面组可以执行读取而无需与另一个平面组中的读取时序保持一致。

NAND IO加快了对SSD控制器的支持速度

新型TLC NAND部件支持NAND闪存die和SSD控制器之间的通信的IO速度范围为1.6到2.0 Gb / s。最快的NAND SSD的运行速度为1.2-1.4Gb / s。NAND制造商可以通过确保将用于SSD控制器设计，支持这些更高的IO速度，可能会依赖第三方控制器的SSD。Phison针对高端PCIe 4.0 SSD的最新E18 8通道控制器仅支持1.2Gb / s IO速度，即将推出的E21T 4通道NVMe控制器则支持1.6Gb / s。Silicon Motion的8通道SM2264和4通道SM2267分别支持1.6Gb / s和1.2Gb / s IO速度。

1.2Gb / s的速度运行8个通道，已经足以使SSD饱和PCIe 4.0 x4连接，新的更高IO速度在PCIe 5.0，对高端SSD并没有多大用处。但是，价格更实惠的4通道消费类SSD控制器，能够使用这些更高的速度更好地进入PCIe 4.0性能领域，达到或超过第一个PCIe 4.0 SSD控制器（Phison E16，8ch @ 800Mb / s）提供的吞吐量。正如诸如SK hynix GoldP31之类的驱动器，每个通道上支持高IO速度的高级4通道控制器，比8通道控制器更高的功率效率运行。

要达到更高的IO速度，需要对NAND裸片上的接口逻辑进行重大升级，如PCI Express那样，增加的功耗是一个主要问题。三星正在通过使用双模式驱动程序和终端解决此问题。当由于总线上的更多负载而需要更高的驱动强度时（每个通道有更多的裸片），将使用PMOS晶体管进行上拉，否则，可以使用NMOS晶体管并降低驱动器的功耗一半以上。这为三星提供了一个单一的接口设计，该设计可以很好地适用于小型消费类SSD和大型企业驱动器，每个通道具有更多的裸片。三星已经在多芯片封装中添加了单独的重定时器芯片，这些芯片在相同的一个或两个通道上将许多NAND芯片堆叠在一起。

串堆叠：首款三层串堆叠NAND

串堆叠已被视为将3D NAND扩展到更高层数的必要手段。只有三星能够一次构建超过100层的3D NAND，并且其他所有人早就转而使用堆叠两个具有更合理层数的decks了。这意味着例如美光公司的176层3D NAND构建为88层存储单元，然后在其顶部再构建88层。与一次完成所有层相比，这会增加成本，并且需要在平台之间的接口处仔细对齐。但是另一种选择是使垂直通道更宽，以使纵横比（宽度与深度）保持在当前晶圆厂技术可以蚀刻的范围之内。

英特尔的144L QLC设计已经转向了3层堆栈：48 + 48 + 48层，而不是期望的72 + 72。前一代产品是48 + 48层（总共96L）设计，因此，除了第三次重复相同的沉积，蚀刻和填充步骤顺序外，对于存储器阵列本身的制造方式几乎没有什么改变。英特尔通过这种方法影响了工厂的吞吐量，但它可能有助于更好地控制从堆栈顶部到底部的通道和单元尺寸的变化，对QLC及其独特性的关注，这可能是一个更大的问题。决定仍然使用浮栅存储单元，而不是切换到电荷陷阱单元。

人工智能芯片与自动驾驶
相关阅读:
再谈Linux内核中的RCU机制
 Linux下的crontab定时执行任务命令详解
 Linux 2.6内核中新的锁机制--RCU
linux内核自锁旋spinlock常用宏解释
 Linux内核list/hlist解读
 Linux下0号进程的前世(init_task进程)今生(idle进程)----Linux进程的管理与调度（五）
Linux下的进程类别（内核线程、轻量级进程和用户进程）以及其创建方式--Linux进程的管理与调度（四）
Linux进程ID号--Linux进程的管理与调度（三）
内核源码阅读（三）进程命名空间和用户命名的实现
 Linux的命名空间详解--Linux进程的管理与调度（二）
原文地址：https://www.cnblogs.com/wujianming-110117/p/14901937.html