所有处理都走向AI
All Processing Bends Toward AI
旧金山——谷歌正在试验机器学习(ML)来执行集成电路设计中的位置和路径,并取得了很好的效果。上周在ISSCC会议上宣布的这一发现,对人工智能(AI)和电路设计同样重要。
多年来,人工智能一直是电子行业中规模最大的东西,吸引了大量的半导体研究(连同风险投资和头条新闻)。认识到这一点,今年的集成固态电路会议(ISSCC)的主题是“为人工智能时代提供动力的集成电路”,开幕全体会议的目的是绘制人工智能引领半导体空间的程度。
赞助:智能设备的未来:上下文感知
四位全会发言人解释了人工智能的要求,例如,如何推动专门为人工智能应用而设计的新型处理器(与CPU和GPU并驾齐驱);推动结构创新(例如,芯片、多芯片包、插入器);甚至正在影响量子计算的发展。
全会的第一位发言人是谷歌人工智能的领头羊杰夫•迪恩。迪恩发布了一个机器学习(ML)概述的更新,他已经以一种或另一种形式呈现了一年多,目的是引入ML place-and-route工具的讨论。
一位人类专家放置和路由ASIC设计的结果与来自低功耗ML加速器芯片的结果。谷歌故意掩盖了部分图片。
他首先简要介绍了人工智能和机器学习的历史,从1995年学会玩双陆棋的机器开始,通过学习擅长国际象棋的机器运行,然后在围棋上运行,现在可以谈判复杂的电子游戏,如星际争霸“取得了显著的成功”。机器学习还被用于医学成像、机器人技术,计算机视觉、自动驾驶汽车、神经科学(分析脑部扫描显微镜)、农业、天气预报等。
赞助:Die-to-Die Connectivity连接选择正确的IP
几十年来推动计算的基本思想是,问题越大,你投入的处理能力就越大,你拥有的处理能力就越多,你能解决的问题就越大。有一段时间,这适用于用人工智能解决问题。
当问题空间变得如此巨大时,根本不可能积累足够的CPU(和/或GPU)来解决它们。
然而,事实证明,AI/ML并不需要典型的CPU/GPU电源。所需的数学可以更简单,所需的精度也要低得多。这种实现有实际的影响:专用于AI/ML的处理器不必像cpu/gpu那样复杂。
这是导致专门设计用于推理的处理器的基本见解之一,比如现在已经进入第三代的谷歌自己的TensorFlow处理器。顺便说一句,人们普遍认为谷歌有一天会推出第四代TensorFlow,但如果有人希望谷歌能在ISSCC上透露任何有关它的信息,这些希望就破灭了。
在认识到推理所需的精度较低之后,又认识到训练所需的精度也较低,这是相对较新的。《EE时报》编辑莎莉•沃德•福克斯顿(Sally Ward Foxton)在她最近的博客《人工智能获取自己的数字系统》(artificialligencegetsinowsystemofnumbers)中解释了这一概念。
AI/ML处理器可以相对简单,因此相对便宜,而且我们现在有足够强大的AI/ML处理器,即使在巨大的数据集上也可以非常快速地训练。迪恩解释说,所有这些都使机器学习更容易深入到网络边缘。一个具体的例子是语音识别;迪恩说,截至2019年,谷歌已经有了一个相当紧凑的模型,可以在智能手机上工作。
每个人工智能应用程序-自动驾驶,医学成像,玩围棋-结果调整一个专用的人工智能/毫升系统来学习每一个。我们基本上每个应用程序都有一个AI。下一个问题是:有没有可能把一个学会了一件事的人工智能应用到其他类似的任务中去?
迪恩说:“我之所以提出这个问题,是因为我们开始考虑在ASIC设计中使用它作为位置和路径。“地点和路线的游戏远远大于围棋。问题的规模更大,不过目标并不像围棋那样明确。”
Google为place和route创建了一个学习模型,然后开始寻找这个工具是否可以推广。它能把它在一个设计上学到的东西应用到一个它从未见过的新设计上吗?答案是明确的“是”
此外,迪恩说:“我们在迄今为止尝试过的所有街区都取得了超人的结果。它的表现稍好一点,有时也明显好于人类。”
谷歌比较了使用机器学习(ML)自学放置和路由ASIC组件的人工智能的性能结果。测试电路是几个不同的模块,包括一个Ariane RISC-V CPU。Google对相同ML的性能进行了逐步的额外调整,所有这些都与商业工具的性能进行了比较。
“更好”包括在非常短的时间内演示place-and-route地点和路线。完成这项任务可能需要人类专家一周又一周的时间。迪恩报告说,一个ML放置器通常在24小时内完成相同的工作,其布局通常具有较短的线长度。ML placer在自动放置和路由工具方面也做得很好。
迪恩说,ML还可以扩展到集成电路设计过程的其他部分,包括使用ML来帮助生成测试用例,以便在ASIC设计验证中更充分地利用状态空间,还可以使用ML来改进高级综合,以便从高级描述中获得更优化的设计。
然而,这一切对ML的意义,与加速IC设计进度的意义一样重要。如果一个ML可以在一个类别中泛化,那么它可以泛化到其他类别中执行任务吗?
“未来的ML模型会是什么样子?”迪恩问。“我们可以训练一个模型来概括类似的任务吗?理想情况下,我们希望有一个模型能够学习完成数千或数百万项任务。”
人工智能物联网
联发科高级副总裁兼首席战略官寇鸿(音译)谈到了人工智能如何改变几乎所有连接到互联网的东西,人工智能物联网(AIoT)将从目前的数百亿台设备迅速扩展到2030年全球约3500亿台设备。
人工智能之所以走向边缘,部分原因在于它可以(正如迪恩在本次会议上早些时候提到的那样),而且在许多情况下,它必须这样做,原因有很多,包括减轻数据中心日益增长的处理负担,最小化网络上的流量,以及因为一些应用程序需要或将最好地工作于本地处理。
本地处理必须快速,必须专门为人工智能计算而设计,而且必须非常节能。
它们本质上是一种新的处理器类别。Loh称之为AI处理器单元(APU)。其他人把它们分别称为神经处理单元(NPU)、大脑处理单元(BPU)和其他名称。他说,举例来说,一个APU的灵活性可能不如一个CPU,但由于它是专门制造的,APU的速度可以高达20倍,功耗可以低55倍。
Loh说,APU的开发人员正在开发一种设备,这种设备的功率将达到每瓦特3个顶部,即1个顶部。他说他相信10顶/W的10顶是可以实现的。他说,最终有可能以30顶/瓦的速度达到100顶。
并非巧合的是,联发科的研究人员在ISSCC上提交了一份单独的论文,提出了“3.4到13.3TOPS/W 3.6 TOPS双核深度学习加速器,用于7NM5G智能手机SoC中的多用途人工智能应用”
在7nm。性能的提高将通过沿着摩尔定律的曲线到更小的工艺节点至少再跑一步来实现,从现在的7nm到5nm。洛克说,摩尔定律仍然适用。
不过,这并非没有警告。随着集成度的增加,晶体管的数量不断增加,继续遵循经典的摩尔定律曲线,“但每晶体管的成本并没有跟随,”Loh说。此外,由于芯片设计的复杂性,以及工艺步骤越来越复杂,尖端设备的成本正在飙升,这使得小公司无法使用这项技术。也有产量问题。
洛赫说,解决这些问题的一个共同办法是拆模。实际上,这可能意味着使用芯片技术等方法。“这会导致比摩尔定律更好的结果,”他说。无论是芯片组还是其他架构方法,这都意味着互连面临更多挑战。
系统技术“协同优化”
Imec的项目总监Nadine Collart将全会的主题提前到下一步,回顾了分离芯片的必要性,并找出了未来集成电路的替代结构和架构。她称之为it系统技术协同优化(STOC)。
她说,摩尔定律可能在未来几年适用,但扩展CMOS的难度越来越大。她用一系列越来越复杂的器件结构的例子来说明这一点,包括(但几乎不限于)FinFETs,、纳米片和叉形片,它们确实可以用于在芯片级实现进一步的CMOS缩放。
Imec证明了在绝缘体上的硅(SOI)衬底上以纳米脊的形式生长未指明的III-V材料的能力。
不过,她解释说,最终还是要付出一些东西。我们需要一种新的方法,“我们相信3D技术是最好的方法。这包括多模封装,使用键合,甚至在设备层面,与其他标准电池进行精细连接。”
找出使用哪种技术需要根据可用选项的属性匹配系统需求。科勒特说:“这将是一项复杂的运动。这将给EDA厂商带来压力,迫使他们提供工具,使设计者能够权衡自己的选择。
无线通信系统的前端模块将是一个特殊的挑战。“一般来说,这些系统是最多样化的系统——它们有许多不同的组件,采用不同的技术,而且随着更多的天线、更多的PAs、更多的滤波器,复杂性将增加……”
这个行业正朝着更高的频率和更高的效率发展。一种选择是将III-V材料(例如GaN和SiC)与CMOS结合起来,以获得这两种材料的好处。她说,这可以通过3D集成来实现,展示了几个例子,包括在绝缘体硅(SOI)衬底上生长III-V材料的3D纳米脊的图像,“但要实现这一点,还需要做很多工作。”
至于回忆?collart说:“像AI和ML这样的新应用正在推动着路线图的发展。”。他们需要快速存取存储器。“现在有一种趋势是在内存中考虑计算,随着逻辑和内存越来越接近,3D封装当然非常重要。”
她说,向前看,在高级应用程序中使用flash将意味着堆叠更多的层。在这些存储中也有一种改善通道电流的愿望。“要做到这一点,我们必须研究信道移动性,这意味着要研究III-V材料。”并且通过扩展来研究将一层硅与一层III-V材料堆叠在一起的3D架构。
与此同时,在DRAM中,电容器正从矮小的圆柱体成长为支柱——这是第三维度的又一次转变。其他存储器选项包括用于缓存替换的磁性存储器,以及3D存储类存储器collart指出,Imec已经展示了一种垂直FeFET(铁电场效应晶体管),仍需进一步研究。
她说,所有这些存储的发展,“都是在机器学习的背景下进行的。人工智能正在蓬勃发展。其中很多都在云中,但由于种种原因,我们希望把它移到边缘,那里的能源将受到限制。”
Imec比联发科更乐观,因为它认为可能达到10000顶/瓦。
“规模不断扩大。派对还没结束!”她总结道。“新的存储可能无法进入路线图,但它们可能在机器学习中有应用。”
量子计算
IBM研究主管达里奥·吉尔(Dario Gil)在全体会议上发表了“下一步是什么”的讲话,他说这是广义的人工智能,这几乎肯定会在量子计算机上实现。也就是说,他演讲的主旨是,最大的好处可能来自比特(数字处理)、神经元(AI)和量子计算(量子计算)的互补使用。
他指出,IBM在2016年通过云开放了对其第一台量子计算机的访问,现在它可以访问15台可用的量子计算机,包括其最新的53位模型。