《具有局部电力和冷却层以及全局互连的计算机处理器系统.pdf》由会员分享,可在线阅读,更多相关《具有局部电力和冷却层以及全局互连的计算机处理器系统.pdf(68页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104050141A43申请公布日20140917CN104050141A21申请号201410090673022申请日2014031213/801,07120130313USG06F15/1720060171申请人国际商业机器公司地址美国纽约72发明人A布于克托苏诺格卢PG埃玛AM哈特斯泰因MB希利KK凯拉斯74专利代理机构北京市中咨律师事务所11247代理人于静张亚非54发明名称具有局部电力和冷却层以及全局互连的计算机处理器系统57摘要本发明涉及一种具有局部电力和冷却层以及全局互连的计算机处理器系统。一种计算机处理器系统包括以物理方式聚合和结合的多个多芯片系统。每个多芯片。
2、系统包括结合在一起的多个芯片,以及局部互连和输入/输出布线层。全局互连网络连接到每个多芯片系统的所述局部互连和输入/输出布线层以便将所述多芯片系统互连在一起。一个或多个所述多芯片系统包括结合在一起的多个处理器芯片。30优先权数据51INTCL权利要求书2页说明书28页附图37页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书28页附图37页10申请公布号CN104050141ACN104050141A1/2页21一种计算机处理器系统,包括多个多芯片系统,所述多个多芯片系统以物理方式聚合和结合,其中每个多芯片系统包括多个芯片,所述多个芯片结合在一起;以及局部互连和输入/输出布。
3、线层;以及全局互连网络,所述全局互连网络连接到每个多芯片系统的所述局部互连和输入/输出布线层以便将所述多芯片系统互连在一起,其中至少一个多芯片系统包括结合在一起的多个处理器芯片。2根据权利要求1的计算机处理器系统,其中至少一个所述多芯片系统包括结合在一起的多个存储芯片。3根据权利要求2的计算机处理器系统,其中所述多个存储芯片包括L4高速缓冲存储器。4根据权利要求2的计算机处理器系统,其中所述多个存储芯片包括L3高速缓冲存储器。5根据权利要求1的计算机处理器系统,其中所述多芯片系统中的至少一个多芯片系统包括局部电力转换器层以便为该多芯片系统提供局部电力。6根据权利要求1的计算机处理器系统,其中所。
4、述多芯片系统中的至少一个多芯片系统包括局部冷却层以便为该多芯片系统提供局部冷却。7根据权利要求6的计算机处理器系统,其中所述局部冷却层包括液体冷却板,所述液体冷却板具有连接到液体冷却剂传送系统的局部入口和局部出口。8根据权利要求1的计算机处理器系统,其中所述全局互连网络包括全局电总线。9根据权利要求8的计算机处理器系统,其中所述全局电总线包括沿着与形成所述多芯片系统的芯片的平行平面垂直的方向延伸的电布线。10根据权利要求9的计算机处理器系统,其中所述全局电总线的所述电布线包括在形成所述多芯片系统的芯片中形成并延伸通过所述芯片的布线和通孔。11根据权利要求9的计算机处理器系统,其中所述全局电总线。
5、的所述电布线包括在与形成所述多个多芯片系统的芯片的边缘相连的单独衬底中形成的布线。12根据权利要求1的计算机处理器系统,其中所述全局互连网络包括光总线。13根据权利要求12的计算机处理器系统,其中每个多芯片系统在所述光总线上使用不同波长的光通信。14根据权利要求12的计算机处理器系统,其中所述光总线布置在所述多芯片系统附近并沿着与形成所述多芯片系统的芯片的平行平面垂直的方向延伸。15根据权利要求1的计算机处理器系统,其中每个多芯片系统均包括局部电力转换器层和局部冷却层。16根据权利要求15的计算机处理器系统,其中第一多芯片系统的所述局部冷却层布置在第二多芯片系统的所述局部电力转换器层附近并与第。
6、二多芯片系统的所述局部电力转换器层接触。17根据权利要求1的计算机处理器系统,其中所述至少一个多芯片系统的所述多个处理器芯片使用在所述处理器芯片中形成的垂直通孔而彼此相连,并且其中每个所述处理权利要求书CN104050141A2/2页3器芯片共同连接到所述局部互连和输入/输出布线层并共享在所述局部互连和输入/输出布线层上形成的I/O端口。18一种计算机处理器系统,包括多个多芯片系统,其中每个多芯片系统均包括多个芯片,所述多个芯片结合在一起;以及局部互连和输入/输出布线层,其中至少一个多芯片系统包括结合在一起的多个处理器芯片;全局互连网络,所述全局互连网络连接到每个多芯片系统的所述局部互连和输入。
7、/输出布线层以便将所述多芯片系统互连在一起;以及衬底,在所述衬底上安装所述多个多芯片系统,其中所述多芯片系统的所述芯片彼此平行地边缘安装到所述衬底。19根据权利要求18的计算机处理器系统,其中所述全局互连网络包括在所述多芯片系统所边缘安装到的所述衬底内形成的电总线。20根据权利要求18的计算机处理器,其中将所述多芯片系统边缘安装到所述衬底,并且在所述多芯片系统之间具有空间以便允许空气或冷却剂流过所述空间并为所述多芯片系统提供冷却。权利要求书CN104050141A1/28页4具有局部电力和冷却层以及全局互连的计算机处理器系统技术领域0001本领域一般地涉及三维计算机处理器系统,具体地说,涉及包。
8、括多个多芯片系统的三维计算机处理器系统,这些多芯片系统采用包括多个局部电力和冷却层的聚合结构,以及在聚合结构中连接多芯片系统的全局互连结构。背景技术0002在半导体处理器芯片制造领域中,在处理器技术的早期阶段,许多公司都制造单芯片处理器。在过去十年左右的时间里,随着摩尔定律继续缩小尺寸,许多公司和其它实体设计了在单个层上包含多个处理器的处理器芯片。但是,随着每个芯片的处理器数量继续增加,处理器之间的片上通信成为问题。例如,随着处理器芯片的2D大小增加以容纳更多处理器,处理器之间的水平布线长度增加(在毫米或厘米范围之内),从而导致处理器之间的通信的周期延迟,并且需要沿着处理器之间的通信路径使用高。
9、功率的片上驱动器。此外,随着工作频率增加,有关处理器之间的通信的周期延迟增加。此外,随着集成密度增加,以下操作越来越成为问题并且成本高昂在多芯片系统中实现全局互连方案以便连接多个处理器,以及实现高效冷却结构以便适当地去除由多芯片结构中的高功率、高密度处理器芯片生成的热量。发明内容0003本发明的各实施例一般地包括三维计算机处理器系统,具体地说,包括包含多个多芯片系统的三维计算机处理器系统,这些多芯片系统采用包括多个局部电力和冷却层的聚合结构,以及在聚合结构中连接多芯片系统的全局互连结构。0004在本发明的一个实施例中,一种计算机处理器系统包括以物理方式聚合和结合的多个多芯片系统。每个多芯片系统。
10、包括结合在一起的多个芯片,以及局部互连和输入/输出布线层。全局互连网络连接到每个多芯片系统的所述局部互连和输入/输出布线层以便将所述多芯片系统互连在一起。一个或多个所述多芯片系统包括结合在一起的多个处理器芯片。0005在本发明的另一个实施例中,一种计算机处理器系统包括多个多芯片系统。每个多芯片系统包括结合在一起的多个芯片、局部互连和输入/输出布线层。一个或多个多芯片系统包括结合在一起的多个处理器芯片。全局互连网络连接到每个多芯片系统的所述局部互连和输入/输出布线层以便将所述多芯片系统互连在一起。所述多个多芯片系统彼此平行地边缘安装(EDGEMOUNTED)到所述衬底。0006从以下将结合附图阅。
11、读的对本发明的各实施例的详细描述,将描述这些和其它实施例或者使它们变得显而易见。附图说明0007图1是多处理器芯片的示意透视图;说明书CN104050141A2/28页50008图2是根据本发明的一个示例性实施例的3D层叠式多处理器结构的示意透视图;0009图3是芯片封装结构的示意图;0010图4在概念上示出根据本发明的另一个示例性实施例的3D层叠式多处理器结构;0011图5示意性地示出根据本发明的另一个示例性实施例的3D层叠式多处理器结构的物理实现,其基于图4中所示的概念实现;0012图6示意性地示出根据本发明的一个示例性实施例的用于控制3D层叠式多处理器结构的多模式操作的方法;0013图7。
12、是可以应用本发明的原理的处理器的示意平面图;0014图8是根据本发明的一个示例性实施例的3D层叠式多处理器设备的示意透视图,其包括具有与图7所示相同的处理器布局的一对处理器;0015图9A是根据本发明的一个示例性实施例的3D层叠式多处理器设备的示意透视图,其包括具有对齐的L2和L3高速缓存的在彼此之上垂直层叠的第一和第二处理器;0016图9B是根据本发明的一个示例性实施例的图9A的3D层叠式多处理器设备的示意透视图,其具有结合的L3高速缓存以便由第一和第二处理器用作共享L3高速缓存;0017图9C是根据本发明的一个示例性实施例的图9A的3D层叠式多处理器设备的示意透视图,其具有结合的L3高速缓。
13、存以及L2高速缓存以便由第一和第二处理器用作共享L2高速缓存和共享L3高速缓存;0018图10是根据本发明的另一个示例性实施例的3D层叠式多处理器设备的示意透视图;0019图11示意性地示出根据本发明的一个示例性实施例的图10中所示的处理器的各种组件之间的通信路径;0020图12示意性地示出用于平面处理器系统的处理器互连结构;0021图13示意性地示出根据本发明的一个示例性实施例的用于3D层叠式多处理器系统的处理器互连结构;0022图14示意性地示出根据本发明的另一个示例性实施例的用于3D层叠式多处理器系统的处理器互连结构;0023图15是根据本发明的一个示例性实施例的3D层叠式多处理器系统的。
14、示意顶部透视图,其具有基于图14的处理器互连结构的处理器互连结构;0024图16示意性地示出根据本发明的另一个示例性实施例的用于3D层叠式多处理器系统的处理器互连结构;0025图17A示意性地示出根据本发明的一个示例性实施例的具有相同布局的两个处理器,其中两个相同处理器的对应区域被标识为快于或慢于其对应区域;0026图17B示意性地示出根据本发明的一个示例性实施例的3D层叠式处理器结构,其通过垂直层叠图17A中所示的两个处理器形成,并且作为由每个处理器的最快对应区域组成的单个处理器操作;0027图18示意性地示出根据本发明的一个示例性实施例的用于在3D层叠式处理器系统中实现预运行功能的方法;说。
15、明书CN104050141A3/28页60028图19示意性地示出根据本发明的一个示例性实施例的通过垂直层叠多个处理器形成的3D层叠式处理器结构,每个处理器具有类似的状态寄存器布局,其中多个处理器可以独立或以协作方式工作以便共享其状态寄存器;0029图20示出图19的3D层叠式处理器结构的多种操作模式;0030图21是示出图19的3D层叠式处理器结构的一种操作模式的流程图;0031图22示意性地示出可以应用本发明的各实施例的存储阵列;0032图23A、23B和23C共同示出根据本发明的一个示例性实施例的用于构造包括具有不同存取模式的多个级别存储器的存储结构的方法;0033图24示意性地示出用于。
16、将存储在两个44存储块A和B中的矩阵相乘并且将矩阵相乘结果存储在44存储块C中的过程;0034图25示意性地示出根据本发明的一个示例性实施例的使用单个基元(PRIMITIVE)操作存取存储块的行和列的方法;0035图26示出根据本发明的一个示例性实施例的包括存储单元阵列和对角线存取布线模式的存储阵列;0036图27示出根据本发明的另一个示例性实施例的包括存储单元阵列和对角线存取布线模式的存储阵列;0037图28示出根据本发明的另一个示例性实施例的包括存储单元阵列和列移位后的存取布线模式的存储阵列;0038图29示意性地示出根据本发明的一个示例性实施例的在多个级别的存储装置上实现3D存取模式的3。
17、D存储结构;0039图30A、30B和30C示意性地示出根据本发明的示例性实施例的用于使用图29的示例性3D存储结构沿着各种维度存取数据的方法;0040图31示出根据本发明的一个示例性实施例的用于将2D数据阵列结构存储在存储器中的方法,其中在一个操作中实现存取行和列;0041图32示意性地示出根据本发明的一个示例性实施例的用于将3D数据阵列存储在3D存储结构中的方法;0042图33是可以应用本发明的各实施例的多芯片系统的侧面示意图;0043图34是可以应用本发明的各实施例的3D计算机处理器系统的高级透视图;0044图35是根据本发明的一个实施例的多芯片系统的侧面示意图;0045图36示出根据本。
18、发明的一个实施例的3D计算机处理器系统,其通过结合图35中所示的多个多芯片系统来构造;0046图37示意性地示出根据本发明的各实施例的用于将全局总线连接到3D计算机处理器系统的每个多芯片系统的技术;0047图38示出根据本发明的另一个实施例的3D计算机处理器系统;0048图39示出根据本发明的另一个实施例的3D计算机处理器系统。具体实施方式0049现在将针对通过以层叠式配置连接处理器形成的3D多处理器设备,以及用于控制3D层叠式多处理器设备以便选择性地以多种资源聚合和共享模式之一操作的方法,进说明书CN104050141A4/28页7一步详细地描述本发明的示例性实施例。0050图1是可以应用本。
19、发明的原理的多处理器芯片的示意透视图。具体地说,图1示意性地示出包括半导体管芯12的多处理器芯片10,半导体管芯12具有在管芯12上形成的多个处理器C1、C2、C49(总体表示为CN)。处理器CN被布置在“平面”系统中,其中在2D空间中每个处理器CN具有它自己的专用占用空间。可以使用作为芯片10的BEOL(后段制程)结构的一部分形成的水平布线和电互连,在2D平面中将处理器CN彼此相连,如所属技术领域的普通技术人员很容易理解的那样。0051在如图1中所示的平面系统中,随着处理器数量增加,处理器之间的通信成为问题。例如,随着芯片的2D大小增加以容纳更多处理器,处理器之间的水平布线长度增加(在毫米或。
20、厘米范围之内),从而导致处理器之间的通信路径中的周期延迟。这种周期延迟需要沿着处理器之间的通信路径使用高功率的片上驱动器。此外,随着工作频率增加,这种周期延迟也增加。0052本发明的原理利用芯片层叠技术,以便使用多个处理器芯片层形成3D层叠式多处理器结构,其中两个或更多处理器芯片被集成到具有单芯片“占用空间”的单个层叠式系统(即,层叠式处理器芯片看似单个芯片)。术语“处理器芯片”如在此使用的那样,指具有一个或多个处理器的任何半导体芯片或管芯。术语“多处理器芯片”如在此使用的那样,指具有两个或更多处理器的任何半导体芯片或管芯。一般而言,在3D层叠式结构中,两个或更多芯片层包括对齐并使用短垂直互连。
21、而互连的处理器,以便一个层中的处理器对齐并垂直连接到另一个层中的对应处理器。应该理解,当不同处理器芯片层上的两个不同处理器或处理器组件/元件被称为彼此“对齐”时,术语“对齐”例如指两个不同处理器或处理器组件/元件在不同层上彼此至少部分重叠或完全重叠。在这点上,不同处理器芯片层上的两个处理器或处理器组件/元件可以完全对齐,因为处理器或组件在3D处理器芯片层叠中的每个平面的相同2D位置中。备选地,处理器或处理器组件/元件可以基本对齐,但在3D处理器芯片层叠中的每个平面的2D位置之间具有某种偏移。0053例如,图2是根据本发明的一个示例性实施例的3D层叠式多处理器结构的示意透视图。具体地说,图2示意。
22、性地示出3D层叠式多处理器芯片20,其包括第一多处理器芯片22A和在第一多处理器芯片22A之上垂直层叠的第二多处理器芯片22B。在图2的示例性实施例中,多处理器芯片22A和22B基本相同(组件结构相同,但互连结构可能有所变化),并且被示出为具有49个集成处理器,类似于图1中所示的多处理器芯片10。具体地说,第一多处理器芯片22A包括多个处理器C1A、C2A、C49A,第二多处理器芯片22B包括多个处理器C1B、C2B、C49B。第一和第二多处理器芯片22A和22B相互垂直层叠并彼此相连,以便处理器对C1A/C1B、C2A/C2B、C49A/C49B(总体称为CNA/CNB)对齐并使用垂直互连彼。
23、此相连。0054使用图2中所示的示例性结构,每个对齐的处理器层叠CNA/CNB包括多个垂直连接的处理器,它们共同共享相同的I/O连接。这些I/O连接在内部多路复用,以便在2D空间中的每个处理器位置处,多个垂直层叠(并连接)的处理器CNA/CNB(对其它层叠式处理器而言)逻辑上看似作为单个处理器操作和运行。可以扩展本发明的原理以便包括多个3D层叠式处理器芯片(例如图2中所示),它们共同封装在封装衬底上。现在将参考图3、4和5进一步详细地讨论这些原理。说明书CN104050141A5/28页80055图3是可以应用本发明的原理的芯片封装结构的示意图。具体地说,图3示出处理器系统30,其包括封装衬底。
24、32以及安装在封装衬底32上的多个处理器芯片P1、P2、P3、P4、P5和P6。封装衬底32包括多个电互连和迹线,它们形成在处理器芯片P1、P2、P3、P4、P5和P6之间提供多对多连接的电布线34。每个处理器芯片P1、P2、P3、P4、P5和P6都相同,并且可以是均具有多个处理器的多处理器芯片。0056图4和5示意性地示出根据本发明的另一个示例性实施例的3D层叠式处理器系统。具体地说,图4是示例性3D层叠式多处理器封装结构40的概念图。类似于图3中所示的封装结构30,图4的3D层叠式多处理器封装结构40包括封装衬底32以及安装在封装衬底32上的多个第一层处理器芯片P1A、P2A、P3A、P4。
25、A、P5A和P6A。封装衬底32包括多个电互连和迹线,它们形成在处理器芯片P1A、P2A、P3A、P4A、P5A和P6A之间提供多对多连接的电布线34。每个处理器芯片P1A、P2A、P3A、P4A、P5A和P6A都相同,并且可以是均具有多个处理器的多处理器芯片。0057如图4中进一步所示,多个第二层处理器芯片P1B、P2B、P3B、P4B、P5B和P6B使用短垂直连接36垂直布置并安装在对应的第一层处理器芯片P1A、P2A、P3A、P4A、P5A和P6A上。第二层处理器芯片P1B、P2B、P3B、P4B、P5B和P6B与对应的第一层处理器芯片P1A、P2A、P3A、P4A、P5A和P6A相同,。
26、并且可以是均具有多个处理器的多处理器芯片。图4示出多条虚线34A,它们表示第二封装芯片层中的处理器芯片P1B、P2B、P3B、P4B、P5B和P6B之间的虚拟多对多布线。这些虚拟导线34A物理上不存在,而是表示第二层处理器芯片P1B、P2B、P3B、P4B、P5B和P6B彼此相连,并且可以使用在封装衬底32上形成的同一物理布线34通信。0058图5示意性地示出根据本发明的另一个示例性实施例的3D层叠式多处理器结构50的物理实现,其基于图4中所示的概念实现。如图5中所示,物理上存在于3D层叠式多处理器封装结构50中的仅有布线是在封装衬底32上形成的布线34,以及在对应的处理器芯片层叠P1A/P1。
27、B、P2A/P2B、P3A/P3B、P4A/P4B、P5A/P5B和P6A/P6B之间形成的短垂直互连36。在图5的3D层叠式多处理器封装结构50中,给定垂直层叠P1A/P1B、P2A/P2B、P3A/P3B、P4A/P4B、P5A/P5B和P6A/P6B中的处理器芯片将使用在处理器芯片之间形成的垂直连接36彼此通信(并且这些垂直连接36包括在不同处理器芯片层中的对应的对齐处理器之间形成的连接)。0059根据本发明的示例性实施例,可以使用已知的半导体制造技术结合两个处理器芯片,其中两个相同的处理器芯片可以“面对背”或“面对面”结合在一起。在“面对背”配置中,将第一处理器芯片的活动表面(面)结合。
28、到第二处理器芯片的不活动表面(背),其中两个处理器芯片的处理器和其它对应元件均对齐。使用这种结构,垂直布线(例如,导电过孔)可以在第一处理器芯片的活动表面中形成,并在第一处理器芯片的活动表面上显示为第一接触垫阵列,并且垂直布线(例如,硅通孔)可以通过第二处理器芯片的背面形成,并在第二处理器芯片的不活动表面上显示为第二接触垫阵列。当第一和第二处理器芯片面对背结合时,可以将第一和第二接触垫阵列焊接在一起,从而在对齐的处理器元件之间形成短垂直连接。为了缩短垂直连接的长度,可以使用已知技术研磨第二处理器芯片的背面,以使管芯更薄。0060在“面对面”配置中,其中结合两个相同的处理器芯片(功能相同,它们作。
29、为彼此镜说明书CN104050141A6/28页9像),以便将第一处理器芯片的活动表面(面)结合到第二处理器芯片的活动表面(面),并且两个芯片的处理器和其它元件对齐。使用这种结构,垂直布线(例如,导电过孔)可以在第一处理器芯片的活动表面中形成,并在第一处理器芯片的活动表面上显示为第一接触垫阵列,并且垂直布线可以在第二处理器芯片的活动表面中形成,并在第二处理器芯片的活动表面上显示为第二接触垫阵列。当第一和第二处理器芯片面对面结合时,可以将第一和第二接触垫阵列焊接在一起,从而在对齐的处理器元件之间形成短垂直连接。0061使用3D层叠式处理器系统,可以通过聚合和/或共享资源独立或协作操作两个或更多处。
30、理器,这些处理器在其平面空间中大约(或几乎)位于一起但位于不同层上,以便增强功能并促使工作阈值、可靠性和性能高于平面系统(其中在2维封装中,每个芯片具有它自己的空间)中实际获得的工作阈值、可靠性和性能。下面将参考图618进一步详细地讨论用于控制3D层叠式多处理器以便选择性地以一种或多种多资源聚合和/或共享模式来操作的各种方法。一般而言,对于某些应用,用于选择性地控制3D层叠式多处理器的示例性方法能够同时但彼此独立地操作一组层叠式处理器。对于下面讨论的其它应用,可以使用处理器层之间的短垂直连接作为快速通信路径,通过跨各层共享或聚合资源(例如,线程、执行单元、高速缓存等),控制两个或更多垂直层叠的。
31、处理器以便选择性地以协作方式操作,从而提供增强的操作。0062根据本发明的各示例性实施例,采用控制方案以控制两个或更多垂直层叠的处理器的多模式操作,以便可以选择性地控制垂直层叠中的处理器独立或以协作方式操作。例如,图6示意性地示出根据本发明的一个示例性实施例的用于控制3D层叠式多处理器结构的多模式操作的方法。具体地说,图6中所示的控制方案60包括多路复用器61,其选择性地接收多个配置参数组62和64以及配置模式控制信号66作为输入。选择性地输出不同的配置参数组A和B作为到给定垂直处理器层叠的机器输入68,其中机器输入配置处理器层叠以便以机器输入68指定的多种不同操作模式之一操作。尽管为了易于说。
32、明示出两个输入配置参数组A和B,但多路复用器61可以输入并选择性地输出三个或更多不同的配置参数组。应该理解,图6的控制方案是一个处理器层叠的本地系统,并且给定处理器系统中的每个处理器层叠将具有图6中所示的对应控制电路。0063图6的控制系统60可以由全局控制系统(例如服务处理器)控制,该全局控制系统扫描控制信息并将配置控制信号66输出到处理器系统中的每个多路复用器61,以便以给定方式配置处理器层叠。可以使用垂直层叠的处理器的内部(片上)电路对从每个多路复用器61输出到对应处理器层叠的机器输入68进行进一步多路复用和/或解码,以便控制各种I/O端口(要被共享或绕过)和其它开关,可以采用这些开关在。
33、给定处理器层叠中的不同处理器层之间控制资源的共享和/或聚合。0064在下面讨论的本发明的各种示例性实施例中,当垂直层叠中的两个或更多处理器在空间上重合时,可以以各种方式协同组合处理器及其组件,以便为处理器元组系统(PROCESSORTUPLEDSYSTEM)提供多种新用途,从而提高性能。首先,应该注意,因为垂直处理器层叠将两个或更多处理器(更多或更少确切或大约)正好放在彼此之上,所以作为最初印象,这似乎不切实际,因为它使得与任何热点(往往主要位于处理器中)关联的热量加倍。在这点上,可以实现示例性控制方案,以便通过以较低功率级别运行层叠式处理器(例如,通过调节工作电压和/或工作频率),控制位于一。
34、起的处理器叠层的功率,以便可管理总说明书CN104050141A7/28页10功率(例如,总功率密度和/或总功耗)。0065更具体地说,在本发明的一个示例性实施例中,可以以多种操作模式之一操作3D层叠式处理器设备(通过垂直层叠并连接多个处理器芯片制造),以便控制3D层叠式处理器设备的功率。例如,在具有第一和第二处理器芯片的3D层叠式处理器设备中,可以选择性地以第一模式操作3D层叠式处理器设备,其中第一处理器芯片开启而第二处理器芯片关闭。在第一模式中,第一处理器芯片的每个处理器开启,并可以以最大频率和满功率工作,并且具有封装结构可以支持的总功率(例如,针对给定封装结构,控制某些热点处的功率密度,。
35、以便封装中的给定热点处的热量不会过多)。0066在另一种操作模式中,可以选择性地以第二模式操作3D层叠式处理器设备,其中第一和第二处理器芯片都开启。在这种情况下,两个处理器芯片可以以最大频率和功率级别工作,并且具有封装结构可以支持的总功率(例如,功率密度或功耗)。在另一种情况下,在第二操作模式中,第一和第二处理器芯片的每个处理器可以不超过满功率工作,以便3D层叠式处理器设备的总功率与仅有第一处理器芯片或第二处理器芯片的每个处理器以满功率和/或最大频率工作时的3D层叠式处理器设备的总功率基本相同。换言之,为了获得相同的功耗或功率密度分布,每个处理器芯片层中的处理器可以以较低电源电压(或较低工作频。
36、率)工作,以便聚合功耗与其中仅有一个处理器芯片层上的处理器活动的第一模式相同或类似。0067根据本发明的原理的功率控制方案基于以下实现提供给处理器的功率可以大百分比(例如,50)减少,同时只需使处理器的工作频率减少更小量(例如,10)。功率控制方案可以用于选择性地控制处理器的电源电压或者通过调整工作频率,其中每一项都用于调整处理器芯片的整体功耗。因此,在具有多个处理器平面的3D层叠式处理器芯片结构中,如果能够调节电源电压,并且选择性地使处理器平面的子集断电,则允许在系统中具有一系列操作模式,包括一种或多种模式,其中多个处理器平面以较低电压操作,以便保持总功率与操作一个处理器平面时消耗的总功率基。
37、本相同(或者,将多个处理器平面作为一个处理器平面操作时,通过在3D层叠式处理器芯片结构中的给定热点处保持相同的功率密度)。0068在3D处理器叠层中,在每种功率控制操作模式中,每组垂直层叠的处理器使用一组相同的互连信号(封装上以及封装外)。在这点上,因为垂直层叠中的每个处理器芯片层共享相同的互连信号,所以即使当以较低频率(在第二模式中)操作处理器芯片时,也需要更少的通信要求(更少的I/O带宽)。因此,3D层叠中的每个层产生的较低带宽要求(由于用于保持功耗恒定的约束需要较低频率操作)促进了本发明的如下原理采用用于重用(多路复用)互连信号和封装I/O信号的技术。0069在本发明的其它示例性实施例中。
38、,在包括两个或更多层叠式处理器芯片层的处理器系统中,其中每个处理器芯片包括一个或多个处理器,其中不同处理器芯片层中的处理器通过不同处理器芯片层之间的垂直连接进行连接,模式控制电路(例如上面参考图6示出和描述的)可以选择性地配置不同芯片层中的两个或更多处理器以便以多种操作模式之一操作。例如,在一种操作模式中,给定叠层中的一个或多个或全部处理器芯片可以独立操作,其中独立操作的处理器芯片的层之间的垂直连接可以被用作叠层中的独立操作的处理器芯片之间的通信路径。0070在另一种操作模式中,可以聚合不同处理器芯片层中的各种组件/资源,以便增说明书CN104050141A108/28页11强不同处理器芯片层。
39、上的一个或多个处理器的微体系结构。如所属技术领域的普通技术人员很容易理解的,处理器的术语“微体系结构”指处理器的物理(硬件)配置。处理器的微体系结构包括诸如高速缓存、总线结构(路径宽度)之类的组件、执行单元、指令单元、算术单元的布置和数量等。例如,假设3D层叠式处理器芯片设备包括具有第一处理器的第一处理器芯片和具有第二处理器的第二处理器芯片。在一种操作模式中,其中第一和第二处理器芯片都活动,可以通过聚合第一和第二处理器中的元件来配置或增强第一处理器芯片的第一处理器的微体系结构,并且可以通过聚合第一和第二处理器中的元件来配置或增强第二处理器芯片的第二处理器的微体系结构。在另一个实施例中,第一处理。
40、器芯片可以活动而第二处理器芯片可以不活动,其中通过使用不活动的第二处理器芯片的第二处理器的一部分,增强活动的第一处理器芯片的第一处理器的微体系结构。聚合的元件可以是执行单元、寄存器组、高速缓存等的各部分。0071在另一种示例性操作模式中,可以在不同处理器芯片层上的不同处理器之间“共享”不同处理器芯片层中的各种组件/资源。例如,如下面解释的,不同处理器芯片层上的两个不同处理器可以组合其高速缓存(例如,L1、L2或L3高速缓存),以便创建大小加倍但由两个处理器主动共享的高速缓存。在这种情况下,聚合的(组合的)组件或资源由不同处理器共享。在另一种示例性操作模式中,可以组合给定叠层中的不同处理器芯片层。
41、上的两个或更多不同处理器,以便操作单个处理器映像。下面将参考图7、8、9A、9B、9C、10、11、12、13、14、15、16、17A、17B、18、19、20和21,进一步详细地解释显示用于聚合和/或共享和/或组合处理器资源的不同操作模式的本发明的示例性实施例。0072例如,图7和8示出示例性操作模式,其用于选择性地配置不同处理器芯片层上的不同处理器以便聚合和/或共享不同处理器的执行单元的各部分,从而增强一个或多个不同处理器的执行能力。图7是可以应用本发明的原理的处理器70的示意平面图。图7示意性地示出处理器70的微体系结构,其中处理器70包括各种组件,例如L3高速缓存71、L2高速缓存7。
42、2、执行单元73和指令单元74。执行单元73包括第一浮点单元75和第二浮点单元76(其中第一和第二浮点单元75和76相同)以及一组浮点寄存器77。可以使用图7的多个处理器70构造例如图8中所示的3D层叠式多处理器结构。0073具体地说,图8是3D层叠式多处理器设备80的示意透视图,其包括第一处理器70A和在第一处理器70A之上垂直层叠的第二处理器70B。在图8的示例性实施例中,处理器70A和70B的结构相同,并且具有图7中所示的处理器布局。具体地说,第一处理器70A包括L3高速缓存71A、L2高速缓存72A、执行单元73A和指令单元74A。执行单元73A包括第一浮点单元75A和第二浮点单元76。
43、A(其中第一和第二浮点单元75A和76A相同)以及一组浮点寄存器77A。此外,第二处理器70B包括L3高速缓存71B、L2高速缓存72B、执行单元73B和指令单元74B。执行单元73B包括第一浮点单元75B和第二浮点单元76B(其中第一和第二浮点单元75B和76B相同)以及一组浮点寄存器77B。0074在本发明的一个示例性实施例中,第一和第二处理器70A和70B的执行单元73A和73B彼此对齐并使用短垂直连接彼此相连。使用这种结构,执行单元可以垂直布线,以便对于图8中所示的两个处理器70A和70B,第一处理器70A的执行单元73A可以在功能上包括处理器对的执行单元73A/73B的元件的一半,并。
44、且第二处理器70B的执行单元73B可以在功能上包括处理器对的执行单元73A/73B的元件的另一半,其中选择每对一半以便最小说明书CN104050141A119/28页12化每个执行单元的平面面积。0075执行单元的这种3D聚合优于传统的平面几何结构。在传统的平面系统中,可以连接位于同一平面中的两个处理器的执行单元,以便可以将一个执行单元的输出输入到第二执行单元。但是,两个处理器的执行单元之间的“水平”电互连可以相对很长(例如,5毫米20毫米),以便在处理器之间的信号传输中可以具有一个或两个“死”周期,这将在信号传输中导致不需要的延迟。相比之下,在例如图8中所示的3D层叠式处理器上的处理器体系结。
45、构中,每个处理器上的执行单元的元件的一半有效地聚合成新的执行单元,以便每个平面中的执行单元实际上具有更小的面积。因为每个处理器的相同元件在空间上位于一起,所以通过跨3D层垂直连接执行单元元件获得两个处理器的聚合组件区域。0076例如,在图8的示例性实施例中,假设每个处理器70A和70B具有两个相同的浮点单元75A/76A和75B/76B。在第一处理器平面70A中,可以采用12个周期的延迟将来自第一浮点单元75A的输出的信号传输到第二浮点单元76A的输入,因为浮点单元75A和76A之间具有水平距离。但是,如果垂直连接两个平面中的位于一起的第一浮点单元75A和75B对,并且垂直连接位于一起的第二浮。
46、点单元76A和76B对,则第一处理器70A的执行单元73A可以利用垂直连接的第一浮点单元75A和75B对,并且第二处理器70B的执行单元73B可以利用垂直连接的第二浮点单元76A和76B对,以便每个处理器70A和70B的执行单元仍具有两个浮点单元。0077处理器元件75A及76A和处理器元件75B及76B之间的垂直连接在处理器功能中提供更短的路径,并且允许使用3D框架中的不同处理器平面中的元件构造每个处理器70A和70B。这将有效地减小每个处理器的平面几何结构并从执行流中删除死周期,因为从一个执行元件(在一个平面上)的输出到执行元件(在另一个平面上)的输入的路径更快。可以将这些原理应用于执行单。
47、元的其它对齐组件(例如算术单元等),以及其它处理器元件(例如L2和L3高速缓存),如下面进一步详细地解释的那样。0078在图8中所示的本发明的其它示例性实施例中,每个处理器70A和70B可以独立于彼此使用,其中跨处理器层的处理器单元之间的垂直连接将不会用于聚合或共享资源。例如,在一种操作模式中,两个处理器70A或70B可以以减少的功率(例如,半功率)运行(通常在不相关程序上),以便总功率与一次仅有一个处理器70A或70B以满功率工作时的总功率基本相同。在另一种操作模式中,处理器70A或70B中的一个可以关闭,而另一个例如可以在高速模式(或加速模式)中以两倍功率工作。0079在本发明的另一个示例。
48、性实施例中,在增强的“加速”操作模式中,处理器70A或70B中的一个可以禁用(不活动),而另一个可以在高速模式(或加速模式)中以两倍功率工作,但其中活动的处理器可以使用不活动的处理器的执行单元的某些元件,从而增强其执行能力。例如,在图8的示例性实施例中,第二处理器70B(主处理器)可以开启并在高速加速模式中以增加的功率运行,而第一处理器70A可以关闭,但其中通过使用第一(不活动)处理器70A的元件,增强第二(活动)处理器70B的微体系结构。通过具体的实例,当在增强的加速模式中工作时,第二(活动)处理器70B的执行单元73B可以使用第一(不活动)处理器70A的浮点单元75A和76A以及寄存器77。
49、A,因此第二处理器70B可以使用四个浮点单元75A、75B、76A、76B以及额外的寄存器77A以增加的速度工作。这种增强的体系结构允许第二处理器70B更快且更高效地运行更强大的代码。使用这种框架,可以配置模式控制方案说明书CN104050141A1210/28页13以便可以关闭给定处理器,同时允许通过耦合或解耦到不活动的处理器的所需组件的电源线,选择性地使不活动的处理器的一个或多个组件通电和断电。0080在本发明的另一个示例性实施例中,可以使用垂直连接结合不同处理器芯片层中的不同高速缓存,以便处理器可以将高速缓存层次结构中的任何特定级别高速缓存作为单个共享高速缓存操作。例如,如果两个层叠式处理器具有对齐的L2高速缓存和对齐的L3高速缓存,则可以将对齐的L2高速缓存对作为具有两倍容量的单个共享L2高速缓存操作,并且可以将对齐的L3高速缓存对作为具有两倍容量的单个共享L3高速缓存操作。现在将参考图9A、9B和9C进一步详细地解释这些原理。0081图9A是3D层叠式多处理器设备90的示意透视图,其包括第一处理器90A和在第一处理器90A之上垂直层叠的第二处理器90B。在图9A的示例性实施例中,处理器90A和90B的结构相同,并且具有相应的处理器核心91A和91B、L2高速缓存92A和92B,以及L3高速缓存93A和93B。如图9A中所示,L2高速缓存92A和92B对齐并具有相。