算术处理装置.pdf

摘要
申请专利号：	CN201410100282.2	申请日：	2014.03.18
公开号：	CN104111817A	公开日：	2014.10.22
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 9/302申请日:20140318\|\|\|公开
IPC分类号：	G06F9/302	主分类号：	G06F9/302
申请人：	富士通株式会社
发明人：	吉村和浩; 葛毅; 堀尾一生
地址：	日本神奈川县
优先权：	2013.04.22 JP 2013-089479
专利代理机构：	北京集佳知识产权代理有限公司 11227	代理人：	朱胜;陈炜
PDF下载：	PDF下载

内容摘要

公开了一种算术处理装置，该算术处理装置包括：算术单元，配置成执行算术运算；以及流引擎，该配置成执行流处理，其中，算术单元的数据总线和流引擎的数据总线彼此紧耦合。

权利要求书

1.  一种算术处理装置，包括：
算术单元，配置成执行算术运算；以及
流引擎，配置成执行流处理，
其中，所述算术单元的数据总线与所述流引擎的数据总线彼此紧耦合。

2.  根据权利要求1所述的算术处理装置，还包括：
指令发出单元，配置成发出指令；
其中，所述指令发出单元将指令发出到所述算术单元以及将指令发出到所述流引擎。

3.  根据权利要求2所述的算术处理装置，
其中，所述流引擎包括：
读出电路，配置成从存储器读出数据，
执行电路，配置成对所读出的数据执行流处理；以及
写入电路，配置成将通过所述流处理所获得的算术运算结果写入到所述存储器。

4.  根据权利要求3所述的算术处理装置，
其中，所述读出电路包括出栈单元和第一寄存器；以及
所述出栈单元从在所述存储器中所包括的并且由起始地址和流长度所指示的第一存储器部分读出数据，并且将所读出的数据写入到所述第一寄存器。

5.  根据权利要求4所述的算术处理装置，
其中，所述执行电路包括执行单元和第二寄存器，以及
所述执行单元对在所述第一寄存器中所存储的数据执行流处理，并且将通过所述流处理所获得的算术运算结果存储在所述第二寄存器中。

6.  根据权利要求5所述的算术处理装置，
其中，所述执行电路包括多个分层的执行单元和多个第三寄存器，所述多个第三寄存器设置在层中的所述执行单元之间。

7.  根据权利要求5或6所述的算术处理装置，
其中，所述写入电路包括入栈单元，以及
所述入栈单元将在所述第二寄存器中所存储的所述算术运算结果写入到在所述存储器中所包括的并且由起始地址和流长度所指示的第二存储器部分。

8.  根据权利要求2至7中任一项所述的算术处理装置，
其中，由所述指令发出单元发出到所述流引擎的指令是单步指令，以及
所述流引擎具有管道级，所述管道级中的每个管道级依照所述单步指令中的一个单步指令执行一个处理。

9.  根据权利要求8所述的算术处理装置，
其中，参数信息被用于所述流处理中并且由单个长位长设定指令所代表。

10.  根据权利要求9所述的算术处理装置，
其中，被用于所述流处理中的所述参数信息包括每个流的起始地址、每个流的流长度以及算术运算模式。

11.  根据权利要求8所述的算术处理装置，还包括：
参数寄存器，将被用于所述流处理的参数信息一次性地设定在所述参数寄存器中，
其中，所述流引擎中的所述管道级中的每个管道级参考在所述参数寄存器中的所述参数信息以进行管道执行。

12.  根据权利要求2至7中任一项所述的算术处理装置，
其中，由所述指令发出单元发出到所述流引擎发的指令包括用于控制所述流引擎的对应的管道级的短位长微指令，所述指令是通过分离所述单步指令所获得的，以及
每个管道级依照对应的微指令独立地执行处理。

13.  根据权利要求12所述的算术处理装置，还包括：
第一先进先出缓冲器，设置在所述存储器与所述读出电路之间，
其中，所述存储器经受直接存储器存取控制，以及用于控制所述读出电路的处理的第一微指令被停止，以填满所述第一先进先出缓冲器并且停止所述流引擎的管道处理。

14.  根据权利要求12所述的算术处理装置，还包括：
第二先进先出缓冲器，设置在所述写入电路与所述存储器之间，
其中，所述存储器经受直接存取存储器控制，以及用于控制所述写入电路的处理的第二微指令被停止，以清空所述第二先进先出缓冲器并且停止所述流引擎的管道处理。

15.  根据权利要求12至14中任一项所述的算术处理装置，
其中，当依照超长指令字指令控制所述算术单元时，将用于控制所述流引擎中的每个管道级中的操作的微指令打包到所述超长指令字指令中。

说明书

算术处理装置
技术领域
在本文中所讨论的实施例涉及一种算术处理装置。
背景技术
近年，随着诸如智能手机和平板型电脑的便携式终端的通信量的增长，更高速的无线通信系统引起了注意。作为这样的高速无线通信系统，例如长期演进（LTE）得到广泛使用，并且对作为更高性能下一代移动通信系统的LTE Advanced（长期演进升级版）进行了标准化，以及针对实际使用提出了各种提议。
例如，当采用LTE Advanced时，作为无线通信基带处理，要进行大量的矩阵算术运算处理。
这不仅限于LTE Advanced，而且对于包括微波接入全球互通2（WiMAX2）和当前所使用的系统的各种无线通信系统（标准）也是如此。
通常，在无线通信基带处理中，进行与通信速度的增长成正比的大量的矩阵算术运算。例如，在LTE Advanced中，矩阵算术运算占整个算术运算的很大量。
为了以高速执行矩阵算术运算处理（流处理（stream processing）的一种），如下配置是适合的：在该配置中，串联连接其中存储有矩阵数据的存储器与算术单元；以及流引擎对从存储器所读出的数据进行矩阵算术运算并且将算术运算结果写出到存储器。
相应地，例如，为通用处理器的基本处理器与具有流引擎的协处理器的组合被提议作为用于进行LTE Advanced中的无线通信基带处理的算术处理装置（算术处理系统）。
此前，作为由基本处理器与具有流引擎的协处理器的组合所实现的算术处理系统，提议了各种系统。
现有技术的示例包括在日本公开专利公布第2011-197774号和日本公开专利公布第08-069377号中所公开的技术。
在这样的算术处理系统中，例如，当执行为协处理器指令的流指令时，基本处理器通过握手进行协处理器的状态监视、数据传输、执行的控制等。因此，发生开销。此开销被称为例如“通信周期开销”。
另外，例如，在当协处理器中的流引擎正在执行流处理时发生了中断的情况下，在进行等待直到流处理的执行完成为止之后进行中断处理。
即，在中断发生期间协处理器处于忙状态的情况下，基本处理器进行等待直到协处理器进入空闲状态为止。这进一步增加了通信周期开销。
发明内容
根据本发明的一个方面，算术处理装置包括：算术单元，配置成执行算术运算；以及流引擎，配置成执行流处理，其中，算术单元的数据总线与流引擎的数据总线彼此紧耦合（tightly coupled）。
将借助于在权利要求中具体地指出的元件和组合来实现并且获得本发明的目的和优点。
将理解，如所要求保护的，前述的一般描述和下面的详细描述两者均是示例性的和说明性的，并且不是对本发明的限制。
附图说明
图1是示出了算术处理装置的示例的框图；
图2是示出了根据本实施例的算术处理装置的示例的框图；
图3是示出了由根据本实施例的算术处理装置所进行的操作的框图；
图4是示出了根据本实施例的算术处理装置中的流引擎的停止操作的框图；
图5A和图5B是示出了由参照图4所描述的流引擎的停止操作所产生的优点的示例的图；
图6是示出了根据本实施例的算术处理装置中的读出电路的操作的示例的图；
图7是示出了根据本实施例的算术处理装置中的读出电路的操作的另一示例的图；
图8是示出了根据本实施例的算术处理装置中的执行电路的操作的示例的图；
图9是示出了根据本实施例的算术处理装置中的执行电路的操作的另一示例的图；
图10是示出了根据本实施例的算术处理装置中的写入电路的操作的示例的图；
图11是示出了根据本实施例的算术处理装置中的写入电路的操作的另一示例的图；
图12是示出了根据本实施例的算术处理装置中的参数信息的示例的图；
图13是示出了根据本实施例的算术处理装置中的单步指令（step instruction）的图（第1部分）；
图14A至图14C是示出了根据本实施例的算术处理装置中的单步指令的图（第2部分）；
图15是示出了根据本实施例的算术处理装置中的单步指令的修改例的图；
图16是示出了根据本实施例的算术处理装置中的微指令的图（第1部分）；
图17A至图17C是示出了根据本实施例的算术处理装置中的微指令的图（第2部分）；
图18A至图18C是示出了依照根据本实施例的算术处理装置中的微指令的存取控制的图；
图19示出了根据本实施例的算术处理装置中的微指令被嵌入到VLIW指令中的状态；
图20A至图20C是示出了根据图19所示的VLIW指令的前序处理的图；以及
图21A至图21C是示出了根据图19所示的VLIW指令的收尾处理的图。
具体实施方式
首先，在详细地描述算术处理装置的实施例之前，将参照图1描述算术处理装置的示例以及其问题。
图1是示出了算术处理装置的示例的框图。所示的算术处理装置（算术处理系统）是为通用处理器的基本处理器与具有流引擎的协处理器的组合。
在图1中，附图标记ID指示指令解释（Instruction Decode（指令解码））级，IF指示指令读出（Instruction Fetch（指令取出））级，以及RR/II指示指令发出（Instruction Issue（指令发出））级和寄存器读出（Register Read（寄存器读出））级。
附图标记EX指示执行（Execution（执行））级，MA指示存储器存取（Memory Access（存储器存取））级，以及RW指示寄存器写入（Register Write（寄存器写入））级。例如，图1所示的算术处理系统具有为通用处理器的基本处理器100和包括流引擎200的协处理器300。
在基本处理器100中，在IF级中，指令取出单元101从指令存储器108取出（读出）指令；在ID级中，指令解码单元102接收由指令取出单元101所读出的指令并且对指令进行解码（解释）。
在RR/II级中，寄存器读出单元103进行寄存器110的读出，并且指令发出单元104将由指令解码单元102所解释的指令发出到算术单元105。
在EX级中，算术单元105根据由指令发出单元104所发出的指令执行算术运算；在MA级中，存储器存取单元106对存储器（数据存储器）109进行存取，其涉及加载（读出）或存储（写入）。
在RW级中，寄存器写入单元107将由算术单元105所获得的算术运算结果或从数据存储器109所加载的数据写入到寄存器110。
如由图1中的附图标记P100所指示地，基本处理器100适于进行管道执行（pipeline execution），其将寄存器110与存储器109之间或寄存器110与算术单元105之间的处理作为根据单个指令的处理。
在协处理器300中，在IF级中，指令取出单元301从指令存储器108读出指令；在ID级中，指令解码单元302读出并且解释由指令取出单元301所读出的指令。
在RR/II级中，寄存器读出单元303进行寄存器310的读出，并且指令发出单元304将由指令解码单元302所解释的指令发出到流引擎200。流引擎200包括算术单元205和存储器存取单元206，存储器存取单元206对数据存储器400进行存取，其涉及加载或存储。
如由图1中的附图标记P200所指示地，从指令发出单元304到流引擎200的指令是流指令。当发出一个流指令时，进行管道执行直到存储器400与算术单元205之间的流处理的一个序列完成为止。
即，在EX和MA级中，流引擎200中的算术单元205和存储器存取单元206依照从指令发出单元304所发出的流指令进行处理直到流处理完成为止。在RW级中，寄存器写入单元307将经受了由流引擎200进行的流处理的数据（算术运算结果）写入到寄存器310。
在这种情况下，在图1中，附图标记P150指示基本处理器100对协处理器300所进行的处理，例如，通过将流指令发出到协处理器300来与协处理器300握手的处理。即，基本处理器100监视例如协处理器300的状态，控制协处理器300的执行，以及控制到协处理器300的数据传输。
以上参照图1所描述的、为基本处理器100与具有流引擎200的协处理器300的组合的算术处理系统，在流引擎200执行流处理时具有周期开销的问题。
即，在为协处理器指令的流指令的执行期间，基本处理器100通过握手来监视协处理器300的状态以与协处理器300进行数据传输并且控制协处理器300的执行。
因此，在基本处理器100与协处理器300之间发生开销（通信周期开销）。例如，在当协处理器300中的流引擎200正在执行流处理时发生中断的情况下，流引擎200进行等待直到流处理的执行完成为止，因此进一步增加了通信周期开销。
以下将参照附图详细地描述根据本实施例的算术处理装置。图2是示出了根据本实施例的算术处理装置的示例的框图。从图2与图1之间的比较中明显的是，图2所示的算术处理装置（处理器）1包括与图1所示的基本处理器100相对应的配置，并且还包括流引擎2。
更具体地，如图2所示，处理器1包括寄存器10、指令取出单元11、指令解码单元12、寄存器读出单元13、指令发出单元14、算术单元15、存储器存取单元16、寄存器写入单元17、指令存储器18以及数据存储器 19。指令发出单元14不仅适于将指令发出到算术单元15，而且还适于将指令（例如，单步指令）发出到流引擎2。
流引擎2包括出栈单元21和执行单元23。出栈单元21从数据存储器4读出数据并且将所读出的数据写入到寄存器221和寄存器222；执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将生成的数据写入到寄存器24。流引擎2还包括将被写入到寄存器24的数据写入到数据存储器4的入栈单元25。
在图2中，附图标记IF、ID、RR/II、EX、MA以及RW指示与以上参照图1所描述的级相同或类似的级。
即，在IF级中，指令取出单元11从指令存储器18取出（读出）指令；在ID级中，指令解码单元102接收由指令取出单元101所取出的指令并且对指令进行解码（解释）。
在RR/II级中，寄存器读出单元13进行寄存器10的读出，并且指令发出单元14将由指令解码单元12所解释的指令发出到算术单元15和流引擎2。
在EX级中，算术单元15根据从指令发出单元14所发出的指令执行算术运算，并且流引擎2根据从指令发出单元14所发出的指令执行流处理。在这种情况下，如上所述，从指令发出单元14发出到流引擎2的指令是单步指令。
在MA级中，存储器存取单元16对存储器（数据存储器）19进行存取，其涉及加载或存储。另外，在MA级中，流引擎2（出栈单元21或入栈单元25）对存储器（数据存储器）4进行存取，其涉及加载（读出）或存储（写入）。
在RW级中，寄存器写入单元17将由算术单元15所获得的算术运算结果或从数据存储器19所加载的数据写入到寄存器10，并且寄存器写入单元17将经受了由流引擎2所执行的流处理的数据写入到寄存器10。
图3是示出了由根据本实施例的算术处理装置1所进行的操作的框图。从图3所示的附图标记P1与图1所示的附图标记P100之间的比较中明显的是，在与图1所示的基本处理100相对应的部分中进行管道执行，其将寄存器10与存储器19之间或寄存器10与算术单元15之间的处理作为根据单个指令的处理。
如由图3中的附图标记P21至附图标记P23所指示地，处理器1内建的流引擎2依照从指令发出单元14所发出的单步指令执行用于各自的单步的处理。
在这种情况下，处理P21是如下处理：在该处理中，流引擎2中的出栈单元21从数据存储器4读出数据，并且将所读出的数据写入到寄存器221和寄存器222。处理P22是如下处理：在该处理中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。
另外，处理P23是如下处理：在该处理中，入栈单元25将被写入到寄存器24的数据写入数据存储器4。处理P21至处理P23经受了根据从指令发出单元14所发出的单步指令进行的管道执行。
在此，将对如下情况给出描述：在该情况中，流引擎2依照三个单步指令（具有三个单步指令的一个轮替（rotation））对三个处理P21至P23进行处理。然而，这仅为示例，并且无需说明，布置可以是如下布置：由四个处理或更多个处理构成一个轮替的处理，并且重复该一个轮替的处理多次以执行流处理。
图4是示出了根据本实施例的算术处理装置1中的流引擎2的停止操作的框图。例如，在当处理器1内建的流引擎2正在执行流处理时发生中断的情况下，指令发出单元14停止将单步指令发出到流引擎2。
当指令发出单元14停止将单步指令发出到流引擎2时，停止流引擎2中的处理P21至处理P23中的所有处理。即，出栈单元21停止处理P21，在处理P21中，从数据存储器4读出数据并且将所读出的数据写入到寄存器221和寄存器222。
执行单元23还停止处理P22，在处理P22中，对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。然后，入栈单元25停止处理P23，在处理P23中，将被写入到寄存器24的数据写入到数据存储器19。
如上所述，根据本实施例的算术处理装置依照单步指令对流引擎2的操作进行精细控制。因此，在流处理的执行期间发生中断的情况下，算术处理装置可以通过立即地停止流处理来进行中断处理。
即，依照根据本实施例的算术处理装置，例如，可以通过在发生中断期间停止发出单步指令来立即地停止流引擎2。换言之，依照根据本实施例的算术处理装置，在停止发出单步指令之后，可以自主地停止流引擎2 中的管道级（处理P21至处理P23），因此使得可以减少周期开销并且提高处理速度。
图5A和图5B是示出了由以上参照图4所描述的流引擎2的停止操作所产生的优点的示例的图。更具体地，图5A示出了由图1所示的、以上所描述的算术处理系统所进行的操作，并且图5B示出了由以上参照图4所描述的算术处理装置所进行的操作。
作为前提，假设：流处理的一个序列的周期的数量（时钟周期的数量）为200个周期，算术运算数据总线的时延是10个周期，以及被用于流处理的一个序列的参数信息的位宽是320位。
还假设：外部与存储器19之间的数据传输与流处理重叠，并且隐藏数据传输周期。另外，还假设：在图5A中，基本处理器100与协处理器300之间的数据总线是32位数据总线，并且以10个周期将参数信息从基本处理器100传输到协处理器300。
因此，在图5A中，通信周期开销由例如下式给出：10[周期]（数据传输）+10[周期]（算术运算数据总线）=20[周期]。
在图5B中，因为数据总线“紧耦合”，所以假设以1个周期传输参数信息。在此所使用的术语“紧耦合”并不意味着以总线级耦合的处理器对共用存储器进行存取，而是意味着共用指令发出单元14将指令发出到算术单元15和流引擎2。
因此，在图5B中，通信周期开销由例如下式给出：1[周期]（数据传输）+10[周期]（算术运算数据总线）=11[周期]。
如5A图所示，在图1所示的算术处理系统中，例如，当在第三个流处理（A2）中的第50个周期处发生中断时，在第三个流处理的所有完成之后执行其他流处理（B0）。
相应地，在算术处理系统中，直到其他流处理（B0）完成为止，涉及200+20+200+20+50+150+20+200=860[周期]。
另一方面，在以上参照图4所描述的实施例中的算术处理装置（处理器）1中，例如，当在第三个流处理（A2）中的第50个周期处发生中断时，立即地停止第三个流处理并且执行流处理（B0）。
相应地，直到其他流处理（B0）完成为止，本实施例中的处理器1涉及200+11+200+11+50+11+200=683[周期]。
即，可以理解的是，对于进行同一处理，本实施例中的处理器1能够使得处理速度从860个周期到683个周期提高了177个周期。
图5A和图5B仅示出了流处理的示例，并且无需说明，例如，根据一个流指令的周期的数量越大则提高处理速度的优势就变得越大，或在流处理的执行期间中断发生的频率越高则提高处理速度的优势就变得越大。
图6是示出了根据本实施例的算术处理装置中的读出电路的操作的示例的图，并且图7是示出了根据本实施例的算术处理装置中的读出电路的操作的另一示例的图。
如图6和图7所示，读出电路210包括出栈单元21以及寄存器221和寄存器222，并且数据存储器4包括存储器部分41和存储器部分42。存储器部分41和存储器部分42代表例如在数据存储器4中不同地址（起始地址）处的联组的存储器区域，并且无需说明，数据存储器4包括除了两个存储器之外的任何数量的存储器。
如图6所示，读出电路210中的出栈单元21通过指定起始地址和流长度来从数据存储器4中的存储器部分（第一联组）41读出第一数据，并且将所读出的第一数据存储在寄存器221中。
另外，读出电路210中的出栈单元21通过指定起始地址和流长度来从数据存储器4中的存储器部分（第二联组）42读出第二数据，并且将所读出的第二数据存储在寄存器222中。读出电路210的处理对应于例如以上所述的并且图3所示的算术处理装置中的上述处理P21。
即，出栈单元21从数据存储器4读出流数据，将流数据输入（存储）到（在）读出级（出栈单元21）与用于流处理的执行级（执行单元23）之间的寄存器（管道寄存器）221和寄存器（管道寄存器）222中，并且执行管道处理。
因此，例如，指定起始地址和流长度来从联组到第一联组41和第二联组42中的数据存储器4读出流数据，使得可以减少存储器端口的数量并且使周期开销最小化。
如图7所示，例如，由直接存储器存取（DMA）单元5从存储器部分（第一联组）41和存储器部分（第二联组）42所读出的数据还可以通过先进先出（FIFO）缓冲器61和先进先出（FIFO）缓冲器62被提供给读出电路210。即，对来自数据存储器4的数据传输还可以被留给DMA单元5，以从FIFO缓冲器61和FIFO缓冲器62提取所读出的数据。
图8是示出了根据本实施例的算术处理装置1中的执行电路的操作的示例的图。如图8所示，执行电路230包括执行单元23和寄存器24。
执行电路230中的执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将其算术运算结果写入到寄存器24。执行电路230的处理对应于例如以上所述的并且图3所示的算术处理装置1中的处理P22。
即，执行单元23对输入到寄存器221和寄存器222的数据执行流处理，将其算术运算结果输入到在执行单元23与入栈单元25之间的寄存器（管道寄存器）24，并且执行管道处理。
图9是示出了根据本实施例的算术处理装置1中的执行电路的操作的另一示例的图。在此示例中，此执行电路230由多级的执行单元231至执行单元233以及寄存器241至寄存器243构成。
在这种情况下，在读出电路210中设置四个寄存器221a和221b以及222a和222b，以便与两个执行单元231和232相对应。
为了存储由三个执行单元231至233所获得的算术运算结果，在执行电路230中还设置了三个寄存器241至243。图9所示的执行电路230仅为示例，并且无需说明，还可以使用各种其他配置。
因此，执行电路230（算术单元的数据总线）可以具有多级配置。采用此配置，可以将算术运算结果输入到在执行单元233与入栈单元25之间的寄存器（管道寄存器）243以执行管道处理。
图10是示出了根据本实施例的算术处理装置1中的写入电路的操作的示例的图，并且图11是示出了根据本实施例的算术处理装置1中的写入电路的操作的另一示例的图。
如图10所示，写入电路250包括入栈单元25，并且写入电路250将在寄存器24中所存储的算术运算结果写入数据存储器4中的存储器部分43。即，写入电路250从在执行单元23与入栈单元25之间的管道寄存器24中提取输出数据，并且将输出数据写入到例如由起始地址和流长度所指示的存储器区域。
写入电路250的处理对应于例如以上所述的并且图3所示的算术处理装置1中的处理P23。在这种情况下，存储器单元43可以是例如数据存储器4中、不同于存储器部分41和存储器部分42的存储器区域。
图10所示的写入电路250将在寄存器24中所存储的算术运算结果直接写入到存储器部分43。相反，图11所示的写入电路250将在寄存器24中所存储的算术运算结果写入到FIFO缓冲器7，并且DMA单元8将被写入到FIFO缓冲器7的数据传输给存储器部分43。
即，图11所示的写入电路250适于将在寄存器24中所存储的算术运算结果顺序地写入到FIFO缓冲器7，并且将从FIFO缓冲器7到存储器部分43（数据存储器4）的数据传输留给DMA单元8。
图12是示出了根据本实施例的算术处理装置1中的参数信息的示例的图。例如，被用于流处理中的参数信息可以由每个流（i）的起始地址（ai）、每个流（i）的流长度（li）、算术运算操作码（o）以及算术运算模式（m）所代表；并且可以由单个长位长设定指令（设定指令：set（设定））所代表。
如同附图标记P10所指示地，从指令存储器18读出设定指令（参数信息），并且将其一次性地分配给（设定至）参数寄存器140。如附图标记P11所指示地，管道级（出栈单元21、执行单元23以及入栈单元25）参考参数寄存器140中的参数信息以进行管道执行。
图13至图14C是示出了根据本实施例的算术处理装置1中的单步指令的图。如图13至图14C所示，根据本实施例中的算术处理装置（流引擎2），可以依照所设定的指令进行控制。
即，如附图标记P20所指示地，从指令存储器18读出单步指令，并且执行单步指令以由此使得可以控制流引擎2中的各个管道级中的处理P21至处理P23。单步指令是例如由程序员预先所创建的指令。
在此示例中，从指令存储器18按顺序读出单步指令“单步1至单步N”，并且将其从指令发出单元14发出到流引擎2，以及执行管道处理P21至管道处理P23。
如图13所示，将单步指令从指令发出单元14发出到流引擎2，并且出栈单元21、执行单元23以及入栈单元25依照各自的单步指令执行对应的处理（处理P21、处理P22以及处理P23）。
即，如图14A所示，处理P21是如下处理：在该处理中，出栈单元21从数据存储器4读出数据并且将数据写入寄存器221和寄存器222。如图14B所示，处理P22是如下处理：在该处理中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。
另外，如图14C所示，处理P23是如下处理：在该处理中，入栈单元25将被写入到寄存器24的数据写入到数据存储器19。这些处理P21至P23依照从指令发出单元14所发出的单步指令经受了管道执行。
图15是示出了根据本实施例的算术处理装置1中的单步指令的修改例的图。在以上参照图13所描述的情况下，从指令存储器18直接读出N个单步指令“单步1至单步N”，并且将其从指令发出单元14发出到流引擎2。
相反，在图15所示的修改例中，将设定指令与用于有效地执行连续地重复的处理（循环处理）的循环处理所专用的指令（零开销循环指令）进行组合。
即，将N个单步指令“单步1至单步N”与零开销循环指令（循环N个单步）进行组合，使得可以抑制指令序列的数量的增加。在零开销循环指令的情况下，例如，当中断发生时，在正在执行的单步中立即停止流的处理。
图16至图17C是示出了根据本实施例的算术处理装置中的微指令的图。如图16所示，从指令发出单元14发出到流引擎2的指令是微指令。
即，如由图16所示的附图标记P30所指示地，根据本实施例的算术处理装置适于从指令存储器18读出微指令并且执行微指令以控制流引擎2中各自的管道级中的处理P21至处理P23。
例如，出栈指令被分配给图17A所示的处理P21，执行指令被分配给图17B所示的处理P22，入栈指令被分配给图17C所示的处理P23，以及根据微指令执行处理P21至处理P23。此布置能够使得根据微指令分别地控制各自的管道级中的处理P21至处理P23。
图18A至18C是示出了依照根据本实施例的算术处理装置中的微指令的存取控制的图。
在这种情况下，图18A示出了发出出栈指令、执行指令以及入栈指令中的所有的情况，图18B示出了停止出栈指令的情况，以及图18C示出了停止入栈指令的情况。与图7和图11所示的配置类似地，算术处理装置包括DMA单元5和DMA单元8以及FIFO缓冲器61、FIFO缓冲器62和FIFO缓冲器7。
首先，如图18A所示，当发出出栈指令、执行指令以及入栈指令中的所有时，以对应的周期执行各自的管道级中的处理P21至处理P23。
接下来，如图18B所示，当停止出栈指令时，即，当仅执行执行指令和入栈指令时，出栈单元21停止从FIFO缓冲器61和FIFO缓冲器62读出数据。
作为由DMA单元（输入DMA单元）5所进行的数据传输的结果，FIFO缓冲器61和FIFO缓冲器62被填满，并且DMA单元5检测到FIFO缓冲器61和FIFO缓冲器62的填满状态以及进行自动停止。即，通过停止为微指令的出栈指令，可以停止流引擎2的管道处理。
此外，如图18C所示，当停止入栈指令时，即，当仅执行出栈指令和执行指令时，入栈单元25停止用于从寄存器24读出数据并且将数据存储在FIFO缓冲器7中的操作。
作为结果，FIFO缓冲器7变为空，并且DMA（输出DMA）单元8检测到FIFO缓冲器7的空状态以及进行自动停止。即，通过停止为微指令的入栈指令，可以停止流引擎2的管道处理。
微指令（即出栈指令、执行指令以及入栈指令）的使用，能够使得DMA单元5和DMA单元8例如在即使发生中断时也自主地控制存储器存取。即，可以简化存储器19与算术单元15之间的数据传输的控制，因此使得可以减少用于存储器存取控制的硬件的数量。
图19示出了根据本实施例的算术处理装置的微指令被嵌入（被打包到）VLIW指令中的状态。如以上参照图16至图18C所描述地，当使用微指令时，例如，将微指令嵌入超长指令字（VLIW）指令使得可以同时执行各个处理，由此使得可以减少执行周期的数量。
即，将多个微指嵌入VLIW指令中使得可以减少循环处理中的指令的数量，并且还使得可以减少循环中的执行周期的数量。这样的布置还使得可以有效地使用基本处理器（在算术处理装置1中，可以是VLIW处理器）的指令集架构。
图19示出了将M个微指令打包到N个VLIW指令中的状态。现在将参照图20A至图21C描述根据VLIW1指令至VLIW3指令的前序处理和根据VLIW N-2指令至VLIW N指令的收尾处理。
图20A至图20C是示出了根据图19所示的VLIW指令的前序处理的图。更具体地，图20A示出了根据VLIW1指令的处理，图20B示出了根据VLIW2指令的处理，以及图20C示出了根据VLIW3指令的处理。
如图19所示，前序处理是用于激活流引擎2的处理并且是通过执行三个指令（即VLIW1[出栈]、VLIW2[出栈、执行]以及VLIW3[出栈、执行、入栈]）所实现的。
首先，如图20A所示，仅执行为VLIW1指令的出栈指令。即，根据出栈指令执行处理P21，在处理P21中，出栈单元21从数据存储器4读出数据并且将数据写入到寄存器221和寄存器222。作为结果，将执行单元23要对其进行算术运算处理的数据输入到寄存器221和寄存器222。
接下来，如图20B所示，执行在VLIW2指令中所包括的出栈指令和执行指令。即，根据出栈指令来执行处理P21，并且还根据执行指令来执行处理P22，在处理P22中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将生成的数据写入到寄存器24。
作为结果，将执行单元23要对其执行算术运算处理的数据输入到寄存器221和寄存器222，并且将入栈单元25要将其写入到数据存储器4的算术运算结果数据输入到寄存器24。
如图20C所示，执行在VLIW3指令中所包括的出栈指令、执行指令以及入栈指令。根据出栈指令来执行处理P21，根据执行指令来执行处理P22，以及还根据入栈指令来执行处理P23：在处理P23中，入栈单元25将被写入到寄存器24的算术运算结果数据写入到数据存储器4。
在从以上所述的前序处理到以下参照图21所描述的收尾处理的处理中，根据可以与VLIW3指令相同的指令（VLIW4指令、VLIW5指令、…）连续地执行涉及处理P21至处理P23的管道处理。
图21A至21C是示出了根据图19所示的VLIW指令的收尾处理的图。更具体地，图21A示出了根据VLIW N-2指令的处理，图21B示出了根据VLIW N-1指令的处理，以及图21C示出了根据VLIW N指令的处理。
如图19所示，收尾处理是用于停止操作中的流引擎2的处理，收尾处理与以上参照图20A至图20C所描述的前序处理相反。通过执行三个指令（即，VLIW N-2[出栈、执行、入栈]、VLIW N-1[执行、入栈]以及VLIW N[入栈]）来实现收尾处理。
首先，如图21A所示，执行在VLIW N-2指令中所包括的出栈指令、执行指令以及入栈指令。VLIW N-2指令可以与以上参照图20C所描述的VLIW3指令（即在处理P21至处理P23中连续地执行的管道处理中的指令）相同。
接下来，如图21B所示，执行在VLIW N-1指令中所包括的执行指令和入栈指令。即，因为省略了出栈指令，所以停止处理P21：在处理P21中，出栈单元21从数据存储器4读出数据并且将数据写入到寄存器221和寄存器222。作为结果，寄存器221和寄存器222变为空。
随后，如图21C所示，仅执行在VLIW N指令中所包括的入栈指令。即，因为省略了出栈指令和执行指令，所以不仅寄存器221和寄存器222变为空，而且寄存器24也变为空。
依照三个微指令（即，出栈指令、执行指令以及入栈指令）控制流引擎2仅为示例，并且无需说明，可以进行各种改变。例如，可以添加另一微指令或可以使用不同的微指令。
尽管通过示例的方式描述了进行LTE Advanced等中的矩阵算术运算处理的算术处理装置，但是本实施例不仅限于这种应用到无线通信装置的算术处理装置，而且还可以广泛地应用到各种算术处理装置。
在以上实施例中所描述的所有的示例和情况意在有助于对应用到本公开和技术的技术概念的理解，而不意在具体地限制本公开的范围。另外，本文中的这种描述不是意在指示本公开的优点和缺点。尽管详细地描述了本公开的实施例，但是将理解的是在不背离本公开的精神和范围的情况下可以进行各种改变、替换以及修改。

资源描述

《算术处理装置.pdf》由会员分享，可在线阅读，更多相关《算术处理装置.pdf（32页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104111817A43申请公布日20141022CN104111817A21申请号201410100282222申请日20140318201308947920130422JPG06F9/30220060171申请人富士通株式会社地址日本神奈川县72发明人吉村和浩葛毅堀尾一生74专利代理机构北京集佳知识产权代理有限公司11227代理人朱胜陈炜54发明名称算术处理装置57摘要公开了一种算术处理装置，该算术处理装置包括算术单元，配置成执行算术运算；以及流引擎，该配置成执行流处理，其中，算术单元的数据总线和流引擎的数据总线彼此紧耦合。30优先权数据51INTCL权利要求书2页说明书。

2、10页附图19页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书10页附图19页10申请公布号CN104111817ACN104111817A1/2页21一种算术处理装置，包括算术单元，配置成执行算术运算；以及流引擎，配置成执行流处理，其中，所述算术单元的数据总线与所述流引擎的数据总线彼此紧耦合。2根据权利要求1所述的算术处理装置，还包括指令发出单元，配置成发出指令；其中，所述指令发出单元将指令发出到所述算术单元以及将指令发出到所述流引擎。3根据权利要求2所述的算术处理装置，其中，所述流引擎包括读出电路，配置成从存储器读出数据，执行电路，配置成对所读出的数据执行流处理；以及。

3、写入电路，配置成将通过所述流处理所获得的算术运算结果写入到所述存储器。4根据权利要求3所述的算术处理装置，其中，所述读出电路包括出栈单元和第一寄存器；以及所述出栈单元从在所述存储器中所包括的并且由起始地址和流长度所指示的第一存储器部分读出数据，并且将所读出的数据写入到所述第一寄存器。5根据权利要求4所述的算术处理装置，其中，所述执行电路包括执行单元和第二寄存器，以及所述执行单元对在所述第一寄存器中所存储的数据执行流处理，并且将通过所述流处理所获得的算术运算结果存储在所述第二寄存器中。6根据权利要求5所述的算术处理装置，其中，所述执行电路包括多个分层的执行单元和多个第三寄存器，所述多个第三寄存器。

4、设置在层中的所述执行单元之间。7根据权利要求5或6所述的算术处理装置，其中，所述写入电路包括入栈单元，以及所述入栈单元将在所述第二寄存器中所存储的所述算术运算结果写入到在所述存储器中所包括的并且由起始地址和流长度所指示的第二存储器部分。8根据权利要求2至7中任一项所述的算术处理装置，其中，由所述指令发出单元发出到所述流引擎的指令是单步指令，以及所述流引擎具有管道级，所述管道级中的每个管道级依照所述单步指令中的一个单步指令执行一个处理。9根据权利要求8所述的算术处理装置，其中，参数信息被用于所述流处理中并且由单个长位长设定指令所代表。10根据权利要求9所述的算术处理装置，其中，被用于所述流处理中。

5、的所述参数信息包括每个流的起始地址、每个流的流长度以及算术运算模式。11根据权利要求8所述的算术处理装置，还包括参数寄存器，将被用于所述流处理的参数信息一次性地设定在所述参数寄存器中，其中，所述流引擎中的所述管道级中的每个管道级参考在所述参数寄存器中的所述参权利要求书CN104111817A2/2页3数信息以进行管道执行。12根据权利要求2至7中任一项所述的算术处理装置，其中，由所述指令发出单元发出到所述流引擎发的指令包括用于控制所述流引擎的对应的管道级的短位长微指令，所述指令是通过分离所述单步指令所获得的，以及每个管道级依照对应的微指令独立地执行处理。13根据权利要求12所述的算术处理装置，。

6、还包括第一先进先出缓冲器，设置在所述存储器与所述读出电路之间，其中，所述存储器经受直接存储器存取控制，以及用于控制所述读出电路的处理的第一微指令被停止，以填满所述第一先进先出缓冲器并且停止所述流引擎的管道处理。14根据权利要求12所述的算术处理装置，还包括第二先进先出缓冲器，设置在所述写入电路与所述存储器之间，其中，所述存储器经受直接存取存储器控制，以及用于控制所述写入电路的处理的第二微指令被停止，以清空所述第二先进先出缓冲器并且停止所述流引擎的管道处理。15根据权利要求12至14中任一项所述的算术处理装置，其中，当依照超长指令字指令控制所述算术单元时，将用于控制所述流引擎中的每个管道级中的操。

7、作的微指令打包到所述超长指令字指令中。权利要求书CN104111817A1/10页4算术处理装置技术领域0001在本文中所讨论的实施例涉及一种算术处理装置。背景技术0002近年，随着诸如智能手机和平板型电脑的便携式终端的通信量的增长，更高速的无线通信系统引起了注意。作为这样的高速无线通信系统，例如长期演进（LTE）得到广泛使用，并且对作为更高性能下一代移动通信系统的LTEADVANCED（长期演进升级版）进行了标准化，以及针对实际使用提出了各种提议。0003例如，当采用LTEADVANCED时，作为无线通信基带处理，要进行大量的矩阵算术运算处理。0004这不仅限于LTEADVANCED，而且对。

8、于包括微波接入全球互通2（WIMAX2）和当前所使用的系统的各种无线通信系统（标准）也是如此。0005通常，在无线通信基带处理中，进行与通信速度的增长成正比的大量的矩阵算术运算。例如，在LTEADVANCED中，矩阵算术运算占整个算术运算的很大量。0006为了以高速执行矩阵算术运算处理（流处理（STREAMPROCESSING）的一种），如下配置是适合的在该配置中，串联连接其中存储有矩阵数据的存储器与算术单元；以及流引擎对从存储器所读出的数据进行矩阵算术运算并且将算术运算结果写出到存储器。0007相应地，例如，为通用处理器的基本处理器与具有流引擎的协处理器的组合被提议作为用于进行LTEADVA。

9、NCED中的无线通信基带处理的算术处理装置（算术处理系统）。0008此前，作为由基本处理器与具有流引擎的协处理器的组合所实现的算术处理系统，提议了各种系统。0009现有技术的示例包括在日本公开专利公布第2011197774号和日本公开专利公布第08069377号中所公开的技术。0010在这样的算术处理系统中，例如，当执行为协处理器指令的流指令时，基本处理器通过握手进行协处理器的状态监视、数据传输、执行的控制等。因此，发生开销。此开销被称为例如“通信周期开销”。0011另外，例如，在当协处理器中的流引擎正在执行流处理时发生了中断的情况下，在进行等待直到流处理的执行完成为止之后进行中断处理。001。

10、2即，在中断发生期间协处理器处于忙状态的情况下，基本处理器进行等待直到协处理器进入空闲状态为止。这进一步增加了通信周期开销。发明内容0013根据本发明的一个方面，算术处理装置包括算术单元，配置成执行算术运算；以及流引擎，配置成执行流处理，其中，算术单元的数据总线与流引擎的数据总线彼此紧耦合（TIGHTLYCOUPLED）。0014将借助于在权利要求中具体地指出的元件和组合来实现并且获得本发明的目的说明书CN104111817A2/10页5和优点。0015将理解，如所要求保护的，前述的一般描述和下面的详细描述两者均是示例性的和说明性的，并且不是对本发明的限制。附图说明0016图1是示出了算术处理。

11、装置的示例的框图；0017图2是示出了根据本实施例的算术处理装置的示例的框图；0018图3是示出了由根据本实施例的算术处理装置所进行的操作的框图；0019图4是示出了根据本实施例的算术处理装置中的流引擎的停止操作的框图；0020图5A和图5B是示出了由参照图4所描述的流引擎的停止操作所产生的优点的示例的图；0021图6是示出了根据本实施例的算术处理装置中的读出电路的操作的示例的图；0022图7是示出了根据本实施例的算术处理装置中的读出电路的操作的另一示例的图；0023图8是示出了根据本实施例的算术处理装置中的执行电路的操作的示例的图；0024图9是示出了根据本实施例的算术处理装置中的执行电路的。

12、操作的另一示例的图；0025图10是示出了根据本实施例的算术处理装置中的写入电路的操作的示例的图；0026图11是示出了根据本实施例的算术处理装置中的写入电路的操作的另一示例的图；0027图12是示出了根据本实施例的算术处理装置中的参数信息的示例的图；0028图13是示出了根据本实施例的算术处理装置中的单步指令（STEPINSTRUCTION）的图（第1部分）；0029图14A至图14C是示出了根据本实施例的算术处理装置中的单步指令的图（第2部分）；0030图15是示出了根据本实施例的算术处理装置中的单步指令的修改例的图；0031图16是示出了根据本实施例的算术处理装置中的微指令的图（第1部分。

13、）；0032图17A至图17C是示出了根据本实施例的算术处理装置中的微指令的图（第2部分）；0033图18A至图18C是示出了依照根据本实施例的算术处理装置中的微指令的存取控制的图；0034图19示出了根据本实施例的算术处理装置中的微指令被嵌入到VLIW指令中的状态；0035图20A至图20C是示出了根据图19所示的VLIW指令的前序处理的图；以及0036图21A至图21C是示出了根据图19所示的VLIW指令的收尾处理的图。具体实施方式0037首先，在详细地描述算术处理装置的实施例之前，将参照图1描述算术处理装置的示例以及其问题。说明书CN104111817A3/10页60038图1是示出了算。

14、术处理装置的示例的框图。所示的算术处理装置（算术处理系统）是为通用处理器的基本处理器与具有流引擎的协处理器的组合。0039在图1中，附图标记ID指示指令解释（INSTRUCTIONDECODE（指令解码）级，IF指示指令读出（INSTRUCTIONFETCH（指令取出）级，以及RR/II指示指令发出（INSTRUCTIONISSUE（指令发出）级和寄存器读出（REGISTERREAD（寄存器读出）级。0040附图标记EX指示执行（EXECUTION（执行）级，MA指示存储器存取（MEMORYACCESS（存储器存取）级，以及RW指示寄存器写入（REGISTERWRITE（寄存器写入）级。例如，。

15、图1所示的算术处理系统具有为通用处理器的基本处理器100和包括流引擎200的协处理器300。0041在基本处理器100中，在IF级中，指令取出单元101从指令存储器108取出（读出）指令；在ID级中，指令解码单元102接收由指令取出单元101所读出的指令并且对指令进行解码（解释）。0042在RR/II级中，寄存器读出单元103进行寄存器110的读出，并且指令发出单元104将由指令解码单元102所解释的指令发出到算术单元105。0043在EX级中，算术单元105根据由指令发出单元104所发出的指令执行算术运算；在MA级中，存储器存取单元106对存储器（数据存储器）109进行存取，其涉及加载（读出。

16、）或存储（写入）。0044在RW级中，寄存器写入单元107将由算术单元105所获得的算术运算结果或从数据存储器109所加载的数据写入到寄存器110。0045如由图1中的附图标记P100所指示地，基本处理器100适于进行管道执行（PIPELINEEXECUTION），其将寄存器110与存储器109之间或寄存器110与算术单元105之间的处理作为根据单个指令的处理。0046在协处理器300中，在IF级中，指令取出单元301从指令存储器108读出指令；在ID级中，指令解码单元302读出并且解释由指令取出单元301所读出的指令。0047在RR/II级中，寄存器读出单元303进行寄存器310的读出，并且。

17、指令发出单元304将由指令解码单元302所解释的指令发出到流引擎200。流引擎200包括算术单元205和存储器存取单元206，存储器存取单元206对数据存储器400进行存取，其涉及加载或存储。0048如由图1中的附图标记P200所指示地，从指令发出单元304到流引擎200的指令是流指令。当发出一个流指令时，进行管道执行直到存储器400与算术单元205之间的流处理的一个序列完成为止。0049即，在EX和MA级中，流引擎200中的算术单元205和存储器存取单元206依照从指令发出单元304所发出的流指令进行处理直到流处理完成为止。在RW级中，寄存器写入单元307将经受了由流引擎200进行的流处理的。

18、数据（算术运算结果）写入到寄存器310。0050在这种情况下，在图1中，附图标记P150指示基本处理器100对协处理器300所进行的处理，例如，通过将流指令发出到协处理器300来与协处理器300握手的处理。即，基本处理器100监视例如协处理器300的状态，控制协处理器300的执行，以及控制到协处理器300的数据传输。0051以上参照图1所描述的、为基本处理器100与具有流引擎200的协处理器300的说明书CN104111817A4/10页7组合的算术处理系统，在流引擎200执行流处理时具有周期开销的问题。0052即，在为协处理器指令的流指令的执行期间，基本处理器100通过握手来监视协处理器30。

19、0的状态以与协处理器300进行数据传输并且控制协处理器300的执行。0053因此，在基本处理器100与协处理器300之间发生开销（通信周期开销）。例如，在当协处理器300中的流引擎200正在执行流处理时发生中断的情况下，流引擎200进行等待直到流处理的执行完成为止，因此进一步增加了通信周期开销。0054以下将参照附图详细地描述根据本实施例的算术处理装置。图2是示出了根据本实施例的算术处理装置的示例的框图。从图2与图1之间的比较中明显的是，图2所示的算术处理装置（处理器）1包括与图1所示的基本处理器100相对应的配置，并且还包括流引擎2。0055更具体地，如图2所示，处理器1包括寄存器10、指令。

20、取出单元11、指令解码单元12、寄存器读出单元13、指令发出单元14、算术单元15、存储器存取单元16、寄存器写入单元17、指令存储器18以及数据存储器19。指令发出单元14不仅适于将指令发出到算术单元15，而且还适于将指令（例如，单步指令）发出到流引擎2。0056流引擎2包括出栈单元21和执行单元23。出栈单元21从数据存储器4读出数据并且将所读出的数据写入到寄存器221和寄存器222；执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将生成的数据写入到寄存器24。流引擎2还包括将被写入到寄存器24的数据写入到数据存储器4的入栈单元25。0057在图2中，附图标记IF、I。

21、D、RR/II、EX、MA以及RW指示与以上参照图1所描述的级相同或类似的级。0058即，在IF级中，指令取出单元11从指令存储器18取出（读出）指令；在ID级中，指令解码单元102接收由指令取出单元101所取出的指令并且对指令进行解码（解释）。0059在RR/II级中，寄存器读出单元13进行寄存器10的读出，并且指令发出单元14将由指令解码单元12所解释的指令发出到算术单元15和流引擎2。0060在EX级中，算术单元15根据从指令发出单元14所发出的指令执行算术运算，并且流引擎2根据从指令发出单元14所发出的指令执行流处理。在这种情况下，如上所述，从指令发出单元14发出到流引擎2的指令是单步。

22、指令。0061在MA级中，存储器存取单元16对存储器（数据存储器）19进行存取，其涉及加载或存储。另外，在MA级中，流引擎2（出栈单元21或入栈单元25）对存储器（数据存储器）4进行存取，其涉及加载（读出）或存储（写入）。0062在RW级中，寄存器写入单元17将由算术单元15所获得的算术运算结果或从数据存储器19所加载的数据写入到寄存器10，并且寄存器写入单元17将经受了由流引擎2所执行的流处理的数据写入到寄存器10。0063图3是示出了由根据本实施例的算术处理装置1所进行的操作的框图。从图3所示的附图标记P1与图1所示的附图标记P100之间的比较中明显的是，在与图1所示的基本处理100相对应。

23、的部分中进行管道执行，其将寄存器10与存储器19之间或寄存器10与算术单元15之间的处理作为根据单个指令的处理。0064如由图3中的附图标记P21至附图标记P23所指示地，处理器1内建的流引擎2依照从指令发出单元14所发出的单步指令执行用于各自的单步的处理。说明书CN104111817A5/10页80065在这种情况下，处理P21是如下处理在该处理中，流引擎2中的出栈单元21从数据存储器4读出数据，并且将所读出的数据写入到寄存器221和寄存器222。处理P22是如下处理在该处理中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。0066另外，处。

24、理P23是如下处理在该处理中，入栈单元25将被写入到寄存器24的数据写入数据存储器4。处理P21至处理P23经受了根据从指令发出单元14所发出的单步指令进行的管道执行。0067在此，将对如下情况给出描述在该情况中，流引擎2依照三个单步指令（具有三个单步指令的一个轮替（ROTATION）对三个处理P21至P23进行处理。然而，这仅为示例，并且无需说明，布置可以是如下布置由四个处理或更多个处理构成一个轮替的处理，并且重复该一个轮替的处理多次以执行流处理。0068图4是示出了根据本实施例的算术处理装置1中的流引擎2的停止操作的框图。例如，在当处理器1内建的流引擎2正在执行流处理时发生中断的情况下，指。

25、令发出单元14停止将单步指令发出到流引擎2。0069当指令发出单元14停止将单步指令发出到流引擎2时，停止流引擎2中的处理P21至处理P23中的所有处理。即，出栈单元21停止处理P21，在处理P21中，从数据存储器4读出数据并且将所读出的数据写入到寄存器221和寄存器222。0070执行单元23还停止处理P22，在处理P22中，对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。然后，入栈单元25停止处理P23，在处理P23中，将被写入到寄存器24的数据写入到数据存储器19。0071如上所述，根据本实施例的算术处理装置依照单步指令对流引擎2的操作进行精细控制。。

26、因此，在流处理的执行期间发生中断的情况下，算术处理装置可以通过立即地停止流处理来进行中断处理。0072即，依照根据本实施例的算术处理装置，例如，可以通过在发生中断期间停止发出单步指令来立即地停止流引擎2。换言之，依照根据本实施例的算术处理装置，在停止发出单步指令之后，可以自主地停止流引擎2中的管道级（处理P21至处理P23），因此使得可以减少周期开销并且提高处理速度。0073图5A和图5B是示出了由以上参照图4所描述的流引擎2的停止操作所产生的优点的示例的图。更具体地，图5A示出了由图1所示的、以上所描述的算术处理系统所进行的操作，并且图5B示出了由以上参照图4所描述的算术处理装置所进行的操作。

27、。0074作为前提，假设流处理的一个序列的周期的数量（时钟周期的数量）为200个周期，算术运算数据总线的时延是10个周期，以及被用于流处理的一个序列的参数信息的位宽是320位。0075还假设外部与存储器19之间的数据传输与流处理重叠，并且隐藏数据传输周期。另外，还假设在图5A中，基本处理器100与协处理器300之间的数据总线是32位数据总线，并且以10个周期将参数信息从基本处理器100传输到协处理器300。0076因此，在图5A中，通信周期开销由例如下式给出10周期（数据传输）10周期（算术运算数据总线）20周期。0077在图5B中，因为数据总线“紧耦合”，所以假设以1个周期传输参数信息。在此。

28、所说明书CN104111817A6/10页9使用的术语“紧耦合”并不意味着以总线级耦合的处理器对共用存储器进行存取，而是意味着共用指令发出单元14将指令发出到算术单元15和流引擎2。0078因此，在图5B中，通信周期开销由例如下式给出1周期（数据传输）10周期（算术运算数据总线）11周期。0079如5A图所示，在图1所示的算术处理系统中，例如，当在第三个流处理（A2）中的第50个周期处发生中断时，在第三个流处理的所有完成之后执行其他流处理（B0）。0080相应地，在算术处理系统中，直到其他流处理（B0）完成为止，涉及20020200205015020200860周期。0081另一方面，在以上参。

29、照图4所描述的实施例中的算术处理装置（处理器）1中，例如，当在第三个流处理（A2）中的第50个周期处发生中断时，立即地停止第三个流处理并且执行流处理（B0）。0082相应地，直到其他流处理（B0）完成为止，本实施例中的处理器1涉及20011200115011200683周期。0083即，可以理解的是，对于进行同一处理，本实施例中的处理器1能够使得处理速度从860个周期到683个周期提高了177个周期。0084图5A和图5B仅示出了流处理的示例，并且无需说明，例如，根据一个流指令的周期的数量越大则提高处理速度的优势就变得越大，或在流处理的执行期间中断发生的频率越高则提高处理速度的优势就变得越大。。

30、0085图6是示出了根据本实施例的算术处理装置中的读出电路的操作的示例的图，并且图7是示出了根据本实施例的算术处理装置中的读出电路的操作的另一示例的图。0086如图6和图7所示，读出电路210包括出栈单元21以及寄存器221和寄存器222，并且数据存储器4包括存储器部分41和存储器部分42。存储器部分41和存储器部分42代表例如在数据存储器4中不同地址（起始地址）处的联组的存储器区域，并且无需说明，数据存储器4包括除了两个存储器之外的任何数量的存储器。0087如图6所示，读出电路210中的出栈单元21通过指定起始地址和流长度来从数据存储器4中的存储器部分（第一联组）41读出第一数据，并且将所读。

31、出的第一数据存储在寄存器221中。0088另外，读出电路210中的出栈单元21通过指定起始地址和流长度来从数据存储器4中的存储器部分（第二联组）42读出第二数据，并且将所读出的第二数据存储在寄存器222中。读出电路210的处理对应于例如以上所述的并且图3所示的算术处理装置中的上述处理P21。0089即，出栈单元21从数据存储器4读出流数据，将流数据输入（存储）到（在）读出级（出栈单元21）与用于流处理的执行级（执行单元23）之间的寄存器（管道寄存器）221和寄存器（管道寄存器）222中，并且执行管道处理。0090因此，例如，指定起始地址和流长度来从联组到第一联组41和第二联组42中的数据存储器。

32、4读出流数据，使得可以减少存储器端口的数量并且使周期开销最小化。0091如图7所示，例如，由直接存储器存取（DMA）单元5从存储器部分（第一联组）41和存储器部分（第二联组）42所读出的数据还可以通过先进先出（FIFO）缓冲器61和先进先出（FIFO）缓冲器62被提供给读出电路210。即，对来自数据存储器4的数据传输还可以被留说明书CN104111817A7/10页10给DMA单元5，以从FIFO缓冲器61和FIFO缓冲器62提取所读出的数据。0092图8是示出了根据本实施例的算术处理装置1中的执行电路的操作的示例的图。如图8所示，执行电路230包括执行单元23和寄存器24。0093执行电路2。

33、30中的执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将其算术运算结果写入到寄存器24。执行电路230的处理对应于例如以上所述的并且图3所示的算术处理装置1中的处理P22。0094即，执行单元23对输入到寄存器221和寄存器222的数据执行流处理，将其算术运算结果输入到在执行单元23与入栈单元25之间的寄存器（管道寄存器）24，并且执行管道处理。0095图9是示出了根据本实施例的算术处理装置1中的执行电路的操作的另一示例的图。在此示例中，此执行电路230由多级的执行单元231至执行单元233以及寄存器241至寄存器243构成。0096在这种情况下，在读出电路210中设置。

34、四个寄存器221A和221B以及222A和222B，以便与两个执行单元231和232相对应。0097为了存储由三个执行单元231至233所获得的算术运算结果，在执行电路230中还设置了三个寄存器241至243。图9所示的执行电路230仅为示例，并且无需说明，还可以使用各种其他配置。0098因此，执行电路230（算术单元的数据总线）可以具有多级配置。采用此配置，可以将算术运算结果输入到在执行单元233与入栈单元25之间的寄存器（管道寄存器）243以执行管道处理。0099图10是示出了根据本实施例的算术处理装置1中的写入电路的操作的示例的图，并且图11是示出了根据本实施例的算术处理装置1中的写入电。

35、路的操作的另一示例的图。0100如图10所示，写入电路250包括入栈单元25，并且写入电路250将在寄存器24中所存储的算术运算结果写入数据存储器4中的存储器部分43。即，写入电路250从在执行单元23与入栈单元25之间的管道寄存器24中提取输出数据，并且将输出数据写入到例如由起始地址和流长度所指示的存储器区域。0101写入电路250的处理对应于例如以上所述的并且图3所示的算术处理装置1中的处理P23。在这种情况下，存储器单元43可以是例如数据存储器4中、不同于存储器部分41和存储器部分42的存储器区域。0102图10所示的写入电路250将在寄存器24中所存储的算术运算结果直接写入到存储器部分。

36、43。相反，图11所示的写入电路250将在寄存器24中所存储的算术运算结果写入到FIFO缓冲器7，并且DMA单元8将被写入到FIFO缓冲器7的数据传输给存储器部分43。0103即，图11所示的写入电路250适于将在寄存器24中所存储的算术运算结果顺序地写入到FIFO缓冲器7，并且将从FIFO缓冲器7到存储器部分43（数据存储器4）的数据传输留给DMA单元8。0104图12是示出了根据本实施例的算术处理装置1中的参数信息的示例的图。例如，被用于流处理中的参数信息可以由每个流（I）的起始地址（AI）、每个流（I）的流长度（LI）、算术运算操作码（O）以及算术运算模式（M）所代表；并且可以由单个长位。

37、长设定指令（设定说明书CN104111817A108/10页11指令SET（设定）所代表。0105如同附图标记P10所指示地，从指令存储器18读出设定指令（参数信息），并且将其一次性地分配给（设定至）参数寄存器140。如附图标记P11所指示地，管道级（出栈单元21、执行单元23以及入栈单元25）参考参数寄存器140中的参数信息以进行管道执行。0106图13至图14C是示出了根据本实施例的算术处理装置1中的单步指令的图。如图13至图14C所示，根据本实施例中的算术处理装置（流引擎2），可以依照所设定的指令进行控制。0107即，如附图标记P20所指示地，从指令存储器18读出单步指令，并且执行单步指。

38、令以由此使得可以控制流引擎2中的各个管道级中的处理P21至处理P23。单步指令是例如由程序员预先所创建的指令。0108在此示例中，从指令存储器18按顺序读出单步指令“单步1至单步N”，并且将其从指令发出单元14发出到流引擎2，以及执行管道处理P21至管道处理P23。0109如图13所示，将单步指令从指令发出单元14发出到流引擎2，并且出栈单元21、执行单元23以及入栈单元25依照各自的单步指令执行对应的处理（处理P21、处理P22以及处理P23）。0110即，如图14A所示，处理P21是如下处理在该处理中，出栈单元21从数据存储器4读出数据并且将数据写入寄存器221和寄存器222。如图14B所。

39、示，处理P22是如下处理在该处理中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理并且将生成的数据写入到寄存器24。0111另外，如图14C所示，处理P23是如下处理在该处理中，入栈单元25将被写入到寄存器24的数据写入到数据存储器19。这些处理P21至P23依照从指令发出单元14所发出的单步指令经受了管道执行。0112图15是示出了根据本实施例的算术处理装置1中的单步指令的修改例的图。在以上参照图13所描述的情况下，从指令存储器18直接读出N个单步指令“单步1至单步N”，并且将其从指令发出单元14发出到流引擎2。0113相反，在图15所示的修改例中，将设定指令与用于有效地执。

40、行连续地重复的处理（循环处理）的循环处理所专用的指令（零开销循环指令）进行组合。0114即，将N个单步指令“单步1至单步N”与零开销循环指令（循环N个单步）进行组合，使得可以抑制指令序列的数量的增加。在零开销循环指令的情况下，例如，当中断发生时，在正在执行的单步中立即停止流的处理。0115图16至图17C是示出了根据本实施例的算术处理装置中的微指令的图。如图16所示，从指令发出单元14发出到流引擎2的指令是微指令。0116即，如由图16所示的附图标记P30所指示地，根据本实施例的算术处理装置适于从指令存储器18读出微指令并且执行微指令以控制流引擎2中各自的管道级中的处理P21至处理P23。01。

41、17例如，出栈指令被分配给图17A所示的处理P21，执行指令被分配给图17B所示的处理P22，入栈指令被分配给图17C所示的处理P23，以及根据微指令执行处理P21至处理P23。此布置能够使得根据微指令分别地控制各自的管道级中的处理P21至处理P23。0118图18A至18C是示出了依照根据本实施例的算术处理装置中的微指令的存取控制说明书CN104111817A119/10页12的图。0119在这种情况下，图18A示出了发出出栈指令、执行指令以及入栈指令中的所有的情况，图18B示出了停止出栈指令的情况，以及图18C示出了停止入栈指令的情况。与图7和图11所示的配置类似地，算术处理装置包括DMA。

42、单元5和DMA单元8以及FIFO缓冲器61、FIFO缓冲器62和FIFO缓冲器7。0120首先，如图18A所示，当发出出栈指令、执行指令以及入栈指令中的所有时，以对应的周期执行各自的管道级中的处理P21至处理P23。0121接下来，如图18B所示，当停止出栈指令时，即，当仅执行执行指令和入栈指令时，出栈单元21停止从FIFO缓冲器61和FIFO缓冲器62读出数据。0122作为由DMA单元（输入DMA单元）5所进行的数据传输的结果，FIFO缓冲器61和FIFO缓冲器62被填满，并且DMA单元5检测到FIFO缓冲器61和FIFO缓冲器62的填满状态以及进行自动停止。即，通过停止为微指令的出栈指令，。

43、可以停止流引擎2的管道处理。0123此外，如图18C所示，当停止入栈指令时，即，当仅执行出栈指令和执行指令时，入栈单元25停止用于从寄存器24读出数据并且将数据存储在FIFO缓冲器7中的操作。0124作为结果，FIFO缓冲器7变为空，并且DMA（输出DMA）单元8检测到FIFO缓冲器7的空状态以及进行自动停止。即，通过停止为微指令的入栈指令，可以停止流引擎2的管道处理。0125微指令（即出栈指令、执行指令以及入栈指令）的使用，能够使得DMA单元5和DMA单元8例如在即使发生中断时也自主地控制存储器存取。即，可以简化存储器19与算术单元15之间的数据传输的控制，因此使得可以减少用于存储器存取控制。

44、的硬件的数量。0126图19示出了根据本实施例的算术处理装置的微指令被嵌入（被打包到）VLIW指令中的状态。如以上参照图16至图18C所描述地，当使用微指令时，例如，将微指令嵌入超长指令字（VLIW）指令使得可以同时执行各个处理，由此使得可以减少执行周期的数量。0127即，将多个微指嵌入VLIW指令中使得可以减少循环处理中的指令的数量，并且还使得可以减少循环中的执行周期的数量。这样的布置还使得可以有效地使用基本处理器（在算术处理装置1中，可以是VLIW处理器）的指令集架构。0128图19示出了将M个微指令打包到N个VLIW指令中的状态。现在将参照图20A至图21C描述根据VLIW1指令至VLI。

45、W3指令的前序处理和根据VLIWN2指令至VLIWN指令的收尾处理。0129图20A至图20C是示出了根据图19所示的VLIW指令的前序处理的图。更具体地，图20A示出了根据VLIW1指令的处理，图20B示出了根据VLIW2指令的处理，以及图20C示出了根据VLIW3指令的处理。0130如图19所示，前序处理是用于激活流引擎2的处理并且是通过执行三个指令（即VLIW1出栈、VLIW2出栈、执行以及VLIW3出栈、执行、入栈）所实现的。0131首先，如图20A所示，仅执行为VLIW1指令的出栈指令。即，根据出栈指令执行处理P21，在处理P21中，出栈单元21从数据存储器4读出数据并且将数据写入到。

46、寄存器221和寄存器222。作为结果，将执行单元23要对其进行算术运算处理的数据输入到寄存器221和寄存器222。0132接下来，如图20B所示，执行在VLIW2指令中所包括的出栈指令和执行指令。即，说明书CN104111817A1210/10页13根据出栈指令来执行处理P21，并且还根据执行指令来执行处理P22，在处理P22中，执行单元23对被写入到寄存器221和寄存器222的数据执行流处理，并且将生成的数据写入到寄存器24。0133作为结果，将执行单元23要对其执行算术运算处理的数据输入到寄存器221和寄存器222，并且将入栈单元25要将其写入到数据存储器4的算术运算结果数据输入到寄存器2。

47、4。0134如图20C所示，执行在VLIW3指令中所包括的出栈指令、执行指令以及入栈指令。根据出栈指令来执行处理P21，根据执行指令来执行处理P22，以及还根据入栈指令来执行处理P23在处理P23中，入栈单元25将被写入到寄存器24的算术运算结果数据写入到数据存储器4。0135在从以上所述的前序处理到以下参照图21所描述的收尾处理的处理中，根据可以与VLIW3指令相同的指令（VLIW4指令、VLIW5指令、）连续地执行涉及处理P21至处理P23的管道处理。0136图21A至21C是示出了根据图19所示的VLIW指令的收尾处理的图。更具体地，图21A示出了根据VLIWN2指令的处理，图21B示出。

48、了根据VLIWN1指令的处理，以及图21C示出了根据VLIWN指令的处理。0137如图19所示，收尾处理是用于停止操作中的流引擎2的处理，收尾处理与以上参照图20A至图20C所描述的前序处理相反。通过执行三个指令（即，VLIWN2出栈、执行、入栈、VLIWN1执行、入栈以及VLIWN入栈）来实现收尾处理。0138首先，如图21A所示，执行在VLIWN2指令中所包括的出栈指令、执行指令以及入栈指令。VLIWN2指令可以与以上参照图20C所描述的VLIW3指令（即在处理P21至处理P23中连续地执行的管道处理中的指令）相同。0139接下来，如图21B所示，执行在VLIWN1指令中所包括的执行指令和。

49、入栈指令。即，因为省略了出栈指令，所以停止处理P21在处理P21中，出栈单元21从数据存储器4读出数据并且将数据写入到寄存器221和寄存器222。作为结果，寄存器221和寄存器222变为空。0140随后，如图21C所示，仅执行在VLIWN指令中所包括的入栈指令。即，因为省略了出栈指令和执行指令，所以不仅寄存器221和寄存器222变为空，而且寄存器24也变为空。0141依照三个微指令（即，出栈指令、执行指令以及入栈指令）控制流引擎2仅为示例，并且无需说明，可以进行各种改变。例如，可以添加另一微指令或可以使用不同的微指令。0142尽管通过示例的方式描述了进行LTEADVANCED等中的矩阵算术运算处理的算术处理装置，但是本实施例不仅限于这种应用到无线通信装置的算术处理装置，而且还可以广泛地应用到各种算术处理装置。0143在以上实施例中所描述的所有的示例和情况意在有助于对应用到本公开和技术的技术概念的理解，而不意在具体地限制本公开的范围。另外，本文中的这种描述不是意在指示本公开的优点和缺点。尽管详细地描述了本公开的实施例，但是将理解的是在不背离本公开的精神和范围的情况下可以进行各种改变、替换以及修改。说明书CN104111817A131/19页14图1说明书附图CN104111817A142/19页15图2说明书附图CN104111817A153/19页16图3说明书附。

展开阅读全文