一种能够进行业务硬件加速的装置及其方法.pdf

摘要
申请专利号：	CN201210277188.5	申请日：	2012.08.06
公开号：	CN102769574A	公开日：	2012.11.07
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):H04L 12/56申请日:20120806\|\|\|公开
IPC分类号：	H04L12/56	主分类号：	H04L12/56
申请人：	华为技术有限公司
发明人：	王志刚; 郭晓阳; 王建侠
地址：	518129 广东省深圳市龙岗区坂田华为总部办公楼
优先权：
专利代理机构：	北京永新同创知识产权代理有限公司 11376	代理人：	钟胜光
PDF下载：	PDF下载

内容摘要

本发明提供一种能够进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及CPU，配置为从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行GPRS隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理。所述逻辑硬件加速模块进一步配置为对经过所述PDCP处理的数据报文执行无线链路控制（RLC）处理以生成RLC协议数据单元（PDU），对所述RLCPDU执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。通过根据本发明的业务硬件加速方案，可以极大地减轻CPU的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。

权利要求书

1：一种能够进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及 CPU，配置为从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行 GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理，其中，所述逻辑硬件加速模块进一步配置为对经过所述 PDCP 处理的数据报文执行无线链路控制（RLC）处理以生成 RLC 协议数据单元（PDU），对所述 RLC PDU 执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。2：如权利要求 1 所述的装置，其中，所述逻辑硬件加速模块包括：背板接口模块，配置为从所述核心网接收所述下行数据报文；内存管理模块，配置为分配所述 CPU 的内存地址；以及接收匹配模块，配置为确定所述下行数据报文是否需要由所述 CPU 处理，并且在确定所述下行数据报文需要由所述 CPU 处理的情况下，基于所述内存地址将所述下行数据报文存储到所述内存区中。3：如权利要求 1 所述的装置，其中，所述逻辑硬件加速模块进一步配置为向所述 CPU 发送接收消息，该接收消息包括所述下行数据报文在所述内存区中的存储地址，以及所述 CPU 进一步配置为基于所述接收消息中包括的所述存储地址，从所述内存区获取所述下行数据报文。4：如权利要求 1 所述的装置，其中，所述 CPU 进一步配置为向所述逻辑硬件加速模块发送插入消息，该插入消息包括所述经过所述 PDCP 处理的数据报文在所述内存区中的存储地址，以及所述逻辑硬件加速模块进一步配置为基于所述插入消息中包括的所述存储地址，从所述内存区获取所述经过所述 PDCP 处理的数据报文。5：如权利要求 1 所述的装置，其中，所述逻辑硬件加速模块包括： RLC 控制 / 状态处理模块，配置为生成控制状态 PDU ；下行重传和切片模块，配置为对经过所述 PDCP 处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理； PDU 成帧模块，配置为基于所述 RLC 控制 / 状态处理模块以及所述下行重传和切片模块的处理来生成关于所述 RLC PDU 的描述信息； RLC PDU 调度模块，配置为根据所述描述信息从所述内存区中读取 PDU 数据；以及加解密处理模块，配置为从所述 RLC PDU 调度模块获取所述 PDU 数据并且执行加密处理，以便生成所述 RLC PDU。6：如权利要求 1 所述的装置，其中，所述逻辑硬件加速模块包括：帧协议（FP）组帧模块，配置为对所述 RLC PDU 执行 MAC-d C/T 封装和比特移位处理，并且执行 FP 帧生成处理，以便生成 FP 帧；以及媒体访问控制（MAC）封装模块，配置为对所述 FP 帧执行传输层处理，并且封装 MAC 头和虚拟局域网（VLAN）标签，以便生成所述下行以太网报文。7：如权利要求 1 所述的装置，其中， 2 所述逻辑硬件加速模块还配置为接收来自基站的上行数据报文，对所述上行数据报文执行解封装处理以生成经过解封装处理的 PDU，对所述经过解封装处理的 PDU 执行 RLC 处理以生成业务数据单元（SDU），并且将所述 SDU 存储到所述 CPU 的内存区中，所述 CPU 还配置为从所述内存区获取所述 SDU，并且对所述 SDU 执行封装处理以生成上行以太网报文，以及所述逻辑硬件加速模块还配置为发送所述上行以太网报文。8：如权利要求 7 所述的装置，其中，所述逻辑硬件加速模块包括：背板接口模块，配置为从所述基站接收所述上行数据报文；接收匹配模块，配置为确定所述上行数据报文是否是增强专用信道（EDCH）数据报文；以及 EDCH 上行处理模块，配置为在所述接收匹配模块确定所述上行数据报文是 EDCH 数据报文时，执行 EDCH 帧协议（FP）帧处理、 MAC-es/is 处理和 MAC-d 排序处理，以便生成所述经过解封装处理的 PDU。9：如权利要求 7 所述的装置，其中，所述逻辑硬件加速模块包括：上行 PDU 预处理模块，配置为分析所述经过解封装处理的 PDU 以分离控制状态 PDU 和数据 PDU ； RLC 控制 / 状态处理模块，配置为从所述上行 PDU 预处理模块接收所述控制状态 PDU ；加解密处理模块，配置为从所述上行 PDU 预处理模块接收所述数据 PDU 并且对所述数据 PDU 执行解密处理；上行扫描和解复用模块，配置为对所述经过解密处理的数据 PDU 执行扫描，以确定是否可以进行重组；以及 SDU 重组递交模块，配置为如果所述上行扫描和解复用模块确定能够进行重组，则对所述经过解密处理的数据 PDU 执行重组以生成所述 SDU，并且将所述 SDU 存储到所述内存区中。10：如权利要求 7 所述的装置，其中，所述逻辑硬件加速模块进一步配置为向所述 CPU 发送重组成功消息，该重组成功消息包括所述 SDU 在所述内存区中的存储地址，以及所述 CPU 进一步配置为基于所述重组成功消息中包括的所述存储地址，从所述内存区获取所述 SDU。11：如权利要求 7 所述的装置，其中，所述 CPU 还配置为：对所述 SDU 执行报文数据汇聚协议（PDCP）处理、 GPRS 隧道协议 UMTS（GTPU）协议处理和传输层处理，并且封装媒体访问控制（MAC）头和虚拟局域网（VLAN）标签，以便生成所述上行以太网报文。12：如权利要求 1 所述的装置，其中，所述逻辑硬件加速模块为现场可编程门阵列（FPGA）。13：一种用于业务硬件加速的方法，该方法应用于能够进行业务硬件加速的装置，该装置包括逻辑硬件加速模块和中央处理单元（CPU），所述方法包括：逻辑硬件加速模块接收来自核心网的下行数据报文，并且将所述下行数据报文存储到所述 CPU 的内存区中； 3 所述 CPU 从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行 GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理；所述逻辑硬件加速模块对经过所述 PDCP 处理的数据报文执行无线链路控制（RLC）处理以生成 RLC 协议数据单元（PDU）；所述逻辑硬件加速模块对所述 RLC PDU 执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文；以及所述逻辑硬件加速模块发送所述下行以太网报文。14：如权利要求 13 所述的方法，还包括：所述逻辑硬件加速模块接收来自基站的上行数据报文；所述逻辑硬件加速模块对所述上行数据报文执行解封装处理以生成经过解封装处理的 PDU ；所述逻辑硬件加速模块对所述经过解封装处理的 PDU 执行 RLC 处理以生成业务数据单元（SDU）；所述逻辑硬件加速模块将所述 SDU 存储到所述 CPU 的内存区中；所述 CPU 从所述内存区获取所述 SDU，并且对所述 SDU 执行封装处理以生成上行以太网报文；以及所述逻辑硬件加速模块发送所述上行以太网报文。15：一种能够进行业务硬件加速的装置，其采用系统级芯片（SOC）来实现，该装置包括：内部高级微控制器总线架构（AMBA） Fabric 交换总线；高速协处理器总线，其连接到所述 AMBA Fabric 交换总线，用于在连接到该高速协处理器总线的各个单元之间交换数据以及与所述 AMBA Fabric 交换总线交换数据； XGE 接口，其连接到所述高速协处理器总线，配置为接收来自核心网的下行数据报文；多核处理器阵列，其连接到所述 AMBA Fabric 交换总线，配置为对所述下行数据报文执行 GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理；无线链路控制（RLC）切片硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述 PDCP 处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理，其中，所述多核处理器阵列进一步配置为根据所述 RLC 切片硬加速单元的处理来提取协议数据单元（PDU）数据；加解密硬加速单元，其连接到所述高速协处理器总线，配置为经由所述高速协处理器总线和所述 AMBA Fabric 交换总线从所述多核处理器阵列获取所述 PDU 数据，并且对所述 PDU 数据执行加密处理以便生成 RLC PDU ；以及帧协议（FP）组帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述 RLC PDU 执行 MAC-d C/T 封装和比特移位处理，执行 FP 帧生成处理以便生成 FP 帧，并且对所述 FP 帧执行封装处理以生成下行以太网报文，其中，所述 XGE 接口还配置为发送所述下行以太网报文。16：如权利要求 15 所述的装置，其中，所述 XGE 接口还配置为接收来自基站的上行数据报文，并且其中，所述装置还包括： 4 FP 解帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述上行数据报文执行 FP 帧处理和 MAC-es/is 处理；增强专用信道（EDCH）排序硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述 FP 解帧硬加速单元处理的数据报文执行 MAC-d 排序处理，其中，所述加解密硬加速单元还配置为对经过所述 EDCH 排序硬加速单元处理的数据执行解密处理；以及 RLC 重组硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述加解密硬加速单元处理的数据执行重组以生成业务数据单元（SDU），其中，所述多核处理器阵列还配置为对所述 SDU 执行封装处理以生成上行以太网报文，并且其中，所述 XGE 接口还配置为发送所述上行以太网报文。

说明书

一种能够进行业务硬件加速的装置及其方法
    技术领域本发明一般涉及移动通信系统，具体地，涉及能够对移动通信系统中的高速上行业务和高速下行业务进行硬件加速的装置及其方法。
     背景技术随着移动宽带业务的发展，全球信息及通信市场正在面临一个显著转变。可以预见，在未来数年后，移动带宽将会产生巨大的增长。无线业务量的巨增给业务处理单板（例如， WCDMA 业务处理单板）的性能带来了很大的挑战，这要求处理能力实现几倍甚至十几倍的规格提升。通用处理器在信息技术与通信技术的融合过程中逐渐占据优势，但是通用处理器在通信领域的速度还赶不上专用处理器，因此，在一段时间内需要协处理器的加速。为了满足带宽需求，业务硬件加速是可以考虑的方案之一。
     例如，为了适应更高的分组数据业务数据速率， 3GPP/WCDMA 标准组织提出了高速分组接入（HSPA ： High Speed Packet Access）、 HSPA+ 等标准，进一步增强了性能，从而支持更高的每用户峰值速率。高速下行分组接入（HSDPA ： High Speed Downlink Packet Access）在下行链路上能够达到高达 168Mbit/s 的速率，高速上行分组接入（HSUPA ： High Speed Uplink Packet Access）在上行链路上能够达到高达 24Mbit/s 的速率。无线网络控制器（RNC ： Radio Network Controller）管理着很多基站和用户，根据话务模型统计， HSPA 的分组交换（PS ： Packet-Switched）业务流量达到了 RNC 处理的整个 WCDMA 业务的 90%。因此，高速、大流量 PS 数据在业务处理单板的硬件加速成为首先考虑的问题。
     在一种现有技术方案中，采用一片通用的多核处理器完成 WCDMA 业务的处理，其中内嵌 Kasumi/Snow 3g 硬件加速单元。多核处理器可以是例如 Rmi、 Cavium、 FreeScale 等多核处理器产品，这一类处理器通常带有 16/32 个 MIPS 核以及 2 个万兆以太网（10GE）的接口。每个处理器核运行一个业务进程，业务报文的处理在虚拟中央处理单元（VCPU ： Virtual Central Processing Unit）中由软件完成。当需要加解密运算的时候，可以通过内部总线使用内嵌的硬件加速单元，同时， VCPU 软件同步等待加解密的结果返回后继续往下运行。
     上述现有技术方案存在如下缺点。通用的多核处理器中的每个单独核的处理能力不强，主频通常仅在 1GHz 左右。对于 I/O 密集型的 WCDMA 业务，采用 VCPU 软件处理业务报文的这种方式获得的性能不佳。虽然这类处理器通常带有各种硬件加速单元，但是这些硬件加速单元在 WCDMA 业务处理上都不能发挥作用。通常，这些硬件加速单元可以较好地用于报文转发处理，但是却不能支持对于业务报文的分片、重组等处理。虽然内嵌的 Kasumi/ Snow 3g 硬件加速单元性能较高，但是其仅能用于加解密处理，而不能用于整个 WCDMA 业务的处理流程中除了加解密之外的很多其它消耗 CPU 处理能力的运算。例如，这些硬件加速单元无法用于报文大块内存比特移位搬移、负载循环冗余校验（CRC ： Cyclic Redundancy Check）运算、报文校验和计算、协议数据单元（PDU ： Protocol Data Unit）分段和级联、 PDU 分片重组等处理。如果采用纯软件执行这些处理，则单个进程所能处理的用户数就比较少，更重要的是处理延时不确定。当 VCPU 负载比较低时，处理延时较小。但是，一旦 VCPU 负载
     很高，则处理延时就比较大。延时波动的巨烈将体现在用户下载速率的波动上，导致用户体验差。
     在另一种现有技术方案中，采用一片带有网络处理器（NP ： Network Processor）功能的多核处理器芯片来完成 WCDMA 业务的处理，例如， LSI 公司的 Axxia 通信处理器（ACP ： Axxia Communication Processor）产品。这一类处理器通常带有 4/8 个 PPC 核和 2 个 10GE 的接口，并且内嵌有 Kasumi/Snow 3g 加密引擎和 NP 加速单元。通用的 NP 加速单元具有可编程特点，可以用来实现 WCDMA 业务中的无线链路控制（RLC ： Radio Link Control）分段级联、重组、比特移位、 C/T 封装、 CRC 计算等功能。每个处理器核运行一个业务进程，业务报文的处理大部分由 VCPU 软件完成，加速部分由 NP 加速单元完成。报文的处理采用 Pipeline 流水方式，由一个 NP 加速单元转发到另一个 NP 加速单元，每个可编程 NP 加速单元执行加速特定部分的功能。
     上述现有技术方案存在如下缺点。该技术采用带有 NP 功能的芯片，但是其自带的多核处理器的每个单独核处理能力不强，主频通常在 1.6GHz。虽然由 NP 加速单元卸载了一部分处理，但是业务处理的其它部分也需要很强的 VCPU 处理能力。此外，该方案的核心仍是利用 NP 加速单元的可编程特点，即，实质上仍然是利用软件来实现加速功能。虽然 NP 加速单元的可编程性具有一定的灵活性，但是 NP 加速单元仅主要面向网络报文转发处理，其处理复杂业务的效率低下，因此只能进行一些简单重复的处理。可见，这类 NP 处理单元的功能大都受到了限制，其灵活性不够，处理能力也不足，整个芯片业务处理能力不够。
     因此，本领域需要能够适应业务需求的业务硬件加速方案。发明内容
     本发明针对现有技术中存在的问题，提出了能够进行业务硬件加速的装置及其方法。根据一个方面，本发明提供了一种能够进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及 CPU，配置为从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行 GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理。所述逻辑硬件加速模块进一步配置为对经过所述 PDCP 处理的数据报文执行无线链路控制（RLC）处理以生成 RLC 协议数据单元（PDU），对所述 RLC PDU 执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。
     此外，在本发明提供的能够进行业务硬件加速的装置中，所述逻辑硬件加速模块还配置为接收来自基站的上行数据报文，对所述上行数据报文执行解封装处理以生成经过解封装处理的 PDU，对所述经过解封装处理的 PDU 执行 RLC 处理以生成业务数据单元（SDU），并且将所述 SDU 存储到所述 CPU 的内存区中。所述 CPU 还配置为从所述内存区获取所述 SDU，并且对所述 SDU 执行封装处理以生成上行以太网报文。所述逻辑硬件加速模块还配置为发送所述上行以太网报文。
     根据另一个方面，本发明提供了一种用于业务硬件加速的方法，该方法应用于能够进行业务硬件加速的装置，该装置包括逻辑硬件加速模块和 CPU，所述方法包括：逻辑硬件加速模块接收来自核心网的下行数据报文，并且将所述下行数据报文存储到所述 CPU 的
     内存区中；所述 CPU 从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行 GTPU 协议处理以及 PDCP 处理；所述逻辑硬件加速模块对经过 PDCP 处理的数据报文执行 RLC 处理以生成 RLC PDU ；所述逻辑硬件加速模块对所述 RLC PDU 执行 FP 组帧处理和封装处理以生成下行以太网报文；以及所述逻辑硬件加速模块发送所述下行以太网报文。
     此外，本发明提供的用于业务硬件加速的方法还包括：所述逻辑硬件加速模块接收来自基站的上行数据报文；所述逻辑硬件加速模块对所述上行数据报文执行解封装处理以生成经过解封装处理的 PDU ；所述逻辑硬件加速模块对所述经过解封装处理的 PDU 执行 RLC 处理以生成 SDU ；所述逻辑硬件加速模块将所述 SDU 存储到所述 CPU 的内存区中；所述 CPU 从所述内存区获取所述 SDU，并且对所述 SDU 执行封装处理以生成上行以太网报文；以及所述逻辑硬件加速模块发送所述上行以太网报文。
     根据另一个方面，本发明提供了一种能够进行业务硬件加速的装置，其采用系统级芯片（SOC）来实现，该装置包括：内部高级微控制器总线架构（AMBA） Fabric 交换总线；高速协处理器总线，其连接到所述 AMBAFabric 交换总线，用于在连接到该高速协处理器总线的各个单元之间交换数据以及与所述 AMBA Fabric 交换总线交换数据； XGE 接口，其连接到所述高速协处理器总线，配置为接收来自核心网的下行数据报文；多核处理器阵列，其连接到所述 AMBA Fabric 交换总线，配置为对所述下行数据报文执行 GTPU 协议处理以及 PDCP 处理； RLC 切片硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述 PDCP 处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理，其中，所述多核处理器阵列进一步配置为根据所述 RLC 切片硬加速单元的处理来提取 PDU 数据；加解密硬加速单元，其连接到所述高速协处理器总线，配置为经由所述高速协处理器总线和所述 AMBA Fabric 交换总线从所述多核处理器阵列获取所述 PDU 数据，并且对所述 PDU 数据执行加密处理以便生成 RLC PDU ；以及 FP 组帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述 RLCPDU 执行 MAC-d C/T 封装和比特移位处理，执行 FP 帧生成处理以便生成 FP 帧，并且对所述 FP 帧执行封装处理以生成下行以太网报文。所述 XGE 接口还配置为发送所述下行以太网报文。
     此外，在本发明提供的能够进行业务硬件加速的装置中，所述 XGE 接口还配置为接收来自基站的上行数据报文。所述装置还包括： FP 解帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述上行数据报文执行 FP 帧处理和 MAC-es/is 处理；增强专用信道（EDCH）排序硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述 FP 解帧硬加速单元处理的数据报文执行 MAC-d 排序处理，其中，所述加解密硬加速单元还配置为对经过所述 EDCH 排序硬加速单元处理的数据执行解密处理；以及 RLC 重组硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述加解密硬加速单元处理的数据执行重组以生成 SDU。所述多核处理器阵列还配置为对所述 SDU 执行封装处理以生成上行以太网报文。所述 XGE 接口还配置为发送所述上行以太网报文。
     通过根据本发明的业务硬件加速方案，可以极大地减轻 CPU 的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。附图说明
     图 1 示出了根据本发明实施例的能够进行业务硬件加速的装置的结构示意图；图 2 示出了根据本发明实施例的控制消息的示意图；图 3 示出了根据本发明实施例的实现业务硬件加速的 FPGA 结构示意图；图 4 示出了根据本发明实施例的 HSDPA 数据传输的处理流程图；图 5 示出了根据本发明实施例的 HSUPA 数据传输的处理流程图；以及图 6 示出了根据本发明另一个实施例的能够进行业务硬件加速的装置的结构示意图。具体实施方式
     本发明提出了 CPU 与逻辑硬件加速模块相配合的业务硬件加速处理方案。在本发明的实施例中， CPU 可以采用例如高性能的 X86 SandyBridge 或 IvBridge CPU 芯片，其主频达到 2.1GHz，处理能力相当于 MIPS 处理器核的 10 倍。此外，在其它实施例中， CPU 也可以采用 MIPS 处理器、 ARM 处理器等。逻辑硬件加速模块可以执行业务硬件加速处理，其可以采用现场可编程门阵列（FPGA ： Field Programmable Gate Array）或者系统级芯片（SOC ： System on Chip）来实现。例如，对于处理时延要求比较高、流量比较大的快速路径业务，可以采用逻辑硬件加速模块进行硬件加速，而对于处理时延要求比较低、流量比较小的慢速路径业务，可以由 CPU 来进行处理。本发明考虑到了 HSDPA 和 HSUPA 业务的大流量、高速率的特点。本发明可以将原来由 CPU 负责的 HSDPA 下行业务中的 RLC 分段级联、 Kasumi/Snow3g 加密、媒体访问控制（MAC） C/T 封装、比特移位、帧协议（FP ： Frame Protocol）类型 1/2 组帧、 CRC 计算和 IP/UIP 传输处理等处理交由逻辑硬件加速模块执行。本发明还可以将原来由 CPU 负责的 HSUPA 上行业务中的上行增强专用信道（EDCH ： Enhanced Dedicated Channel） FP 类型 1/2 解帧、 CRC 校验、 MAC-es/is 重排序、 Kasumi/Snow3g 解密、 RLC 数据报文重组等处理交由逻辑硬件加速模块执行。本发明通过将以上描述的不经常变化的 WCDMA 业务层二协议部分进行逻辑硬化，可以极大地减轻 CPU 的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。
     图 1 示出了根据本发明实施例的能够进行业务硬件加速的装置的结构示意图。
     如图 1 所示，所述能够进行业务硬件加速的装置可以包括 CPU 芯片 115 （例如， X86 CPU、 MIPS 处理器、 ARM 处理器等）、 FPGA 芯片 111 以及 2 个 10GE 的 PHY 芯片 120。CPU 芯片 115 可以外带 DDR3 DIMM 内存 116， FPGA 芯片 111 可以外带 DDR3 颗粒内存 113 以及 QDR SRAM 存储芯片 112。FPGA 芯片 111 可以提供 2 个 XAUI 接口 119，以便用于与 10GE PHY 芯片 120 相连接。CPU 芯片 115 可以通过 2 个 PCIE×4 Gen2 接口 114 和 118 来与 FPGA 芯片 111 相连接。FPGA 芯片 111 可以提供双 PCIE 核以用于与 CPU 芯片 115 进行通信。PCIE 114 可以用于小流量控制消息交互， PCIE118 可以用于大流量数据块交互。CPU 芯片 115 内部的多核处理器 117 可以负责业务和底层软件处理。
     图 1 所示的能够进行业务硬件加速的装置可以针对 HSDPA 业务和 HSUPA 业务进行硬件加速。在对 HSDPA 业务的硬件加速中，来自核心网的下行数据报文被 10GE PHY 芯片 120 接收，在由 FPGA 芯片 111 匹配识别后交给 CPU 芯片 115 进行业务处理，再交给 FPGA 芯片 111 进行 HSDPA 业务硬件加速，然后从 10GE PHY 芯片 120 发送给基站。在对 HSUPA 业务的硬件加速中，来自基站的上行数据报文被 10GE PHY 芯片 120 接收，在由 FPGA 芯片 111 匹
     配识别后进行 HSUPA 业务硬件加速，然后交给 CPU 芯片 115 进行业务处理，处理完成后再交给 FPGA 芯片 111 经由 10GE PHY 芯片 120 发送到核心网。
     根据本发明的实施例，在图 1 所示的 CPU 芯片 115 与 FPGA 芯片 111 之间可以采用控制消息来实现命令的交互。图 2 示出了根据本发明实施例的控制消息的示意图。
     根据本发明的实施例，在从 CPU 到 FPGA 的下行方向，可以为每个业务进程分配一个发送控制消息缓冲区，而在从 FPGA 到 CPU 的上行方向，可以为每个业务进程分配一个接收控制消息缓冲区。业务进程的数目可以根据 CPU 超线程数目来确定。发送控制消息缓冲区和接收控制消息缓冲区可以位于 CPU 的 DDR3 内存中，二者在空间上独立划分且互不干涉。发送控制消息缓冲区的 CPU 写指针和接收控制消息缓冲区的 CPU 读指针是由业务进程独立维护的，发送控制消息缓冲区的 FPGA 读指针和接收控制消息缓冲区的 FPGA 写指针是由 FPGA 逻辑维护的。上述四个指针可以位于 CPU 的 DDR3 内存中，并且可以被 CPU 读取访问。
     存储在发送控制消息缓冲区的控制消息可以被称为下行控制消息，而存储在接收控制消息缓冲区的控制消息可以被称为上行控制消息。
     下行控制消息可以具有可变长度，在这种情况下，下行控制消息可以包括下行控制消息固定部分和下行控制消息可变部分。然而，根据另一个实施例，下行控制消息也可以具有固定长度，在这种情况下，下行控制消息可以仅包括下行控制消息固定部分，而不包括与上述的下行控制消息可变部分相关的字段等。以下以具有可变长度的下行控制消息为例来说明下行控制消息的结构，本领域技术人员应当理解，可以通过移除与实现可变长度相关的部分和字段来得到具有固定长度的下行控制消息的结构。
     下行控制消息中的下行控制消息固定部分可以包括： CommParaTAG 字段，用于标识该消息为下行控制消息或上行控制消息，并且可以作为定界符以表示消息的开始；控制消息类型字段，用于表示该下行控制消息的类型；控制消息数量字段，用于表示子可变控制消息的数量；以及 VCPU 号字段，用于标识业务进程编号。此外，下行控制消息固定部分还可以包括：下行公共头部分字段； ReturnMsgPtr 字段，用于指示 CPU 要求 FPGA 按原样返回的字段；以及下行控制消息类型相关内容字段，用于承载与该下行控制消息相关的消息内容，例如报文地址、调度信息等。下行控制消息中的下行控制消息可变部分可以由多个子可变控制消息组成，子可变控制消息在仅执行加解密处理时使用，其可以包括 PrivParaTAG 字段、加密五元参数等字段。由于下行控制消息采用了可变长度，这会导致在发送控制消息缓冲区中进行存储时，可能将下行控制消息的一部分保存在该缓冲区的底部，而下行控制消息的另一部分保存在该缓冲区的顶部，这个特殊处理由 FPGA 在逻辑搬移下行控制消息时判读。
     上行控制消息仅包括上行控制消息固定部分，其包括 CommParaTAG 字段、控制消息类型字段、 VCPU 号字段、上行公共头部分字段、 ReturnMsgPtr 字段以及上行控制消息类型相关内容字段等。这些字段具有与下行控制消息中的相应字段的相同或相应的作用。
     应当指出，根据本发明的下行控制消息和上行控制消息的结构并不局限于图 2 所示以及以上描述，其可以选择性地包括上述结构中的一个或多个字段，或者根据实际需要包括任何其它字段。
     当 CPU 的业务进程需要发送下行控制消息到 FPGA 时，其可以判断发送控制消息缓冲区的 CPU 写指针和 FPGA 读指针之间的剩余控制消息空间是否足够写入该下行控制消息。如果足够，则写入该下行控制消息，最后更新 CPU 写指针。当 CPU 的业务进程需要读取来自 FPGA 的上行控制消息时，其可以轮询接收控制消息缓冲区的 CPU 读指针和 FPGA 写指针。如果发现这两个指针不一致，则将上行控制消息搬移出来进行后续处理，最后更新 CPU 读指针。
     当 FPGA 需要读取来自 CPU 的下行控制消息时，其可以定时扫描发送控制消息缓冲区的 CPU 写指针和 FPGA 读指针。如果发现这两个指针不一致，则将下行控制消息内容搬移出来进行后续处理，最后更新 FPGA 读指针。当 FPGA 需要发送上行控制消息到 CPU 时，其可以判断接收控制消息缓冲区的 CPU 读指针和 FPGA 写指针之间的剩余控制消息空间是否足够写入该上行控制消息。如果足够，则写入该上行控制消息，最后更新 FPGA 写指针。
     图 3 示出了根据本发明实施例的实现业务硬件加速的 FPGA 结构示意图。
     如图 3 所示，根据本发明实施例的 FPGA 可以包括 PCIE 接口调度模块 301、背板接口部分、硬件加速处理部分以及存储和配置接口部分。
     PCIE 接口调度模块 301 可以提供 2 个 PCIE×4Gen2 接口，以便与 CPU 连接。根据本发明的实施例， FPGA 与 CPU 的各种通信需要经由该 PCIE 接口调度模块 301。PCIE 接口调度模块 301 可以包括指令缓存 F1、数据缓存 F2 以及上行调度缓存 F3。背板接口部分可以包括背板接口模块 312，其提供 2 个 XAUI 接口以便与 10GE PHY 器件连接。背板接口部分还可以包括发送调度模块 313、发送接口模块 314、端口 QoS 整形模块 317、内存管理模块 316 以及接收匹配模块 310。
     存储和配置接口部分可以包括 DDR 指令调度模块 303、 QDR 指令调度模块 306、时钟和复位模块 308 以及 MPI 配置模块 311。
     硬件加速处理部分可以包括：控制消息分析调度模块 321、 RLC 下行处理模块 302、 RLC 上行处理模块 307、 RLC 控制 / 状态处理模块 305、加解密处理模块 304、 RLC PDU 调度模块 320、 FP 组帧模块 319、 MAC 封装模块 318 以及 EDCH 上行处理模块 309。
     RLC 下行处理模块 302 可以包括业务数据单元（SDU）缓存模块 326、发送 PDU 消息单元（PMUI）管理模块 324、发送 PMUI 缓存 322、 PDU 成帧模块 323 以及下行重传和切片模块 325。
     RLC 上行处理模块 307 可以包括上行 PDU 预处理模块 331、上行扫描和解复用模块 329、 SDU 重组递交模块 327、接收 PMUI 分配和管理模块 330 以及接收 PMUI 缓存 328。
     此外，用于执行 EDCH 上行处理的部分除了可以包括 EDCH 上行处理模块 309 外，还可以包括 MAC-d 缓存 315。
     应当理解，根据本发明实施例的 FPGA 的具体结构是可以根据实际应用的需要而变化的。也就是说，图 3 所示的各个模块并非必须都包括在根据本发明实施例的 FPGA 中，而是可以根据需要选择性地包括其中的一个或多个模块。此外，图 3 中所标注的表示信号处理路径的线段和箭头仅仅是在特定应用场景下的示例性表示，在不同的应用场景下，箭头的方向可以改变，并且可以根据需要在图 3 所示的任意模块之间建立信号交互的路径。此外，图 3 中在信号处理路径上标注的消息或处理并不具有限制作用，根据实际应用，也可以在同一信号处理路径上传递其它消息或者执行其它处理。
     以下将结合图 4 和图 5 所示的处理流程来详细说明图 3 中示出的相关模块的具体
     操作。图 4 示出了根据本发明实施例的 HSDPA 数据传输的处理流程图。在图 4 流程图的右侧示意性地示出了与流程图对应的数据报文的处理过程。
     根据本发明的实施例， CPU 可以首先向 FPGA 发送配置消息，以便配置以太网地址。具体地，例如， FPGA 可以利用该配置消息来配置源和目标 MAC 地址、源和目标 IP 地址、源和目标端口、协议类型等信息中的一项或多项。可选地，配置消息可以采用图 2 所示的下行控制消息的结构，从而该配置消息可以被 CPU 写入到位于 CPU 内存中的发送控制消息缓冲区中，并且 FPGA 可以从该发送控制消息缓冲区中获得该配置消息。
     根据本发明的实施例， FPGA 可以接收来自核心网的下行数据报文，并且将下行数据报文存储到 CPU 的内存区中。上述处理过程例如可以通过以下操作来实现。
     FPGA 的背板接口模块 312 所提供的 XAUI 接口可以用于从 10GE PHY 器件接收来自核心网的下行数据报文。
     FPGA 的接收匹配模块 310 可以执行 MAC 地址 / 内容可寻址存储器（CAM ： Content Addressable Memory）表匹配。具体地，接收匹配模块 310 可以提取 XAUI 接口所接收的数据报文的 MAC 地址、 IP/UIP 协议类型等信息，将所提取的信息与如前所述根据配置消息所预先配置的信息进行匹配识别，从而确定该数据报文是否是发给该 FPGA 的以及确定是否需要处理该数据报文。例如，接收匹配模块 310 可以根据地址来分析所接收到的数据报文，如果该数据报文并非是 EDCH FP 帧，则接收匹配模块 310 可以确定该数据报文需要首先上送到 CPU 处理。在这种情况下，接收匹配模块 310 可以将该数据报文存储到 CPU 的内存区中。可选地，该 CPU 的内存区的分配和释放可以由 FPGA 来管理。
     FPGA 的内存管理模块 316 可以分配 CPU 的内存地址并将该内存地址告知接收匹配模块 310 以供存储下行数据报文使用。此外，内存管理模块 316 可以用于管理 FPGA 自带的内存，例如，执行请求空闲内存或者释放内存的操作等。
     接收匹配模块 310 在接收到内存管理模块 316 发来的 CPU 的内存地址之后，可以基于该内存地址将下行数据报文存储到 CPU 的内存区中。可选地，接收匹配模块 310 还可以生成接收消息并将该接收消息发送给 CPU，其中该接收消息可以包括下行数据报文在 CPU 的内存区中的存储地址。可选地，接收消息可以采用图 2 所示的上行控制消息的结构，从而该接收消息可以被 FPGA 写入到位于 CPU 内存中的接收控制消息缓冲区中，并且 CPU 可以从该接收控制消息缓冲区中获得该接收消息。在这种情况下，接收匹配模块 310 可以将下行数据报文的存储地址设置在上行控制消息的上行控制消息类型相关内容字段中。
     根据本发明的实施例， CPU 可以从内存区获取下行数据报文，并且对下行数据报文执行 GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理等。此外， CPU 可以将经过 PDCP 处理的数据报文存储在 CPU 的内存区中。上述处理过程例如可以通过图 4 所示的步骤 S400 至步骤 S404 来实现。
     在图 4 所示的步骤 S400 处， CPU 可以从内存区获取下行数据报文。可选地， CPU 可以从接收控制消息缓冲区中获得接收消息，并进而根据接收消息中包括的下行数据报文的存储地址来获取下行数据报文。
     在步骤 S402， CPU 可以对数据报文执行 GTPU 协议处理。例如， CPU 可以执行 GTPU 头分析、隧道信息转换、排序处理、剥离报文中的 GTPU 头等处理。
     在步骤 S404， CPU 可以执行 PDCP 协议处理。例如， CPU 可以执行 IPHC/ROHC 头压缩、封装 PDCP 头等处理。在 PDCP 协议处理完成后， CPU 可以将处理后的数据报文存储到 CPU 的内存区中。可选地， CPU 此时可以生成插入消息并将该插入消息发送给 FPGA，其中该插入消息可以包括 PDCP 处理后的数据报文在内存区中的存储地址。可选地，插入消息可以采用图 2 所示的下行控制消息的结构，从而该插入消息可以被 CPU 写入到发送控制消息缓冲区中，并且 FPGA 可以从该发送控制消息缓冲区中获得该插入消息。在这种情况下， CPU 可以将 PDCP 处理后的数据报文的存储地址设置在下行控制消息的下行控制消息类型相关内容字段中。
     根据本发明的实施例， FPGA 可以对经过 PDCP 处理的数据报文执行 RLC 处理以生成 RLC PDU，对 RLC PDU 执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送下行以太网报文。上述处理过程例如可以通过图 4 所示的步骤 S406 至步骤 S418 来实现。
     在步骤 S406， FPGA 的命令分析调度模块 321 可以从插入消息中获得 PDCP 处理后的数据报文的存储地址，然后， FPGA 的 RLC 下行处理模块 302 中的 SDU 缓存模块 326 可以相应地获得 SDU 描述信息，例如地址指针、数据长度等，并且执行 MUI 缓存，例如，将 SDU 描述信息存储到 FPGA 的 SDU 缓冲区队列中。例如，该 SDU 缓冲区队列可以位于连接到 FPGA 的 DDR 中。在步骤 S408， CPU 可以在根据 MAC-d 协议调度要求而预先设定的传输时间间隔（TTI ： Transmission Time Interval）定时器超时后，执行 MAC-d 调度，该 MAC-d 调度可以用于启动 FPGA 以处理数据报文。CPU 可以计算允许发送的 RLC 数据字节数并确定发送方式，然后基于允许发送的 RLC 数据字节数以及发送方式来生成调度消息并将该调度消息发送给 FPGA。可选地，调度消息可以采用图 2 所示的下行控制消息的结构，从而该调度消息可以被 CPU 写入到发送控制消息缓冲区中，并且 FPGA 可以从该发送控制消息缓冲区中获得该调度消息。在这种情况下， CPU 可以将允许发送的 RLC 数据字节数以及发送方式设置在下行控制消息的下行控制消息类型相关内容字段中。FPGA 中的控制消息分析调度模块 321 可以从 CPU 接收到该调度消息。本领域技术人员应当理解，步骤 S408 的处理可以作为一个可选步骤而仅包括在优选实施例中。
     在步骤 S410， FPGA 可以执行 RLC 协议处理。此处的 RLC 协议处理例如可以包括以下操作中的一个或多个。RLC 控制 / 状态处理模块 305 可以产生控制状态 PDU，例如，该控制状态 PDU 可以被提供给 PDU 成帧模块 323。下行重传和切片模块 325 可以对经过 PDCP 处理的数据报文执行重传、分段、级联以及添加轮询查询标志等处理。此处，优选地，可以将下行重传和切片模块 325 所产生的重传信息存储到发送 PMUI 管理模块 324，从而，根据实际需要，该发送 PMUI 管理模块 324 可以与发送 PMUI 缓存 322 相配合以执行 PDU 重传。PDU 成帧模块 323 可以基于控制状态信息、切片信息、重传信息等来生成关于 RLC PDU 的描述信息，例如， PDU 成帧模块 323 可以基于 RLC 控制 / 状态处理模块以及下行重传和切片模块的处理情况来生成关于 RLC PDU 的描述信息，此处，描述信息可以包括 PDU 地址信息、头部信息等。此外，可选地， PDU 成帧模块 323 可以计算加密参数，并将该加密参数与描述信息一起发给 RLC PDU 调度模块 320，其中该加密参数可以用于由加解密处理模块 304 执行的加密处理。RLC PDU 调度模块 320 可以从 PDU 成帧模块 323 处获得描述信息，并且根据描述信息
     从 CPU 的内存区中读取数据报文（PDU 数据），此外， RLC PDU 调度模块 320 还具有向 CPU 的内存区回写数据报文（PDU 数据）的功能。加解密处理模块 304 从 RLC PDU 调度模块 320 处获得 PDU 数据并且执行加密处理，例如，执行 Kasumi/Snow3g 加密处理，以便得到 RLC PDU。 RLC PDU 可以被发送到 FP 组帧模块 319。
     此外，响应于步骤 S408， PDU 成帧模块 323 还可以计算缓冲区占用率（BO ： Buffer Overflow），然后基于 BO 生成调度响应并将该调度响应发送给 CPU。可选地，调度响应也可以包括本次调度的字节数、本次发送的 PDU 数目等信息。可选地，调度响应可以采用图 2 所示的上行控制消息的结构，从而该调度响应可以被 FPGA 写入到接收控制消息缓冲区中，并且 CPU 可以从该接收控制消息缓冲区中获得该调度响应。在这种情况下， FPGA 可以将 BO、本次调度的字节数或本次发送的 PDU 数目等设置在上行控制消息的上行控制消息类型相关内容字段中。本领域技术人员应当理解，步骤 S408 的处理可以作为一个可选步骤而仅包括在优选实施例中。
     在步骤 S412， FP 组帧模块 319 可以对加解密处理模块 304 生成的 RLCPDU 执行 MAC-d C/T 封装和比特移位处理。
     在步骤 S414， FP 组帧模块 319 可以执行 FP 帧生成处理。例如， FP 组帧模块 319 可以执行高速下行链路共享信道（HSDSCH ： High Speed Downlink Shared Channel） / 专用信道（DCH ： Dedicated Channel）帧封装，如， FP 组帧模块 319 可以构造 HSDSCH FP 帧类型 1 或类型 2。此外，例如， FP 组帧模块 319 可以计算并添加 FP 帧头和负载 CRC。
     在步骤 S416， MAC 封装模块 318 可以对 FP 帧执行传输层处理。例如， MAC 封装模块 318 可以封装 IP/UIP 报文格式。MAC 封装模块 318 可以将内容复制到消息块，以便封装以太网报文。此外，例如， MAC 封装模块 318 可以对于超过最大传输单元（MTU ： Maximum Transmission Unit）的报文执行 IP 分片处理等。
     在步骤 S418， MAC 封装模块 318 可以封装 MAC 头和虚拟局域网（VLAN）标签以生成下行以太网报文。发送调度模块 313 可以对下行以太网报文的发送进行调度，例如，发送调度模块 313 可以通知发送接口模块 314 发送数据。发送接口模块 314 可以在发送调度模块 313 的调度下，经由背板接口模块 312 而发送下行以太网报文。可选地，端口 QoS 整形模块 317 可以对数据流速执行控制。可选地，在发送完成后，内存管理模块 316 可以回收指针并释放内存。
     图 5 示出了根据本发明实施例的 HSUPA 数据传输的处理流程图。在图 5 流程图的右侧示意性地示出了与流程图对应的数据报文的处理过程。
     根据本发明的实施例， FPGA 可以接收来自基站的上行数据报文，对上行数据报文执行解封装处理以生成经过解封装处理的 PDU。上述处理过程例如可以通过图 5 所示的步骤 S500 至步骤 S506 来实现。
     在步骤 S500， FPGA 的背板接口模块 312 所提供的 XAUI 接口可以从 10GE PHY 器件接收来自基站的上行数据报文。接收匹配模块 310 可以执行 MAC 地址 /CAM 表匹配。具体地，接收匹配模块 310 可以提取 XAUI 接口所接收的数据报文的 MAC 地址、 IP/UIP 协议类型等信息，将所提取的信息与预先配置的信息（例如，以上结合图 4 所描述的根据配置消息所预先配置的信息）进行匹配识别，从而确定该数据报文是否是发给该 FPGA 的以及确定是否需要处理该数据报文。例如，接收匹配模块 310 可以根据地址来分析所接收到的数据报文（即， IP/UIP 报文），如果该数据报文是 EDCH 数据报文，则接收匹配模块 310 可以确定需要执行硬件加速处理，否则，将该数据报文直接上送到 CPU 处理。
     在步骤 S502，在接收匹配模块 310 确定了接收的上行数据报文是 EDCH 数据报文时， EDCH 上行处理模块 309 可以执行 EDCH FP 帧处理，例如 FP 解帧、校验、排序等。具体地，例如， EDCH 上行处理模块 309 可以执行 FP 帧头和负载 CRC 校验、解封装 EDCH FP 帧类型 1 或类型 2、子帧信息提取等处理。
     在步骤 S504， EDCH 上行处理模块 309 可以执行 HSUPA 的 MAC-es/is 处理，如，提取 MAC-es/is 数据 PDU 等。
     在步骤 S506， EDCH 上行处理模块 309 可以执行 MAC-d 排序处理。例如， EDCH 上行处理模块 309 可以根据连接帧号（CFN ： Connection Frame Number）执行重排序处理。对于非连续的 CFN 需要进行缓存处理以等待排序，而对于连续的 CFN 则可以向 RLC 指示接收到数据 PDU。此处， MAC-d 缓存 315 可以作为排序缓冲区。在经过 MAC-d 排序处理之后，可以最终获得经过解封装处理的 PDU。
     根据本发明的实施例， FPGA 可以对经过解封装处理的 PDU 执行 RLC 处理以生成 SDU，并且将 SDU 存储到 CPU 的内存区中。上述处理过程例如可以通过图 5 所示的步骤 S508 至步骤 S510 来实现。
     在步骤 S508，上行 PDU 预处理模块 331 可以分析经过解封装处理的 PDU 中的控制 / 状态报文，以分离控制状态 PDU 和数据 PDU，将控制状态 PDU 发送到 RLC 控制 / 状态处理模块 305 并将数据 PDU 发送到加解密处理模块 304。加解密处理模块 304 可以对数据 PDU 执行解密处理，例如，执行 Kasumi/Snow3g 解密处理。
     在步骤 S510，上行扫描和解复用模块 329 可以控制对经过解密处理的数据 PDU 执行扫描，以确定是否可以进行重组。如果能够进行重组，则 SDU 重组递交模块 327 继续对数据 PDU 执行处理，如果不能重组，则接收 PMUI 分配和管理模块 330 和接收 PMUI 缓存 328 可以控制对不能重组的数据 PDU 进行缓存以等待下次收到数据报文时再进行判断。
     SDU 重组递交模块 327 可以控制对经过解密处理的数据 PDU 执行重组以生成 SDU。 SDU 重组递交模块 327 可以按照序号对数据 PDU 进行重组，例如，可以控制根据按序 / 非按序递交的配置来使可重组的数据 PDU 形成 SDU，然后控制将 SDU 直接存储到 CPU 的内存区中。可选地， SDU 重组递交模块 327 此时可以生成重组成功消息并将该重组成功消息发送给 CPU，其中，该重组成功消息可以包括 SDU 在 CPU 的内存区中的存储地址。可选地，重组成功消息可以采用图 2 所示的上行控制消息的结构，从而该重组成功消息可以被 FPGA 写入到接收控制消息缓冲区中，并且 CPU 可以从该接收控制消息缓冲区中获得该重组成功消息。
     根据本发明的实施例， CPU 可以从内存区获取 SDU，并且对 SDU 执行封装处理以生成上行以太网报文，并且 FPGA 可以发送上行以太网报文。上述处理过程例如可以通过图 5 所示的步骤 S512 至步骤 S518 来实现。
     在步骤 S512， CPU 可以对 SDU 执行 PDCP 协议处理。可选地， CPU 可以基于重组成功消息中包括的存储地址来从内存区获取 SDU。此外，例如，在 PDCP 协议处理中， CPU 可以执行删除 PDCP 头、进行 IPHC/ROHC 头解压缩等处理。
     在步骤 S514， CPU 可以执行 GTPU 协议处理。例如， CPU 可以执行 GTPU 头封装、隧道信息转换等处理。在步骤 S516， CPU 可以执行传输层处理。例如， CPU 可以封装 IP/UIP 报文格式、将内容复制到消息块中、对于超过 MTU 的报文进行 IP 分片等处理。
     在步骤 S518， CPU 可以封装 MAC 头和 VLAN 标签以便生成上行以太网报文。可选地， CPU 此时可以生成发送通知消息并将该发送通知消息发送给 FPGA，以通知 FPGA 发送上行以太网报文。可选地，发送通知消息可以采用图 2 所示的下行控制消息的结构，从而该发送通知消息可以被 CPU 写入到发送控制消息缓冲区中，并且 FPGA 可以从该发送控制消息缓冲区中获得该发送通知消息。
     FPGA 可以基于所接收到的发送通知消息来发送上行以太网报文。例如， FPGA 可以对上行以太网报文进行透传。例如，控制消息分析调度模块 321 可以对发送通知消息进行分析，并且相应地通知发送调度模块 313。发送调度模块 313 可以对上行以太网报文的发送进行调度。在发送调度模块 313 的调度下，发送接口模块 314 可以直接经由 PCIE 接口调度模块获取上行以太网报文，并且经由背板接口模块 312 发送上行以太网报文。
     图 6 示出了根据本发明实施例的能够进行业务硬件加速的装置的结构示意图。
     图 6 所示的装置可以采用 SOC 来实现。该 SOC 装置可以集成有多核处理器阵列 603、内部高级微控制器总线架构（AMBA ： Advanced Microcontroller Bus Architecture） Fabric 交换总线 604、高速协处理器总线 605、 2 个 XGE 高速接口 606、 PCIE×8Gen2 接口 607、 DDR3 控制器接口 601 以及 L3 缓存 602。在图 6 所示的 SOC 装置中，可以由多核处理器阵列对整个处理流程进行控制，其控制可以采用总线命令的方式来实现，而不需要如图 3 所示采用控制消息来在 FPGA 与 CPU 之间传递控制信息。
     高速协处理器总线 605 连接到 AMBA Fabric 交换总线 604，用于在连接到高速协处理器总线的各个单元之间交换数据以及与 AMBA Fabric 交换总线交换数据。在高速协处理器总线 605 上挂有根据本发明实施例的多个硬件加速单元。例如，这些硬件加速单元可以包括： FP 组帧硬加速单元 608、 FP 解帧硬加速单元 609、 RLC 切片硬加速单元 610、 RLC 重组硬加速单元 611、 EDCH 排序硬加速单元 612、加解密硬加速单元 613。这些硬加速单元均提供了标准的总线接口和配置寄存器。
     此外，上述硬加速单元在功能上可以至少部分地对应于图 3 中所示出的相应模块。例如， FP 组帧硬加速单元 608 可以实现类似 FP 组帧模块 319 的功能， FP 解帧硬加速单元 609 可以实现类似 EDCH 上行处理模块 309 所执行的解帧的功能， RLC 切片硬加速单元 610 可以实现类似下行重传和切片模块 325 的功能， RLC 重组硬加速单元 611 可以实现类似 SDU 重组递交模块 327 的功能， EDCH 排序硬加速单元 612 可以实现类似 EDCH 上行处理模块 309 所执行的排序的功能，以及加解密硬加速单元 613 可以实现类似加解密处理模块 304 的功能。
     在采用图 6 所示的 SOC 装置执行 HSDPA 业务加速处理时，处理路径可以依次经由 XGE 接口 606、多核处理器阵列 603、 RLC 切片硬加速单元 610、加解密硬加速单元 613、 FP 组帧硬加速单元 608 以及 XGE 接口 606。
     XGE 接口 606 可以接收来自核心网的下行数据报文。多核处理器阵列 603 可以对下行数据报文执行 GTPU 协议处理以及 PDCP 处理。RLC 切片硬加速单元 610 可以对经过 PDCP 处理的数据报文执行重传、分段、级联以及添加轮询查询标志等处理，此处，多核处理
     器阵列 603 可以根据 RLC 切片硬加速单元 610 的处理来提取 PDU 数据。加解密硬加速单元 613 可以从多核处理器阵列 603 获取 PDU 数据，并且对 PDU 数据执行加密处理以便生成 RLC PDU。FP 组帧硬加速单元 608 可以对 RLC PDU 执行 MAC-d C/T 封装和比特移位处理，执行 FP 帧生成处理以便生成 FP 帧，并且对 FP 帧执行封装处理以生成下行以太网报文。XGE 接口 606 可以发送下行以太网报文。
     在采用图 6 所示的 SOC 装置执行 HSUPA 业务加速处理时，处理路径可以依次经由 XGE 接口 606、 FP 解帧硬加速单元 609、 EDCH 排序硬加速单元 612、加解密硬加速单元 613、 RLC 重组硬加速单元 611、多核处理器阵列 603 以及 XGE 接口 606。
     例如， XGE 接口 606 可以接收来自基站的上行数据报文，例如， EDCHFP 帧。FP 解帧硬加速单元 609 可以对上行数据报文执行 FP 帧处理和 MAC-es/is 处理。EDCH 排序硬加速单元 612 可以对经过 FP 解帧硬加速单元处理的数据报文执行 MAC-d 排序处理。加解密硬加速单元 613 可以对经过 EDCH 排序硬加速单元处理的数据执行解密处理。 RLC 重组硬加速单元 611 可以对经过加解密硬加速单元处理的数据执行重组以生成 SDU。多核处理器阵列 603 可以对 SDU 执行封装处理以生成上行以太网报文。XGE 接口可以发送上行以太网报文。
     以上分别描述了采用 FPGA 和 SOC 来实现逻辑硬件加速模块，并进而实现能够进行业务硬件加速的装置的示例性实施例。根据本发明，对于 HSPA 高速业务而言，通过采用 FPGA 进行业务硬件加速，可以实现处理时延短、环回时延抖动小等效果。由于 FPGA 硬件处理能力强，因此 CPU 的处理负载得以进一步降低。利用 FPGA 实现业务硬件加速还具有算法部署灵活的优点，例如，可以在同一单板加载不同逻辑以实现不同算法的兼容。此外， FPGA 的可编程特性可以实现算法升级、补丁升级以及缺陷修复。FPGA 对新算法的支持比较快，可以与软件实现相关，最大限度地提升软硬件协调处理效果。
     根据本发明，通过采用高性能 CPU，如 X86CPU，作为主处理器，其处理性能可以随着 X86 处理器工艺的提升而不断增强。
     根据本发明，在 CPU 和 FPGA 之间可以利用控制消息来进行交互。可选地， FPGA 可以采用双 PCIE 核进行处理，从而控制消息和数据处理可以在不同的 PCIE 核上分开处理，并且可选地将控制消息的优先级设置为比数据的优先级更高。
     此外，由于本发明提出的逻辑硬件加速模块是从业务处理模型中提炼出来的，因此还可以用于 SOC 芯片中进行 ASCI 固化，甚至可以被参考作为多核处理器设计的通用加速单元。
     以上提供的对所公开实施例的描述用于使本领域技术人员能够实现或者运用本发明。对这些实施例的各种修改对于本领域技术人员而言将是容易理解的，并且这里限定的一般原理可以在不脱离本发明的精神或者范围的情况下适用于其它实施例。因此，本发明并非旨在局限于本文示出的实施例，而应被给予与本文公开的原理和新颖特征一致的最广范围。

资源描述

《一种能够进行业务硬件加速的装置及其方法.pdf》由会员分享，可在线阅读，更多相关《一种能够进行业务硬件加速的装置及其方法.pdf（22页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102769574 A (43)申请公布日 2012.11.07 C N 1 0 2 7 6 9 5 7 4 A *CN102769574A* (21)申请号 201210277188.5 (22)申请日 2012.08.06 H04L 12/56(2006.01) (71)申请人华为技术有限公司地址 518129 广东省深圳市龙岗区坂田华为总部办公楼 (72)发明人王志刚郭晓阳王建侠 (74)专利代理机构北京永新同创知识产权代理有限公司 11376 代理人钟胜光 (54) 发明名称一种能够进行业务硬件加速的装置及其方法 (57) 摘要本发明提供一种能够。

2、进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及 CPU，配置为从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行GPRS隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理。所述逻辑硬件加速模块进一步配置为对经过所述PDCP处理的数据报文执行无线链路控制（RLC）处理以生成RLC协议数据单元（PDU），对所述RLCPDU执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。通过根据本发明的业务硬件加速方案。

3、，可以极大地减轻CPU的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。 (51)Int.Cl. 权利要求书4页说明书12页附图5页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 4 页说明书 12 页附图 5 页 1/4页 2 1.一种能够进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及 CPU，配置为从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行GPRS 隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（P。

4、DCP）处理，其中，所述逻辑硬件加速模块进一步配置为对经过所述PDCP处理的数据报文执行无线链路控制（RLC）处理以生成RLC协议数据单元（PDU），对所述RLC PDU执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。 2.如权利要求1所述的装置，其中，所述逻辑硬件加速模块包括：背板接口模块，配置为从所述核心网接收所述下行数据报文；内存管理模块，配置为分配所述CPU的内存地址；以及接收匹配模块，配置为确定所述下行数据报文是否需要由所述CPU处理，并且在确定所述下行数据报文需要由所述CPU处理的情况下，基于所述内存地址将所述下行数据报文存储到。

5、所述内存区中。 3.如权利要求1所述的装置，其中，所述逻辑硬件加速模块进一步配置为向所述CPU发送接收消息，该接收消息包括所述下行数据报文在所述内存区中的存储地址，以及所述CPU进一步配置为基于所述接收消息中包括的所述存储地址，从所述内存区获取所述下行数据报文。 4.如权利要求1所述的装置，其中，所述CPU进一步配置为向所述逻辑硬件加速模块发送插入消息，该插入消息包括所述经过所述PDCP处理的数据报文在所述内存区中的存储地址，以及所述逻辑硬件加速模块进一步配置为基于所述插入消息中包括的所述存储地址，从所述内存区获取所述经过所述PDCP处理的数据报文。 5.如权利要求1所述的装置。

6、，其中，所述逻辑硬件加速模块包括： RLC控制/状态处理模块，配置为生成控制状态PDU；下行重传和切片模块，配置为对经过所述PDCP处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理； PDU成帧模块，配置为基于所述RLC控制/状态处理模块以及所述下行重传和切片模块的处理来生成关于所述RLC PDU的描述信息； RLC PDU调度模块，配置为根据所述描述信息从所述内存区中读取PDU数据；以及加解密处理模块，配置为从所述RLC PDU调度模块获取所述PDU数据并且执行加密处理，以便生成所述RLC PDU。 6.如权利要求1所述的装置，其中，所述逻辑硬件加速模块包括：帧协议（F。

7、P）组帧模块，配置为对所述RLC PDU执行MAC-d C/T封装和比特移位处理，并且执行FP帧生成处理，以便生成FP帧；以及媒体访问控制（MAC）封装模块，配置为对所述FP帧执行传输层处理，并且封装MAC头和虚拟局域网（VLAN）标签，以便生成所述下行以太网报文。 7.如权利要求1所述的装置，其中，权利要求书CN 102769574 A 2/4页 3 所述逻辑硬件加速模块还配置为接收来自基站的上行数据报文，对所述上行数据报文执行解封装处理以生成经过解封装处理的PDU，对所述经过解封装处理的PDU执行RLC处理以生成业务数据单元（SDU），并且将所述SDU存储到所述CPU的。

8、内存区中，所述CPU还配置为从所述内存区获取所述SDU，并且对所述SDU执行封装处理以生成上行以太网报文，以及所述逻辑硬件加速模块还配置为发送所述上行以太网报文。 8.如权利要求7所述的装置，其中，所述逻辑硬件加速模块包括：背板接口模块，配置为从所述基站接收所述上行数据报文；接收匹配模块，配置为确定所述上行数据报文是否是增强专用信道（EDCH）数据报文；以及 EDCH上行处理模块，配置为在所述接收匹配模块确定所述上行数据报文是EDCH数据报文时，执行EDCH帧协议（FP）帧处理、MAC-es/is处理和MAC-d排序处理，以便生成所述经过解封装处理的PDU。 9.如权利要求7所。

9、述的装置，其中，所述逻辑硬件加速模块包括：上行PDU预处理模块，配置为分析所述经过解封装处理的PDU以分离控制状态PDU和数据PDU； RLC控制/状态处理模块，配置为从所述上行PDU预处理模块接收所述控制状态PDU；加解密处理模块，配置为从所述上行PDU预处理模块接收所述数据PDU并且对所述数据PDU执行解密处理；上行扫描和解复用模块，配置为对所述经过解密处理的数据PDU执行扫描，以确定是否可以进行重组；以及 SDU重组递交模块，配置为如果所述上行扫描和解复用模块确定能够进行重组，则对所述经过解密处理的数据PDU执行重组以生成所述SDU，并且将所述SDU存储到所述内存区中。。

10、10.如权利要求7所述的装置，其中，所述逻辑硬件加速模块进一步配置为向所述CPU发送重组成功消息，该重组成功消息包括所述SDU在所述内存区中的存储地址，以及所述CPU进一步配置为基于所述重组成功消息中包括的所述存储地址，从所述内存区获取所述SDU。 11.如权利要求7所述的装置，其中，所述CPU还配置为：对所述SDU执行报文数据汇聚协议（PDCP）处理、GPRS隧道协议UMTS（GTPU）协议处理和传输层处理，并且封装媒体访问控制（MAC）头和虚拟局域网（VLAN）标签，以便生成所述上行以太网报文。 12.如权利要求1所述的装置，其中，所述逻辑硬件加速模块为现场可编程门阵列（F。

11、PGA）。 13.一种用于业务硬件加速的方法，该方法应用于能够进行业务硬件加速的装置，该装置包括逻辑硬件加速模块和中央处理单元（CPU），所述方法包括：逻辑硬件加速模块接收来自核心网的下行数据报文，并且将所述下行数据报文存储到所述CPU的内存区中；权利要求书CN 102769574 A 3/4页 4 所述CPU从所述内存区获取所述下行数据报文，并且对所述下行数据报文执行GPRS隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理；所述逻辑硬件加速模块对经过所述PDCP处理的数据报文执行无线链路控制（RLC）处理以生成RLC协议数据单元（PDU）；所。

12、述逻辑硬件加速模块对所述RLC PDU执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文；以及所述逻辑硬件加速模块发送所述下行以太网报文。 14.如权利要求13所述的方法，还包括：所述逻辑硬件加速模块接收来自基站的上行数据报文；所述逻辑硬件加速模块对所述上行数据报文执行解封装处理以生成经过解封装处理的PDU；所述逻辑硬件加速模块对所述经过解封装处理的PDU执行RLC处理以生成业务数据单元（SDU）；所述逻辑硬件加速模块将所述SDU存储到所述CPU的内存区中；所述CPU从所述内存区获取所述SDU，并且对所述SDU执行封装处理以生成上行以太网报文；以及所述逻辑硬件加速模。

13、块发送所述上行以太网报文。 15.一种能够进行业务硬件加速的装置，其采用系统级芯片（SOC）来实现，该装置包括：内部高级微控制器总线架构（AMBA）Fabric交换总线；高速协处理器总线，其连接到所述AMBA Fabric交换总线，用于在连接到该高速协处理器总线的各个单元之间交换数据以及与所述AMBA Fabric交换总线交换数据； XGE接口，其连接到所述高速协处理器总线，配置为接收来自核心网的下行数据报文；多核处理器阵列，其连接到所述AMBA Fabric交换总线，配置为对所述下行数据报文执行GPRS隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理；。

14、无线链路控制（RLC）切片硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述PDCP处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理，其中，所述多核处理器阵列进一步配置为根据所述RLC切片硬加速单元的处理来提取协议数据单元（PDU）数据；加解密硬加速单元，其连接到所述高速协处理器总线，配置为经由所述高速协处理器总线和所述AMBA Fabric交换总线从所述多核处理器阵列获取所述PDU数据，并且对所述 PDU数据执行加密处理以便生成RLC PDU；以及帧协议（FP）组帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述RLC PDU 执行MAC-d C/T封装和。

15、比特移位处理，执行FP帧生成处理以便生成FP帧，并且对所述FP 帧执行封装处理以生成下行以太网报文，其中，所述XGE接口还配置为发送所述下行以太网报文。 16.如权利要求15所述的装置，其中，所述XGE接口还配置为接收来自基站的上行数据报文，并且其中，所述装置还包括：权利要求书CN 102769574 A 4/4页 5 FP解帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述上行数据报文执行FP帧处理和MAC-es/is处理；增强专用信道（EDCH）排序硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述FP解帧硬加速单元处理的数据报文执行MAC-d排序处理，。

16、其中，所述加解密硬加速单元还配置为对经过所述EDCH排序硬加速单元处理的数据执行解密处理；以及 RLC重组硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述加解密硬加速单元处理的数据执行重组以生成业务数据单元（SDU），其中，所述多核处理器阵列还配置为对所述SDU执行封装处理以生成上行以太网报文，并且其中，所述XGE接口还配置为发送所述上行以太网报文。权利要求书CN 102769574 A 1/12页 6 一种能够进行业务硬件加速的装置及其方法技术领域 0001 本发明一般涉及移动通信系统，具体地，涉及能够对移动通信系统中的高速上行业务和高速下行业务进行硬件加速的。

17、装置及其方法。背景技术 0002 随着移动宽带业务的发展，全球信息及通信市场正在面临一个显著转变。可以预见，在未来数年后，移动带宽将会产生巨大的增长。无线业务量的巨增给业务处理单板（例如，WCDMA业务处理单板）的性能带来了很大的挑战，这要求处理能力实现几倍甚至十几倍的规格提升。通用处理器在信息技术与通信技术的融合过程中逐渐占据优势，但是通用处理器在通信领域的速度还赶不上专用处理器，因此，在一段时间内需要协处理器的加速。为了满足带宽需求，业务硬件加速是可以考虑的方案之一。 0003 例如，为了适应更高的分组数据业务数据速率，3GPP/WCDMA标准组织提出了高速分组接入（HSPA。

18、：High Speed Packet Access）、HSPA+等标准，进一步增强了性能，从而支持更高的每用户峰值速率。高速下行分组接入（HSDPA：High Speed Downlink Packet Access）在下行链路上能够达到高达168Mbit/s的速率，高速上行分组接入（HSUPA：High Speed Uplink Packet Access）在上行链路上能够达到高达24Mbit/s的速率。无线网络控制器（RNC：Radio Network Controller）管理着很多基站和用户，根据话务模型统计，HSPA 的分组交换（PS：Packet-Switched）业务流量达到。

19、了RNC处理的整个WCDMA业务的90%。因此，高速、大流量PS数据在业务处理单板的硬件加速成为首先考虑的问题。 0004 在一种现有技术方案中，采用一片通用的多核处理器完成WCDMA业务的处理，其中内嵌Kasumi/Snow 3g硬件加速单元。多核处理器可以是例如Rmi、Cavium、FreeScale等多核处理器产品，这一类处理器通常带有16/32个MIPS核以及2个万兆以太网（10GE）的接口。每个处理器核运行一个业务进程，业务报文的处理在虚拟中央处理单元（VCPU：Virtual Central Processing Unit）中由软件完成。当需要加解密运算的时候，可以通过内部。

20、总线使用内嵌的硬件加速单元，同时，VCPU软件同步等待加解密的结果返回后继续往下运行。 0005 上述现有技术方案存在如下缺点。通用的多核处理器中的每个单独核的处理能力不强，主频通常仅在1GHz左右。对于I/O密集型的WCDMA业务，采用VCPU软件处理业务报文的这种方式获得的性能不佳。虽然这类处理器通常带有各种硬件加速单元，但是这些硬件加速单元在WCDMA业务处理上都不能发挥作用。通常，这些硬件加速单元可以较好地用于报文转发处理，但是却不能支持对于业务报文的分片、重组等处理。虽然内嵌的Kasumi/ Snow 3g硬件加速单元性能较高，但是其仅能用于加解密处理，而不能用于整个WCD。

21、MA业务的处理流程中除了加解密之外的很多其它消耗CPU处理能力的运算。例如，这些硬件加速单元无法用于报文大块内存比特移位搬移、负载循环冗余校验（CRC：Cyclic Redundancy Check）运算、报文校验和计算、协议数据单元（PDU：Protocol Data Unit）分段和级联、PDU 分片重组等处理。如果采用纯软件执行这些处理，则单个进程所能处理的用户数就比较少，更重要的是处理延时不确定。当VCPU负载比较低时，处理延时较小。但是，一旦VCPU负载说明书CN 102769574 A 2/12页 7 很高，则处理延时就比较大。延时波动的巨烈将体现在用户下载速率的波动上。

22、，导致用户体验差。 0006 在另一种现有技术方案中，采用一片带有网络处理器（NP：Network Processor）功能的多核处理器芯片来完成WCDMA业务的处理，例如，LSI公司的Axxia通信处理器（ACP： Axxia Communication Processor）产品。这一类处理器通常带有4/8个PPC核和2个10GE 的接口，并且内嵌有Kasumi/Snow 3g加密引擎和NP加速单元。通用的NP加速单元具有可编程特点，可以用来实现WCDMA业务中的无线链路控制（RLC：Radio Link Control）分段级联、重组、比特移位、C/T封装、CRC计算等功能。每个处。

23、理器核运行一个业务进程，业务报文的处理大部分由VCPU软件完成，加速部分由NP加速单元完成。报文的处理采用Pipeline 流水方式，由一个NP加速单元转发到另一个NP加速单元，每个可编程NP加速单元执行加速特定部分的功能。 0007 上述现有技术方案存在如下缺点。该技术采用带有NP功能的芯片，但是其自带的多核处理器的每个单独核处理能力不强，主频通常在1.6GHz。虽然由NP加速单元卸载了一部分处理，但是业务处理的其它部分也需要很强的VCPU处理能力。此外，该方案的核心仍是利用NP加速单元的可编程特点，即，实质上仍然是利用软件来实现加速功能。虽然NP加速单元的可编程性具有一定的灵活。

24、性，但是NP加速单元仅主要面向网络报文转发处理，其处理复杂业务的效率低下，因此只能进行一些简单重复的处理。可见，这类NP处理单元的功能大都受到了限制，其灵活性不够，处理能力也不足，整个芯片业务处理能力不够。 0008 因此，本领域需要能够适应业务需求的业务硬件加速方案。发明内容 0009 本发明针对现有技术中存在的问题，提出了能够进行业务硬件加速的装置及其方法。 0010 根据一个方面，本发明提供了一种能够进行业务硬件加速的装置，包括：逻辑硬件加速模块，配置为接收来自核心网的下行数据报文，并且将所述下行数据报文存储到中央处理单元（CPU）的内存区中；以及CPU，配置为从所述内存区获。

25、取所述下行数据报文，并且对所述下行数据报文执行GPRS隧道协议用户面部分（GTPU）协议处理以及报文数据汇聚协议（PDCP）处理。所述逻辑硬件加速模块进一步配置为对经过所述PDCP处理的数据报文执行无线链路控制（RLC）处理以生成RLC协议数据单元（PDU），对所述RLC PDU执行帧协议（FP）组帧处理和封装处理以生成下行以太网报文，并且发送所述下行以太网报文。 0011 此外，在本发明提供的能够进行业务硬件加速的装置中，所述逻辑硬件加速模块还配置为接收来自基站的上行数据报文，对所述上行数据报文执行解封装处理以生成经过解封装处理的PDU，对所述经过解封装处理的PDU执行RLC处理。

26、以生成业务数据单元（SDU），并且将所述SDU存储到所述CPU的内存区中。所述CPU还配置为从所述内存区获取所述SDU，并且对所述SDU执行封装处理以生成上行以太网报文。所述逻辑硬件加速模块还配置为发送所述上行以太网报文。 0012 根据另一个方面，本发明提供了一种用于业务硬件加速的方法，该方法应用于能够进行业务硬件加速的装置，该装置包括逻辑硬件加速模块和CPU，所述方法包括：逻辑硬件加速模块接收来自核心网的下行数据报文，并且将所述下行数据报文存储到所述CPU的说明书CN 102769574 A 3/12页 8 内存区中；所述CPU从所述内存区获取所述下行数据报文，并且对所述下。

27、行数据报文执行 GTPU协议处理以及PDCP处理；所述逻辑硬件加速模块对经过PDCP处理的数据报文执行 RLC处理以生成RLC PDU；所述逻辑硬件加速模块对所述RLC PDU执行FP组帧处理和封装处理以生成下行以太网报文；以及所述逻辑硬件加速模块发送所述下行以太网报文。 0013 此外，本发明提供的用于业务硬件加速的方法还包括：所述逻辑硬件加速模块接收来自基站的上行数据报文；所述逻辑硬件加速模块对所述上行数据报文执行解封装处理以生成经过解封装处理的PDU；所述逻辑硬件加速模块对所述经过解封装处理的PDU执行 RLC处理以生成SDU；所述逻辑硬件加速模块将所述SDU存储到所述CPU的内存。

28、区中；所述 CPU从所述内存区获取所述SDU，并且对所述SDU执行封装处理以生成上行以太网报文；以及所述逻辑硬件加速模块发送所述上行以太网报文。 0014 根据另一个方面，本发明提供了一种能够进行业务硬件加速的装置，其采用系统级芯片（SOC）来实现，该装置包括：内部高级微控制器总线架构（AMBA）Fabric交换总线；高速协处理器总线，其连接到所述AMBAFabric交换总线，用于在连接到该高速协处理器总线的各个单元之间交换数据以及与所述AMBA Fabric交换总线交换数据；XGE接口，其连接到所述高速协处理器总线，配置为接收来自核心网的下行数据报文；多核处理器阵列，其连接到所述。

29、AMBA Fabric交换总线，配置为对所述下行数据报文执行GTPU协议处理以及PDCP 处理；RLC切片硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述PDCP处理的数据报文执行重传、分段、级联以及添加轮询查询标志处理，其中，所述多核处理器阵列进一步配置为根据所述RLC切片硬加速单元的处理来提取PDU数据；加解密硬加速单元，其连接到所述高速协处理器总线，配置为经由所述高速协处理器总线和所述AMBA Fabric 交换总线从所述多核处理器阵列获取所述PDU数据，并且对所述PDU数据执行加密处理以便生成RLC PDU；以及FP组帧硬加速单元，其连接到所述高速协处理器总线，配置为。

30、对所述 RLCPDU执行MAC-d C/T封装和比特移位处理，执行FP帧生成处理以便生成FP帧，并且对所述FP帧执行封装处理以生成下行以太网报文。所述XGE接口还配置为发送所述下行以太网报文。 0015 此外，在本发明提供的能够进行业务硬件加速的装置中，所述XGE接口还配置为接收来自基站的上行数据报文。所述装置还包括：FP解帧硬加速单元，其连接到所述高速协处理器总线，配置为对所述上行数据报文执行FP帧处理和MAC-es/is处理；增强专用信道（EDCH）排序硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述FP解帧硬加速单元处理的数据报文执行MAC-d排序处理，其中，所述加。

31、解密硬加速单元还配置为对经过所述EDCH排序硬加速单元处理的数据执行解密处理；以及RLC重组硬加速单元，其连接到所述高速协处理器总线，配置为对经过所述加解密硬加速单元处理的数据执行重组以生成SDU。所述多核处理器阵列还配置为对所述SDU执行封装处理以生成上行以太网报文。所述XGE接口还配置为发送所述上行以太网报文。 0016 通过根据本发明的业务硬件加速方案，可以极大地减轻CPU的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。附图说明 0017 图1示出了根据本发明实施例的能够进行业务硬件加速的装置的结构示意图；说明书CN 102769574 A 4/12。

32、页 9 0018 图2示出了根据本发明实施例的控制消息的示意图； 0019 图3示出了根据本发明实施例的实现业务硬件加速的FPGA结构示意图； 0020 图4示出了根据本发明实施例的HSDPA数据传输的处理流程图； 0021 图5示出了根据本发明实施例的HSUPA数据传输的处理流程图；以及 0022 图6示出了根据本发明另一个实施例的能够进行业务硬件加速的装置的结构示意图。具体实施方式 0023 本发明提出了CPU与逻辑硬件加速模块相配合的业务硬件加速处理方案。在本发明的实施例中，CPU可以采用例如高性能的X86 SandyBridge或IvBridge CPU芯片，其主频达到2.1G。

33、Hz，处理能力相当于MIPS处理器核的10倍。此外，在其它实施例中，CPU也可以采用MIPS处理器、ARM处理器等。逻辑硬件加速模块可以执行业务硬件加速处理，其可以采用现场可编程门阵列（FPGA：Field Programmable Gate Array）或者系统级芯片（SOC： System on Chip）来实现。例如，对于处理时延要求比较高、流量比较大的快速路径业务，可以采用逻辑硬件加速模块进行硬件加速，而对于处理时延要求比较低、流量比较小的慢速路径业务，可以由CPU来进行处理。 0024 本发明考虑到了HSDPA和HSUPA业务的大流量、高速率的特点。本发明可以将原来由CPU。

34、负责的HSDPA下行业务中的RLC分段级联、Kasumi/Snow3g加密、媒体访问控制（MAC） C/T封装、比特移位、帧协议（FP：Frame Protocol）类型1/2组帧、CRC计算和IP/UIP传输处理等处理交由逻辑硬件加速模块执行。本发明还可以将原来由CPU负责的HSUPA上行业务中的上行增强专用信道（EDCH：Enhanced Dedicated Channel）FP类型1/2解帧、CRC校验、MAC-es/is重排序、Kasumi/Snow3g解密、RLC数据报文重组等处理交由逻辑硬件加速模块执行。本发明通过将以上描述的不经常变化的WCDMA业务层二协议部分进行逻辑硬。

35、化，可以极大地减轻CPU的负载，减少用户面报文处理延时，提高整体业务的处理性能以及处理容量。 0025 图1示出了根据本发明实施例的能够进行业务硬件加速的装置的结构示意图。 0026 如图1所示，所述能够进行业务硬件加速的装置可以包括CPU芯片115（例如，X86 CPU、MIPS处理器、ARM处理器等）、FPGA芯片111以及2个10GE的PHY芯片120。CPU芯片115可以外带DDR3 DIMM内存116，FPGA芯片111可以外带DDR3颗粒内存113以及QDR SRAM存储芯片112。FPGA芯片111可以提供2个XAUI接口119，以便用于与10GE PHY芯片120相连接。

36、。CPU芯片115可以通过2个PCIE4 Gen2接口114和118来与FPGA芯片 111相连接。FPGA芯片111可以提供双PCIE核以用于与CPU芯片115进行通信。PCIE 114 可以用于小流量控制消息交互，PCIE118可以用于大流量数据块交互。CPU芯片115内部的多核处理器117可以负责业务和底层软件处理。 0027 图1所示的能够进行业务硬件加速的装置可以针对HSDPA业务和HSUPA业务进行硬件加速。在对HSDPA业务的硬件加速中，来自核心网的下行数据报文被10GE PHY芯片 120接收，在由FPGA芯片111匹配识别后交给CPU芯片115进行业务处理，再交给FPGA。

37、芯片111进行HSDPA业务硬件加速，然后从10GE PHY芯片120发送给基站。在对HSUPA业务的硬件加速中，来自基站的上行数据报文被10GE PHY芯片120接收，在由FPGA芯片111匹说明书CN 102769574 A 5/12页 10 配识别后进行HSUPA业务硬件加速，然后交给CPU芯片115进行业务处理，处理完成后再交给FPGA芯片111经由10GE PHY芯片120发送到核心网。 0028 根据本发明的实施例，在图1所示的CPU芯片115与FPGA芯片111之间可以采用控制消息来实现命令的交互。图2示出了根据本发明实施例的控制消息的示意图。 0029 根据本发明。

38、的实施例，在从CPU到FPGA的下行方向，可以为每个业务进程分配一个发送控制消息缓冲区，而在从FPGA到CPU的上行方向，可以为每个业务进程分配一个接收控制消息缓冲区。业务进程的数目可以根据CPU超线程数目来确定。发送控制消息缓冲区和接收控制消息缓冲区可以位于CPU的DDR3内存中，二者在空间上独立划分且互不干涉。发送控制消息缓冲区的CPU写指针和接收控制消息缓冲区的CPU读指针是由业务进程独立维护的，发送控制消息缓冲区的FPGA读指针和接收控制消息缓冲区的FPGA写指针是由FPGA逻辑维护的。上述四个指针可以位于CPU的DDR3内存中，并且可以被CPU读取访问。 0030 存储。

39、在发送控制消息缓冲区的控制消息可以被称为下行控制消息，而存储在接收控制消息缓冲区的控制消息可以被称为上行控制消息。 0031 下行控制消息可以具有可变长度，在这种情况下，下行控制消息可以包括下行控制消息固定部分和下行控制消息可变部分。然而，根据另一个实施例，下行控制消息也可以具有固定长度，在这种情况下，下行控制消息可以仅包括下行控制消息固定部分，而不包括与上述的下行控制消息可变部分相关的字段等。以下以具有可变长度的下行控制消息为例来说明下行控制消息的结构，本领域技术人员应当理解，可以通过移除与实现可变长度相关的部分和字段来得到具有固定长度的下行控制消息的结构。 0032 下行控制消。

40、息中的下行控制消息固定部分可以包括：CommParaTAG字段，用于标识该消息为下行控制消息或上行控制消息，并且可以作为定界符以表示消息的开始；控制消息类型字段，用于表示该下行控制消息的类型；控制消息数量字段，用于表示子可变控制消息的数量；以及VCPU号字段，用于标识业务进程编号。此外，下行控制消息固定部分还可以包括：下行公共头部分字段；ReturnMsgPtr字段，用于指示CPU要求FPGA按原样返回的字段；以及下行控制消息类型相关内容字段，用于承载与该下行控制消息相关的消息内容，例如报文地址、调度信息等。下行控制消息中的下行控制消息可变部分可以由多个子可变控制消息组成，子可变。

41、控制消息在仅执行加解密处理时使用，其可以包括PrivParaTAG字段、加密五元参数等字段。由于下行控制消息采用了可变长度，这会导致在发送控制消息缓冲区中进行存储时，可能将下行控制消息的一部分保存在该缓冲区的底部，而下行控制消息的另一部分保存在该缓冲区的顶部，这个特殊处理由FPGA在逻辑搬移下行控制消息时判读。 0033 上行控制消息仅包括上行控制消息固定部分，其包括CommParaTAG字段、控制消息类型字段、VCPU号字段、上行公共头部分字段、ReturnMsgPtr字段以及上行控制消息类型相关内容字段等。这些字段具有与下行控制消息中的相应字段的相同或相应的作用。 0034 应。

42、当指出，根据本发明的下行控制消息和上行控制消息的结构并不局限于图2所示以及以上描述，其可以选择性地包括上述结构中的一个或多个字段，或者根据实际需要包括任何其它字段。 0035 当CPU的业务进程需要发送下行控制消息到FPGA时，其可以判断发送控制消息说明书CN 102769574 A 10 6/12页 11 缓冲区的CPU写指针和FPGA读指针之间的剩余控制消息空间是否足够写入该下行控制消息。如果足够，则写入该下行控制消息，最后更新CPU写指针。当CPU的业务进程需要读取来自FPGA的上行控制消息时，其可以轮询接收控制消息缓冲区的CPU读指针和FPGA写指针。如果发现这两个指针。

43、不一致，则将上行控制消息搬移出来进行后续处理，最后更新CPU 读指针。 0036 当FPGA需要读取来自CPU的下行控制消息时，其可以定时扫描发送控制消息缓冲区的CPU写指针和FPGA读指针。如果发现这两个指针不一致，则将下行控制消息内容搬移出来进行后续处理，最后更新FPGA读指针。当FPGA需要发送上行控制消息到CPU时，其可以判断接收控制消息缓冲区的CPU读指针和FPGA写指针之间的剩余控制消息空间是否足够写入该上行控制消息。如果足够，则写入该上行控制消息，最后更新FPGA写指针。 0037 图3示出了根据本发明实施例的实现业务硬件加速的FPGA结构示意图。 0038 如图3所示，。

44、根据本发明实施例的FPGA可以包括PCIE接口调度模块301、背板接口部分、硬件加速处理部分以及存储和配置接口部分。 0039 PCIE接口调度模块301可以提供2个PCIE4Gen2接口，以便与CPU连接。根据本发明的实施例，FPGA与CPU的各种通信需要经由该PCIE接口调度模块301。PCIE接口调度模块301可以包括指令缓存F1、数据缓存F2以及上行调度缓存F3。 0040 背板接口部分可以包括背板接口模块312，其提供2个XAUI接口以便与10GE PHY 器件连接。背板接口部分还可以包括发送调度模块313、发送接口模块314、端口QoS整形模块317、内存管理模块316以及。

45、接收匹配模块310。 0041 存储和配置接口部分可以包括DDR指令调度模块303、QDR指令调度模块306、时钟和复位模块308以及MPI配置模块311。 0042 硬件加速处理部分可以包括：控制消息分析调度模块321、RLC下行处理模块302、 RLC上行处理模块307、RLC控制/状态处理模块305、加解密处理模块304、RLC PDU调度模块320、FP组帧模块319、MAC封装模块318以及EDCH上行处理模块309。 0043 RLC下行处理模块302可以包括业务数据单元（SDU）缓存模块326、发送PDU消息单元（PMUI）管理模块324、发送PMUI缓存322、PDU成帧。

46、模块323以及下行重传和切片模块 325。 0044 RLC上行处理模块307可以包括上行PDU预处理模块331、上行扫描和解复用模块 329、SDU重组递交模块327、接收PMUI分配和管理模块330以及接收PMUI缓存328。 0045 此外，用于执行EDCH上行处理的部分除了可以包括EDCH上行处理模块309外，还可以包括MAC-d缓存315。 0046 应当理解，根据本发明实施例的FPGA的具体结构是可以根据实际应用的需要而变化的。也就是说，图3所示的各个模块并非必须都包括在根据本发明实施例的FPGA中，而是可以根据需要选择性地包括其中的一个或多个模块。此外，图3中所标注的表示信。

47、号处理路径的线段和箭头仅仅是在特定应用场景下的示例性表示，在不同的应用场景下，箭头的方向可以改变，并且可以根据需要在图3所示的任意模块之间建立信号交互的路径。此外，图3中在信号处理路径上标注的消息或处理并不具有限制作用，根据实际应用，也可以在同一信号处理路径上传递其它消息或者执行其它处理。 0047 以下将结合图4和图5所示的处理流程来详细说明图3中示出的相关模块的具体说明书CN 102769574 A 11 7/12页 12 操作。 0048 图4示出了根据本发明实施例的HSDPA数据传输的处理流程图。在图4流程图的右侧示意性地示出了与流程图对应的数据报文的处理过程。 004。

48、9 根据本发明的实施例，CPU可以首先向FPGA发送配置消息，以便配置以太网地址。具体地，例如，FPGA可以利用该配置消息来配置源和目标MAC地址、源和目标IP地址、源和目标端口、协议类型等信息中的一项或多项。可选地，配置消息可以采用图2所示的下行控制消息的结构，从而该配置消息可以被CPU写入到位于CPU内存中的发送控制消息缓冲区中，并且FPGA可以从该发送控制消息缓冲区中获得该配置消息。 0050 根据本发明的实施例，FPGA可以接收来自核心网的下行数据报文，并且将下行数据报文存储到CPU的内存区中。上述处理过程例如可以通过以下操作来实现。 0051 FPGA的背板接口模块312所。

49、提供的XAUI接口可以用于从10GE PHY器件接收来自核心网的下行数据报文。 0052 FPGA的接收匹配模块310可以执行MAC地址/内容可寻址存储器（CAM：Content Addressable Memory）表匹配。具体地，接收匹配模块310可以提取XAUI接口所接收的数据报文的MAC地址、IP/UIP协议类型等信息，将所提取的信息与如前所述根据配置消息所预先配置的信息进行匹配识别，从而确定该数据报文是否是发给该FPGA的以及确定是否需要处理该数据报文。例如，接收匹配模块310可以根据地址来分析所接收到的数据报文，如果该数据报文并非是EDCH FP帧，则接收匹配模块310可以确定该数据报文需要首先上送到CPU处理。在这种情况下，接收匹配模块310可以将该数据报文存储到CPU的内存区中。可选地，该CPU的内存区的分配和释放可以由FPGA来管理。 0053 FPGA的内存管理模块316可以分配CPU的内存地址并将该内存地址告知接收匹配模块310以供存储下行数据报文使用。此外，内存管理模块316可以用于管理FPGA自带的内存，例如，执行请求空闲内存。

展开阅读全文