《家庭基站系统中基于频谱分配及功率控制的干扰管理方法.pdf》由会员分享,可在线阅读,更多相关《家庭基站系统中基于频谱分配及功率控制的干扰管理方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102811443 A (43)申请公布日 2012.12.05 CN 102811443 A *CN102811443A* (21)申请号 201210265146.X (22)申请日 2012.07.27 H04W 16/10(2009.01) H04W 16/22(2009.01) H04W 52/24(2009.01) H04W 52/30(2009.01) (71)申请人 南京邮电大学 地址 210003 江苏省南京市新模范马路 66 号 (72)发明人 朱琦 季祥芬 朱洪波 杨龙祥 (74)专利代理机构 南京经纬专利商标代理有限 公司 32200 代理人 。
2、叶连生 (54) 发明名称 家庭基站系统中基于频谱分配及功率控制的 干扰管理方法 (57) 摘要 本发明的目的是在基于 OFDMA 的家庭基站系 统中基于频谱分配及功率控制的干扰管理方法。 该方法中每个家庭基站作为一个 Q 学习的智能体 和博弈论中的博弈者, 基于 Q 学习动态地分配频 谱, 在 Q 学习过程中再通过博弈来进行功率分配, 每个家庭基站都以优化自己的性能为目标。家庭 基站系统在不断地与环境交互的过程中可以最终 收敛到一个最优的动作, 使得系统在满足宏基站 信干噪比门限要求的基础上提高家庭基站和整个 系统的系能, 避免了复杂的最优化问题。 (51)Int.Cl. 权利要求书 1 页。
3、 说明书 6 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 6 页 附图 2 页 1/1 页 2 1. 一种家庭基站系统中基于频谱分配及功率控制的干扰管理方法, 其特征在于该方 法将每个家庭基站作为一个 Q 学习的智能体和博弈论中的博弈者, 在基于 Q 学习动态地分 配频谱中通过博弈进行功率分配, 目的是在保证满足宏基站信干噪比门限要求的基础上提 高家庭基站和整个系统的系能 ; 每个家庭基站作为一个 Q 学习的智能体和博弈论中的博弈 者, 在 Q 学习动态地分配频谱的过程中再通过博弈来进行功率分配, 每个家庭基站都以优 化自己的性能为。
4、目标。 2. 如权利要求 1 所述的家庭基站系统中基于频谱分配及功率控制的干扰管理方法, 其特征在于 Q 学习与博弈论相结合的动态资源分配方法中关于功率控制的博弈 G=f, pf,Uf() 的特征包括以下内容 : a. 博弈者 f : 每个家庭基站 f 都是一个博弈者 ; b. 动作空间 pf:其中 N 是总资源块数, 每个家庭基站 f 都会在与 环境交互的过程中为每个资源块 n 分配最优的功率 c. 效用函数 Uf: 家庭基站在满足以下两个条件下根据公式 (8)所定义的效用函 数给自己分配一个使得自身能性能最优的功率, 两个条件为 (1)功率分配必须满足 Pmin和 Pmax是指每个资源块上。
5、的最小功率值和最大功率值,(2) 每个资源块 上的功率分配都要考虑宏用户信干噪比 SINR 是否满足门限值 th。 3. 如权利要求 1 所述的家庭基站系统中基于频谱分配及功率控制的干扰管理方法, 其 特征在于 Q 学习与博弈论相结合的动态资源分配方法中 Q 学习的特征包括以下内容 : a. 智能体 f : 每个家庭基站 f 都是一个智能体 ; b.动作空间Af:其中0表示家庭基站f未使用资源块n, 1则 表示使用 ; c.状态空间Sf: 与动作空间相似其中是与宏用户和家庭用 户所受干扰有关的, 宏用户根据其资源块 n 的信干噪比是否满足门限值 th要求分成两 种情况, 家庭用户根据其资源块 。
6、n 的信干噪比的大小分成 T 种情况, 这样状态的状态数 可分为 2*T 种 ; d. 回报函数 Rf: 宏基站的信干噪比必须大于 th, 选择能在满足宏基站信干噪比要求 的前提下家庭基站吞吐量最大的那个策略作为最优策略, 当宏基站的信干噪比小于 th时 回报函数为 -B, 当宏基站所有资源块的信干噪比大于 th时回报函数为权利要求 2 中博弈 论的效用函数 Uf, 其中 B 为正的常数, -B 表示当宏基站的信干噪比小于 th时智能体给当 前的策略一个 -B 的惩罚, 反之, 智能体则给当前的策略一个值为 Uf的奖赏。 权 利 要 求 书 CN 102811443 A 2 1/6 页 3 家。
7、庭基站系统中基于频谱分配及功率控制的干扰管理方法 技术领域 0001 本发明涉及一种特别用于基于 OFDMA 的家庭基站系统中的动态干扰管理方法, 属 于通信技术领域。 背景技术 0002 家庭基站是为了服务小面积覆盖 (如家庭或者办公室) 而设计的, 有报告显示在未 来的几年内, 室外手机呼叫的比例逐渐下降而室内的数据业务明显增加。由于家庭基站覆 盖范围小, 低花费和低功耗, 所以家庭基站可以分布得比宏基站更加密集, 频谱可以得到更 有效的复用, 为室内用户提供更宽的频谱和更好的服务质量。家庭基站的出现势必会增加 对宏基站用户的干扰, 所以如何进行合理的资源分配来降低家庭基站对宏用户的干扰已。
8、经 成为运营商考虑的主要问题之一。 合理分配家庭基站的资源不仅可以降低对宏用户的干扰 而且家庭用户间的干扰也会降低从而获得更好的服务质量。 0003 正交频分多址接入 (OFDMA) 已经被选为 LTE 和 4G 网络的下行接入技术, OFDMA 的 特点是不同的子载波间使正交的, 所以小区内部干扰可以忽略。在 LTE 中定义能分配一个 用户的最小时频单位为一个资源块 (Resource Block, RB) , 当一个 RB 被分配为多个小区时 就会引起小区间干扰降低信干噪比从而降低用户的服务质量。 很多研究都已经涉及到了多 种小区间干扰消除或减轻的算法。 由于家庭基站分布的多而且不规律所以。
9、对家庭基站进行 集中控制难度较大, 所以研究都是基于分布式控制的。有的研究是通过动态的频谱复用来 减小家庭基站网络中的干扰的, 例如通过一种适用于家庭基站分布密集的场景的自组织网 络的方法, 或者一种基于强化学习的算法在保证对宏基站的干扰门限的同时也保证家庭基 站的服务质量 ; 有的研究是基于功率控制的干扰管理方法, 例如通过提出一种基于模糊 Q 学习 (Fuzzy learning) 的算法来控制家庭基站对宏基站的干扰, 或者一种改进的注水功率 控制算法来保证网络的公平性 ; 此外还有的文献是采用的是频谱分配和功率控制相结合的 方法来避免干扰的, 例如在分布式网络中采用基于博弈论的干扰避免模。
10、型降低互相之间的 干扰。 0004 强化学习 (Reinforcement Learning,RL) 是一种机器学习方法, 它通过从环境状 态到动作映射的学习, 感知环境状态, 使得动作从环境中获得最大的累积回报函数。Q 学习 是强化中的一种常用的学习方法, 它通过马尔科夫过程进行建模, 采用迭代的方法逼近最 优解, 并以状态-动作回报值作为衡量标准。 Q学习在学习过程总无需状态转移概率和回报 函数的先验知识模型, 而是从环境中直接学习, 所以 Q 学习计算复杂度很低。博弈论 (game theory) 又称对策论, 早期被广泛应用于微观经济学中, 它在解决资源调度的问题中有独特 的优势。这种。
11、理论隐含的基本假设是 : 决策主体追求确定的外部目标并且考虑他们自身的 知识或者其他决策主体行为的期望。 博弈论是直到最近才作为分析工具应用于分布式无线 资源管理当中。 0005 本发明提供了一种 Q 学习与博弈论相结合 (QL&game) 的分布式的干扰管理方法, 在保证宏用户的信干噪比门限的条件下提高家庭基站性能。在该方法中家庭基站间不需 说 明 书 CN 102811443 A 3 2/6 页 4 要进行信息交换, 每个家庭基站作为一个 Q 学习的智能体 (Agent) 和博弈论中的博弈者 (Player)。用 Q 学习动态地分配频谱, 在 Q 学习过程中再通过博弈来进行功率分配, 每个。
12、家 庭基站都以优化自己的性能为目标。 发明内容 0006 技术问题 : 本发明的目的是在基于 OFDMA 的家庭基站系统的场景下提供一种动态 干扰管理方法。在该方法中每个家庭基站作为一个 Q 学习的智能体和博弈论中的博弈者, 基于Q学习动态地分配频谱, 在Q学习过程中再通过博弈来进行功率分配, 每个家庭基站都 以优化自己的性能为目标。 家庭基站系统在不断地与环境交互的过程中可以最终收敛到一 个最优的动作, 使得系统在满足了宏基站信干噪比门限要求的基础上提高了家庭基站和整 个系统的系能, 这样就避免了复杂的最优化问题。 0007 技术方案 : 本发明提供一种基于 OFDMA 的家庭基站系统的动态。
13、资源分配方法每 个家庭基站作为一个 Q 学习的智能体和博弈论中的博弈者, 在基于 Q 学习动态地分配频谱 中通过博弈进行功率分配, 每个家庭基站都以优化自己的性能为 Q 学习的目标和博弈的效 用。发明中采用 Q 学习与博弈论相结合 (QL&game) 的分布式控制机制进行干扰管理。 0008 本发明考虑的无线网络环境包括 M 个半径为 R 的宏小区, 每个宏小区的中心都放 有一个宏基站。假设每个宏小区中拥有一个居民区由 F 个房间组成, 每个房间中间都放有 一个可以随意开关的家庭基站, 每个房间都是边长为 r 的正方形。家庭基站的用户随机均 匀分布在每个房间内, 而宏基站的用户随机分布在房间的。
14、周围。假设宏基站和家庭基站都 是工作在相同的频带, 宏用户和家庭用户之间会存在干扰。系统场景模型如图 1 所示。 0009 假设系统总带宽为B, 由N个资源块组成, 每个资源块的大小为Brb, 即B=NBrb。 每 个宏基站和每个家庭基站的用户数分别为 UM和 UF, 基站通过比例公平调度 (proportional fair scheduler) 算法把 N 个资源块分配给 UM和 UF个用户, 宏基站的总功率为 PM, 平均分 配到每个资源块上的功率向量家庭基站在每个资源块上的功率向 量每个家庭基站可分配在资源块上的最大功率和最小功率分别表 示为和 0010 Q 学习是一种无师自通的学习算。
15、法, 它不需要先验知识, 完全是在与环境的不断交 互过程中学到最优的策略。 Q学习被证明在马尔科夫决策过程环境中能最终收敛到最优值。 Q 学习的基本模型如图 2 所示。Q 学习模型由一组状态 - 动作对组成, 学习的目标是集中控 制中心在不断与环境交互过程中能找到一个最优的策略, 使得观察到的回报值最大。智能 体在处于状态s时, 根据策略:sa, 选择动作。 利用博弈论分析一个博弈过程的收敛情 况, 找到博弈过程的稳定状态即纳什均衡是应用博弈论分析问题的关键。本发明中运用博 弈理论把功率分配问题建模成为一个博弈问题。 0011 QL&game 算法是在基于 OFDMA 的家庭基站系统的的场景下。
16、的一种动态干扰管理方 法。 在该方法中每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者, 基于Q学习动 态地分配频谱, 在 Q 学习过程中再通过博弈来进行功率分配, 每个家庭基站都以优化自己 的性能为目标。将 Q 学习应用到家庭基站网络中, 首先要将状态、 动作和回报函数映射到家 庭基站系统中 ; 而在博弈论建模中也需要将博弈者, 动作或者策略还有效用函数应用到本 说 明 书 CN 102811443 A 4 3/6 页 5 场景中。在本发明中每个博弈者的动作是发送功率值, 每个博弈者都根据其他博弈者的动 作选择一个最好的动作。 博弈论中效用函数至关重要, 随着家庭基站功率的提高, 家庭基。
17、站 对宏基站和其他家庭基站的干扰就会增加, 所以在博弈论的效用函数中不仅应考虑自身目 标的最大化还应加入功率的成本。由于本发明中的家庭基站采用分布式 Q 学习机制, 所以 每个家庭基站之间不进行信息交换, 但是我们假设每个家庭基站对宏基站用户所受的干扰 信息是已知的。家庭基站作为一个独立的智能体, 它还要根据当前学习的资源块分成多个 学习过程。家庭基站的状态与资源块当前的宏用户所受干扰和家庭基站受到的干扰有关 ; 而每个家庭基站的动作是资源库的使用情况 ; 回报值体现了学习的目标, 所以每个智能体 的回报值的选取至关重要, 本发明中家庭基站的回报值是与宏基站在资源快上的性能及家 庭基站的博弈论。
18、的效用函数值相关。QL&game 算法流程图如图 3 所示, 在经过多次迭代后 QL&game 算法收敛到一个最优的资源分配策略, 最终使得系统在满足了宏基站信干噪比门 限要求的基础上提高了家庭基站和整个系统的系能。 0012 本发明的家庭基站系统中基于频谱分配及功率控制的干扰管理方法将每个家庭 基站作为一个 Q 学习的智能体和博弈论中的博弈者, 在基于 Q 学习动态地分配频谱中通过 博弈进行功率分配, 目的是在保证满足宏基站信干噪比门限要求的基础上提高家庭基站和 整个系统的系能 ; 每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者, 在Q学习动 态地分配频谱的过程中再通过博弈来进行功率分。
19、配, 每个家庭基站都以优化自己的性能为 目标。 0013 Q 学 习 与 博 弈 论 相 结 合 的 动 态 资 源 分 配 方 法 中 关 于 功 率 控 制 的 博 弈 G=f,pf,Uf() 的特征包括以下内容 : 0014 a. 博弈者 f : 每个家庭基站 f 都是一个博弈者 ; 0015 b.动作空间pf:其中N是总资源块数, 每个家庭基站f都 会在与环境交互的过程中为每个资源块 n 分配最优的功率 0016 c. 效用函数 Uf: 家庭基站在满足以下两个条件下根据公式 (8)所定义的效用 函数给自己分配一个使得自身能性能最优的功率, 两个条件为 (1)功率分配必须满足 pmin和。
20、 pmax是指每个资源块上的最小功率值和最大功率值,(2) 每个资 源块上的功率分配都要考虑宏用户信干噪比 SINR 是否满足门限值 th。 0017 Q 学习与博弈论相结合的动态资源分配方法中 Q 学习的特征包括以下内容 : 0018 a. 智能体 f : 每个家庭基站 f 都是一个智能体 ; 0019 b. 动作空间 Af:其中0 表示家庭基站 f 未 使用资源块 n, 1 则表示使用 ; 0020 c.状态空间Sf: 与动作空间相似其中 是与宏用户和家庭用户所受干扰有关的, 宏用户根据其资源块 n 的信干噪比是否满足 门限值 th要求分成两种情况, 家庭用户根据其资源块 n 的信干噪比的。
21、大小分成 T 种 情况, 这样状态的状态数可分为 2*T 种 ; 0021 d. 回报函数 Rf: 宏基站的信干噪比必须大于 th, 选择能在满足宏基站信干噪比 要求的前提下家庭基站吞吐量最大的那个策略作为最优策略, 当宏基站的信干噪比小于 说 明 书 CN 102811443 A 5 4/6 页 6 th时回报函数为 -B, 当宏基站所有资源块的信干噪比大于 th时回报函数为权利要求 2 中博弈论的效用函数 Uf, 其中 B 为正的常数, -B 表示当宏基站的信干噪比小于 th时智能 体给当前的策略一个 -B 的惩罚, 反之, 智能体则给当前的策略一个值为 Uf的奖赏。 0022 有益效果 。
22、: 在 OFDMA 的家庭基站系统的的场景下, 本发明提供了一种动态资源分 配方法。家庭基站系统在不断地与环境交互的过程中可以最终收敛到一个最优的资源分 配, 使得系统在满足了宏基站信干噪比门限要求的前提下提高家庭基站和整个系统的系 能, 避免复杂的最优化问题。 附图说明 0023 图 1 是场景模型, 0024 图 2 是 Q 学习的基本模型, 0025 图 3 是 QL&game 算法流程图。 具体实施方式 0026 本发明分析的性能参数为信干噪比 (interference and noise,SINR) 和吞吐量, 其中宏用户 um UM在占用资源块 n N 的信干噪比可以表示如下 :。
23、 0027 0028 其中表示宏基站 m 与其用户 um在资源块 n 上的信道增益,和则 分别表示其余的宏基站 k 1,2, M 和家庭基站 f 1,2, F 与用户 um之间的 信道增益, 2为噪声功率。 0029 类似的可以得到家庭基站用户 uf UF在资源块 n 上的信干噪比为 : 0030 0031 其中分别表示家庭基站 f 到其家庭用户 uf的信道增益, 而和表示宏 基站 m 和家庭基站 e 1, 2,F 到家庭用户 uf的信道增益。在无线通信中用户的吞 吐量与调制与编码方式有关, 本发明采用自适应调制和编码 (Adaptive Modulation and Coding,AMC),。
24、 即系统根据信道情况自适应改变调制及编码方式。 吞吐量的大小与频谱效率 和信道带宽相关, 宏基站m和家庭基站f的吞吐量每个资源块上的吞吐量之和, 可以分别用 Cm和 Cf表示, 则吞吐量可以表示如下 : 0032 0033 0034 其中和表示宏基站和家庭基站每个资源块上的吞吐量 ; 和表示每个资 源块上的频谱效率。当宏基站和家庭基站的吞吐量都已知, 则系统总吞吐量如下 : 0035 说 明 书 CN 102811443 A 6 5/6 页 7 0036 本发明采用分布式的资源分配方法来减小小区间的干扰从而提高小区的吞吐量, 该方法将 Q 学习和博弈论相结合, 动态的与环境进行交互, 最终学习。
25、到一个最优的资源分 配方法。 0037 强化学习 (Reinforcement Learning,RL) 是一种机器学习方法, 它通过从环境状 态到动作映射的学习, 感知环境状态, 使得动作从环境中获得最大的累积回报函数。Q 学习 是强化中的一种常用的学习方法, 它通过马尔科夫过程进行建模, 采用迭代的方法逼近最 优解, 并以状态-动作回报值作为衡量标准。 Q学习在学习过程总无需状态转移概率和回报 函数的先验知识模型, 而是从环境中直接学习, 所以 Q 学习计算复杂度很低 .Q 学习是一种 强化学习方法, 它无需先验知识, 只是智能体在不断与环境交互过程中学习, 最终收敛到一 个最优的策略。在。
26、本发明中我们把每个家庭基站都看成一个独立的智能体 (Agent), 而把 宏基站和除了本家庭基站以外的其它家庭基站都看成环境 (Environment)。Q 学习通过马 尔科夫决策过程 (Markov Decision Process, MDP) 建模, 采用迭代的方法逼近最优解, 并以 状态 - 动作的回报值作为评价标准。Q 学习是 Model-free 的, 它在学习过程中无需具备状 态转移概率和回报函数的先验知识模型, 而是直接学习最优策略。 0038 Q学习公式包含一组状态和一组动作, 能让智能体(如家庭基站)在不断的迭代中 找到使得回报最大的那个策略。每个家庭基站都探索环境, 观察当。
27、前的动作并且要根据决 策策略采取下一动作。 0039 用 S=S1,S2,su 表示可能的状态空间, A=a1,a2,av 表示 agent 可能选择 的动作空间。定义状态 - 动作回报值函数 Q(s, a) 为 agent 在状态 s 下采取动作 a 在无限 时间内所获得的最大期望折扣回报之和。当智能体在状态 s 下执行了动作 a 后智能体会收 到一个即时回报, Q 值根据下式的更新规则更新 : 0040 0041 其中 是学习速率, 0,1) 是折扣因子。Q(s ,a ) 表示洗衣歌状态的 Q 值, 其中 s和 a分别表示下一个状态和下一个动作。 0042 为了防止 Q 学习最终收敛到的最。
28、优策略不是全局的, 在选择动作的过程中每个智 能体都是以一定的概率 选择最优动作。每个智能体的目的都是为每个状态 s 都找到最 优的策略, 而多个智能体分布式的联合学习最终就可以使系统收敛到一个最优的策略。 0043 由于每个家庭基站都自私的想最大化自己的功率值来提高自己的性能, 所以其他 的家庭基站也会提高自己的功率来应对这种情况。 这种自私的行为就导致了包括宏基站和 家庭基站在内的整个网络会达到一个讨厌的平衡。 这里采用一种基于效用函数的非合作的 博弈论, 其目标是使得有限的频率资源能得到最有效的利用。 0044 每个家庭基站都是一个博弈者, 则整个网络共有 F 个博弈者, 关于功率控制的。
29、博 弈 G=f,pf,Uf(),是对于家庭基站 f 在不同资源块上传 输的功率向量, 每个家庭基站的效用函数为 Uf, 这样每个博弈者都根据其他博弈者的动作 选择了一个最好的功率值。对每个资源块功率控制的效用函数都可以表示为 : 0045 0046 0047 说 明 书 CN 102811443 A 7 6/6 页 8 0048 其中是家庭基站 f 的信干噪比向量, 而 Pmin和 Pmax是指每个资 源块上的最小功率值和最大功率值,是要使宏用户干扰满足门限值时家庭基站的最大 功率。假设所有的资源块都周期性地报告当前的 SINR 值给自己的家庭基站而且每个家庭 基站都会收到宏用户的 SINR 。
30、值, 这样家庭基站就可以在考虑宏用户 SINR 要求的情况下再 给自己分配一个最优的功率。 0049 本发明的资源分配方法是将 Q 学习与博弈论相结合, 在 Q 学习资源块分配的过程 中博弈功率从而提高系统的性能, Q 学习中的回报函数体现了学习的目标, 而博弈论中的效 用函数体现了博弈的目标, 本发明将这种算法表示为 QL&game。 0050 随着家庭基站功率的提高, 家庭基站对宏基站和其他家庭基站的干扰就会增加, 所以在博弈论的效用函数中应该加入功率的花费, 功率增加的越大花费也越大。每个家庭 基站的效用函数可以表示如下 : 0051 0052 其中 是一个正常数, 反映了家庭基站 f 。
31、对宏基站和其他家庭基站的干扰的 影响, 越小表示干扰越大 越大表示干扰越小。 0053 由于本发明中的家庭基站采用分布式 Q 学习机制, 所以每个家庭基站之间不进行 信息交换, 但是假设每个家庭基站对宏基站用户所受的干扰信息是已知的。家庭基站作为 一个独立的智能体, 它还要根据当前学习的资源块分成多个学习过程。多智能体分布式 Q 学习中的智能体, 动作, 状态, 回报定义如下 : 0054 智能体 f : 每个家庭基站 f 都是一个智能体。 0055 状 态 Sf: 家 庭 基 站 的 状 态 与 资 源 块 有 关其 中 状态与宏用户的干扰和家庭基站收到的干扰有关。 0056 动作 Af: 。
32、与状态的定义相似其中0 表示资源块未使用相反则用 1 表示。 0057 回报值 Rf: 类似于状态的定义回报值体现了学习的目标, 所以每个智能体的回报值的选取至关重要, 这样 Q 学习的回报函数可以定义如下 : 0058 0059 其中 B 是一个正常数, th是宏用户的 SINR 门限值, Uf为博弈论的效用函数值。 当宏用户的信干噪比不满足要求时 Q 学习获得 -B 的惩罚, 反之则获得值为 Uf的回报。 说 明 书 CN 102811443 A 8 1/2 页 9 图 1 图 2 说 明 书 附 图 CN 102811443 A 9 2/2 页 10 图 3 说 明 书 附 图 CN 102811443 A 10 。