面向大规模多AGENT系统的非对称分布式约束优化算法及系统.pdf

摘要
申请专利号：	CN201410668722.4	申请日：	2014.11.18
公开号：	CN104376382A	公开日：	2015.02.25
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06Q 10/04申请日:20141118\|\|\|公开
IPC分类号：	G06Q10/04(2012.01)I	主分类号：	G06Q10/04
申请人：	重庆大学
发明人：	陈自郁; 陈民铀; 张程; 石美凤; 李英豪
地址：	400044重庆市沙坪坝区沙正街174号
优先权：
专利代理机构：	重庆市前沿专利事务所(普通合伙)50211	代理人：	郭云
PDF下载：	PDF下载

内容摘要

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统，包括以下步骤：S1，构造约束图；S2，每个Agent随机选择状态信息si,t并发送到其邻居Agent；S3，每个Agent计算初始最佳响应状态s′i,t+1后再计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent；S4，每个Agent计算最佳响应s′i,t+1，计算最佳响应s′i,t+1的预测概率P并产生一个随机概率Pm，如果Pm＜P，则s′i,t+1＝s′i,t+1；否则si,t+1＝si,t；S5，每个Agent计算状态信息si,t+1的状态出现频率如果则采用随机调度方法；否则采用确定性调度，执行Agent的状态改变；发送si,t+1，令t＝t+1；S6，当t＞tmax，结束算法，否则返回步骤S3。本发明适用于大规模多Agent的协调优化问题，解决有用户偏好以及不确定环境下多Agent系统的优化控制。

权利要求书

权利要求书
1.  一种面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，包括以下步骤：
S1，根据具有非对称关系的Agent构造约束图，令t＝0，所述t为时刻；
S2，每个Agent随机选择状态信息si,t，根据约束图向邻居Agent发送所述状态信息si,t，所述i为Agent的序号；
S3，每个Agent接收到邻居Agent的状态信息sj,t后，所述每个Agent计算初始最佳响应状态s′i,t+1，计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent；
S4，每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的状态信息sj,t后，计算最佳响应s′i,t+1，计算最佳响应s′i,t+1的预测概率P并产生一个随机概率Pm，如果Pm＜P，则si,t+1＝s′i,t+1；否则si,t+1＝si,t；
S5，计算状态信息si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送si,t+1，令t＝t+1；
S6，当t＞tmax，结束算法，所述tmax为允许的最大时刻；否则返回步骤S3。

2.  根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，在步骤S3中，所述Agent i只接收邻居Agent的状态信息sj,t，所述初始最佳响应s′i,t+1的计算方法为：
si,t+1′=argmaxsi&Element;Sif(si),]]>
f(si)=Σj&Element;v(i)ξj×ui(j)(si,sj,t),]]>
其中，ξj为ηj、0或1，所述ηj表示邻居Agent j在系统中的影响程度，ui(j) 表示Agent的私有信息，Si表示Agent的状态信息集合，si是Si中的一个状态信息，sj,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合。

3.  根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述增益信息GIi,t的计算方法为：
GIi,t=ui(j)(si,t+1′,sj,t)-ui(j)(si,t-sj,t)ui(j)(si,t-sj,t),j&Element;v(i),]]>
其中，ui(j)表示Agent的私有信息，s′i,t+1表示初始最佳响应，sj,t表示在t时刻邻居Agent j的状态信息,si,t表示在t时刻Agent的状态信息，j表示Agent i的邻居Agent的序号，v(i)表Agent i的邻居集合。

4.  根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述最佳响应s′i,t+1的计算方法为：
si,t+1′=argmaxsi&Element;Sif(si),]]>
f(si)=Σj&Element;v(i)ξj×Ai,j(<si,sj,t>,<si,t,sj,t>)×ui(j)(si,sj,t)-IFi,t×Fsi,t+1t,]]>
其中，ξj为ηj、0或1，所述ηj表示邻居Agent j在系统中的影响程度，Ai,j为转移矩阵，Si是Agent的状态信息集合，si是Si中的一个状态信息，si,t是t时刻Agent i的状态信息，sj,t是t时刻邻居Agent j的状态信息，IFi,t是影响因子，是状态出现频率。

5.  根据权利要求4所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述影响因子IFi,t的计算方法为：
IFi,t=Σj&Element;v(i)(ηj×GIj,t),]]>
其中，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，GIj,t是邻居Agent j的增益信息。

6.  根据权利要求1或4所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述状态出现频率的计算方法为：
Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},]]>
E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1&NotEqual;siτ]]>
是agent i在0到t-1时刻出现过的状态信息，
如果采用随机调度，否则采用确定性调度。

7.  根据权利要求6所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述随机调度的方法：
当P＞Pp时，Agent i执行最佳策略,其中，Pp为并发概率，Pp＝t/tmax；否则保持原来的策略。

8.  根据权利要求6所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述确定性调度的方法：
当GIi,t＞GIj,t时，Agent i执行最佳策略；否则保持原来的策略。

9.  根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述预测概率P的计算方法：
N＝{1,2,…,n}为Agent集合，对于有约束关系的Agent对，定义元组CM＝＜Si,j,GIi,j,Ai,j,Λi,j＞，具体元素为：
Si,j＝{＜si,sj＞|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合；
GIi,j＝{＜GIi,GIj＞}是状态对Si,j对应的增益对；
在时刻t，设＜si,sj＞状态下出现观测增益对P(Ot＝＜GIi,GIj＞|Qt＝＜si,sj＞)服从student-t分布
T=O&OverBar;-μS/n,]]>
其中，为观测增益对的样本均值，S为观测增益对的样本方差，由样本均值及样本方差S构造变量x，x服从分布：
f(x)=Γ((<GIi,GIj>+1)/2)<GIi,GIj>πΓ(<GIi,GIj>/2)(1+x2/<GIi,GIj>)-(<GIi,GIj>+1)/2]]>
其中，Ai,j是转移矩阵，Ai,j＝[alk]，alk=P(Qt+1=<sik,sjk>|Qt=<sil,sjl>),]]>
Λi,j是初始状态概率，Λi,j＝[λi,j]，λi,j＝P(Qt＝＜si,sj＞)，
根据马尔可夫序列跳转至不同候选状态的预测概率：
P(Qt+1|Ot,Qt)=Πj&Element;v(i)P(Qt+!|Qtj).]]>

10.  一种利用权利要求1所述面向大规模多Agent系统的非对称分布式约束优化算法的系统，其特征在于，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；
所述Agent视野模块的输入端接收邻居Agent的通信信息I(t)，所述Agent视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决策选择模块的输出端与所述协调控制模块的输出端相连，所述协调控制模块的输出端发送通信信息I(t+1)；
所述Agent视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集，所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。

说明书

说明书面向大规模多Agent系统的非对称分布式约束优化算法及系统
技术领域
本发明涉及Agent系统的非对称分布式约束优化问题的求解，特别是涉及一种面向大规模多Agent系统的非对称分布式约束优化算法及系统，适用于电力发电优化策略计算，尤其是微网配置问题的求解。
背景技术
分布式约束优化问题(Distributed Constraint Opt imization Problems,DCOPs)是解决多Agent系统问题的一个基本框架。DCOPs常用来作为多Agent协作问题的重要而有用的抽象，可对多Agent领域许多真实问题建模。DCOPs强调利用本地的局部交互获得全局的最优性，是协调多个Agent解决分布式问题的有效技术，已成为分布式人工智能领域的研究热点。目前已逐步运用于任务调度、资源分配、传感器网络、交通管理、微网配置等实际应用中。但是，当前在这些应用领域中，对于多Agent系统仍然使用的是“对称性”特性，即认为各Agent对与其有约束关系的其他Agent的特征、取值(策略)空间及代价(收益)函数有准确的信息，每个Agent没有个人的偏好信息和隐私性，进而简化了其求解的过程。
但是，在实际问题中，大多数的多Agent系统都具有非对称特征，即每个个体具有自己的偏好且不希望与其他个体共享。例如，在微网控制中，每个分布式电源(DG)由于各自的特性不同(如风能或水电站电源等等)，彼此之间的影响是不同的，在相同网络配置下相邻DG的收益也不相同，而每个DG并不清楚其他DG的收益情况。因此，现实情况使得在此类多Agent系统中，需要充分考虑其非对称性特征。
非对称分布式约束优化问题(Asymmetric Distributed Constraint Optimization Problems，ADCOPs)是在分布式约束优化问题(DCOPs)的基础上增加了非对称特性的新模型，具有更强的建模能力和更好的工程应用前景。ADCOPs由多元组＜A,X,D,C＞构成。其中A＝{A1,A2,...,Am}表示m个Agent的集合，Agent负责给变量集合X中的变量选择赋值；X＝{x1,x2,...,xn}表示n个变量；D＝{D1,D2,...,Dn}是一组离散而有限的值域集合，Di表示xi的值域；C表示各变量之间的约束关系集合。C中的约束关系描述如下：
u:Di1×Di2×...×Dik&RightArrow;R+k,u&Element;C,Dik&Element;D,ik&Element;{1,...n}---(1)]]>
u称为代价函数或收益函数。以二元关系为例，对于ADCOPs求解目标是：
x*=argmaxΣdi&Element;Di,dj&Element;Djuij(xi=di,xj=dj)=argmaxΣdi&Element;Di,dj&Element;Dj(ui(j)(xi=di,xj=dj)+u(i)j(xi=di,xj=dj))---(2)]]>
其中ui(j),u(i)j:Di×Dj→R+,ui(j),u(i)j∈uij。
公式(2)中ui(j)和u(i)j分别表示在xi与xj取相同赋值下，Agent和邻居Agent得到的代价或收益，并且ui(j)和u(i)j是Agent和邻居Agent的私有信息，彼此不共享。由于ADCOPs多用于多Agent系统的决策优化中，因此在实际应用中，决策集合S＝{S1,S2,...,Sn}取代D作为实际值域集合。从上述公式可见，ADCOPs中具有非对称关系的各Agent，虽然彼此影响，但各自的影响情况(代价或收益)是不同的，并且该情况彼此不共享。很多有非对称关系的多Agent系统能较方便地用ADCOPs建模，然而对ADCOPs的求解较困难。
发明内容
本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统。
为了实现本发明的上述目的，本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法，包括以下步骤：
S1，根据具有非对称关系的Agent构造约束图，令t＝0，所述t为时刻；
S2，每个Agent随机选择状态信息si,t，根据约束图向邻居Agent发送所述状态信息si,t，其中，i为Agent的序号，在本实施方式中，每个Agent随机选择状态信息si,t是指：每个Agent的状态信息具有一个设定的取值范围，从这个取值范围内随机选择一个状态信息si,t。
S3，每个Agent接收到邻居Agent的状态信息sj,t后，所述每个Agent计算初始最佳响应状态s'i,t+1后再计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent；
S4，每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的状态信息si,t后，计算最佳响应s'i,t+1，计算最佳响应s'i,t+1的预测概率P并产生一个随机概率Pm，如果Pm＜P，则si,t+1＝s'i,t+1；否则si,t+1＝si,t；
在分布式控制问题中，每个Agent与邻居Agent交换信息，然后自主地进行优化决策，因此对其算法的设计主要在信息交换机制和各Agent的内部处理上。本发明采用同步的信息交换机制，即各Agent发送完t时刻的个人决策信息后，只有接收到全部邻居Agent在t时刻的个人决策信息后才进行内部新的决策处理。
S5，计算状态信息si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送si,t+1，令t＝t+1；
S6，当t＞tmax，结束算法，所述tmax为允许的最大时刻；否则返回步骤S3。
本发明适用于大规模多Agent的协调优化问题，可以解决有用户偏好以及不确定环境下多Agent系统的优化控制。Agent通过网络连接，交换信息，相互协作完成共同的任务。单独Agent只与有连接关系的Agent(邻居Agent)之间进行信息共享，且个体Agent能根据自身的周围环境以及目标自主做出决策，而不受其他Agent的限制。Agent与Agent之间存在竞争和合作关系，通过自身协调来解决目标与行为之间的冲突。
在本发明的一种优选实施方式中，在步骤S3中，所述Agent i只接收邻居Agent的状态信息sj,t，所述初始最佳响应s'i,t+1的计算方法为：
si,t+1′=argmaxsi&Element;Sif(si),]]>
f(si)=Σj&Element;v(i)ξj×ui(j)(si,sj,t),]]>
其中，ξj为ηj、0或1，所述ηj表示邻居Agent j在系统中的影响程度，ui(j)表示Agent的私有信息，Si表示Agent的状态信息集合，si是Si中的一个状态信息，sj,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合。
在本发明的一种优选实施方式中，所述增益信息GIi,t的计算方法为：
GIi,t=ui(j)(si,t+1′,sj,t)-ui(j)(si,t-sj,t)ui(j)(si,t-sj,t),j&Element;v(i),]]>
其中，ui(j)表示Agent的私有信息，s'i,t+1表示初始最佳响应或最佳响应，sj,t 表示在t时刻邻居Agent j的状态信息,si,t表示在t时刻Agent的状态信息，j表示Agent i的邻居Agent的序号，v(i)表Agent i的邻居集合。
本发明引入增益信息GIi,t能够有效地对决策进行预测。具有预测能力的ADCOP近似算法新框架和相应算法，较好的解决Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。
在本发明的一种优选实施方式中，所述最佳响应s'i,t+1的计算方法为：
si,t+1′=argmaxsi&Element;Sif(si),]]>
f(si)=Σj=v(i)ξj×Ai,j(<si,sj,t>,<si,t,sj,t>)×ui(j)(si,sj,t)-IFi,t×Fsi,t+1t,]]>
其中，ξj为ηj、0或1，所述ηj表示邻居Agentj在系统中的影响程度，Ai,j为转移矩阵，Si是Agent的状态信息集合，si是Si中的一个状态信息，si,t是t时刻Agent i的状态信息，sj,t是t时刻邻居Agent j的状态信息，IFi,t是影响因子，是状态出现频率。
在本发明的一种优选实施方式中，所述影响因子IFi,t的计算方法为：
IFi,t=Σj&Element;v(i)(ηj×GIj,t),]]>
其中，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，GIj,t是邻居Agent j的增益信息。
在本发明的一种优选实施方式中，所述状态出现频率的计算方法为：
Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},]]>
E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1&NotEqual;siτ]]>
是agent i在0到t-1时刻出现过的状态信息，
如果采用随机调度，否则采用确定性调度。
在本发明的一种优选实施方式中，所述随机调度的方法：
当P＞Pp时，Agent i执行最佳策略,其中，Pp为并发概率，Pp＝t/tmax；否则保持原来的策略。
在本发明的一种优选实施方式中，所述确定性调度的方法：
当GIi,t＞GIj,t时，Agent i执行最佳策略；否则保持原来的策略。
在本发明的一种优选实施方式中，所述预测概率P的计算方法：
N＝{1,2,…,n}为Agent集合，对于有约束关系的Agent对，定义元组CM＝＜Si,j,GIi,j,Ai,j,Λi,j＞，具体元素为：
Si,j＝{＜si,sj＞|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合；
GIi,j＝{＜GIi,GIj＞}是状态对Si,j对应的增益对；
在时刻t，设＜si,sj＞状态下出现观测增益对P(Ot＝＜GIi,GIj＞|Qt＝＜si,sj＞)服从student-t分布
T=O&OverBar;-μS/n,]]>
其中，为观测增益对的样本均值，S为观测增益对的样本方差，由样本均值及样本方差S构造变量x，x服从分布：
f(x)=Γ((<GIi,GIj>+1)/2)<GIi,GIj>πΓ(<GIi,GIj>/2)(1+x2/<GIi,GIj>)-(<GIi,GIj>+1)/2]]>
其中，Ai,j是转移矩阵，Ai,j＝[alk]，
Λi,j是初始状态概率，Λi,j＝[λi,j]，λi,j＝P(Qt＝＜si,sj＞)，
根据马尔可夫序列跳转至不同候选状态的预测概率：
P(Qt+1|Ot,Qt)=Πj&Element;v(i)P(Qt+!|Qtj).]]>
每个Agent i将根据该联合概率给出的预测结果来决定自己在t+1时刻的策略。
此外，由于增益对＜GIi,GIj＞的优劣是可知的，因此转移矩阵Ai,j的跳转方向(系统变好或变坏)及跳转概率都可以确定，将Ai,j的跳转方向及概率大小反馈到环境认知特征的构建中，能更准确地刻画当前环境下各状态的影响情况，从而使系统状态不断地往好的方向前进。
对于该模型的参数求解，本发明利用Baum-Welch算法使模型和给定的观测序列更加匹配。Baum-Welch算法采用递归的思想，使P(θ|O)达到局部极大，最后得到模型参数。Baum-Welch算法思想类似EM算法，它可以从非完整数据集中对参数进行最大似然估计，是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据、带有噪声等不完全数据(incomplete data)。除此之外，本发明中的观测数据序列较少，进一步减少了算法进行参数估计的时间，提高模型求参的效率。
本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；所述Agent视野模块的输入端接收邻居Agent的通信信息I(t)，所述Agent视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决策选择模块的输出端与所述协调控制模块的输出端相连，所述协调控制模块的输出端发送通信信息I(t+1)；所述Agent视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集，所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。
综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明适用于大规模多Agent的协调优化问题，可以解决有用户偏好以及不确定环境下多Agent系统的优化控制并解决了Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。
附图说明
图1是本发明Agent结构示意图。
图2是本发明Agent算法框架示意图。
具体实施方式
下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统，如图1所示，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，决策选择模块包括预测模型模块及策略生成模块；预测模型模块的输出端与策略生成模块的输入端相连，预测模型模块用于对Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，策略生成模块用于选出最佳响应状态的最佳策略；
Agent视野模块的输入端接收邻居Agent的通信信息I(t)，Agent视野模块的输出端与状态评估模块的输入端相连，状态评估模块的输出端与决策选择模块的输入端相连，决策选择模块的输出端与协调控制模块的输出端相连，协调控制模块的输出端发送通信信息I(t+1)；
Agent视野模块包括个体当前利益模块及环境认知特征模块，个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集，环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。
图1中状态评估模块是对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合(Agent的邻居可能有1个或多个)；决策选择模块负责选出最佳策略；协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。为了解决ADCOPs的不完全信息响应，兼顾个人利益和全局利益，本发明增加了Agent视野模块和预测模型模块。Agent视野模块是Agent对自己和邻居的认知，在本发明中包括Agent当前状态、Agent收集到的自己和邻居的历史信息，Agent的收益函数等。Agent视野模块是Agent感知的外部世界，会随着信息的不断收集而变化。预测模型模块基于Agent视野预估最佳响应执行对其它Agent的影响，引导Agent做出最佳选择。图1中I表示Agent之间的通信信息，它影响着系统的稳定性和私密性。对于ADCOPs，通信信息不能包含或推算出Agent的私有收益函数(矩阵)。预测模型随着变化的Agent视野不断更新。Agent i预测模型PM描述如下：
PM(Viewi,t,s'i,t+1):Viewi,t→(s'i,t+1→[0,1])
其中，Viewi,t是Agent i在t时刻的视野，s'i,t+1表示状态评估后的最佳响应状态，即下一时刻可能的最佳策略。
Agent视野包含个体当前利益和环境认知特征两类信息；个体当前利益主要包括当前状态si,t、邻居Agent状态sj,t、与自己相关的约束收益函数(矩阵)。环境认知特征表示Agent对全局利益的认知。由于全局信息是不可知的，因此该特征只能通过邻居利益、邻居行为以及系统运行的可能规律来不断地感知可能的全局特征；从历史和全局的角度，对Agent的每个状态做合理的评估。本发明采用影响因子IFi,t、状态出现频率和预测选择中的转移矩阵Ai,j来表征环境认知特征。
本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法，如图2所示，其包括以下步骤：
S1，根据具有非对称关系的Agent构造约束图，令t＝0，t为时刻；
S2，每个Agent随机选择状态信息si,t，根据约束图向邻居Agent发送状态信息si,t，i为Agent的序号。需要说明的是，Agent i为待计算Agent，其邻居Agent为Agent j，其中，i，j均为正整数。
S3，每个Agent i接收到邻居Agentj的状态信息sj,t后，每个Agenti计算初始最佳响应状态s'i,t+1后再计算增益信息GIi,t并将增益信息GIi,t发送到其邻居Agent；在本实施方式中，初始最佳响应s’i,t+1的计算方法为：f(si)=Σj&Element;v(i)ξj×ui(j)(si,sj,t),]]>
增益信息GIi,t的计算方法为：GIi,t=ui(j)(si,t+1′,sj,t)-ui(j)(si,t-sj,t)ui(j)(si,t-sj,t),j&Element;v(i),]]>
其中，ξj为ηj、0或1，ηj表示邻居Agent j在系统中的影响程度，ui(j)表示Agent的私有信息，Si表示Agent的状态信息集合，si是Si中的一个状态信息，si,t表示在t时刻Agent i的状态信息，sj,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，s'i,t+1表示初始最佳响应。
S4，每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的状态信息sj,t后，计算最佳响应s'i,t+1，计算最佳响应s′i,t+1的预测概率P并产生一个随机概率Pm，如果Pm＜P，则si,t+1＝s'i,t+1；否则si,t+1＝si,t；在实施方式中，最佳响应s'i,t+1的计算方法为：si,t+1′=argmaxsi&Element;Sif(si),]]>
f(si)=Σj=v(i)ξj×Ai,j(<si,sj,t>,<si,t,sj,t>)×ui(j)(si,sj,t)-IFi,t×Fsi,t+1t,]]>影响因子IFi,t的计算方法为：IFi,t=Σj&Element;v(i)(ηj×GIj,t),]]>
状态出现频率的计算方法为：
Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1&NotEqual;siτ]]>
其中，Ai,j为转移矩阵，是agent i在0到t-1时刻出现过的状态信息。
S5，计算状态信息si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送si,t+1，令t＝t+1；在实施方式中，状态出现频率的计算方法为：
Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1&NotEqual;siτ]]>
其中，是agent i在0到t-1时刻出现过的状态信息，
在本实施方式中，随机调度方法为：当P＞Pp时，Agent i执行最佳策略,其中，Pp为并发概率，Pp＝t/tmax；否则保持原来的策略；确定性调度的方法：当GIi,t＞GIj,t时，Agent i执行最佳策略；否则保持原来的策略。
S6，当t＞tmax，结束算法，tmax为允许的最大时刻；否则返回步骤S3。
本发明不仅可以用于ADCOPs，也可用于DCOPs以及动态环境下的DCOPs。
在本发明的一种优选实施方式中，预测概率P的计算方法：
N＝{1,2,…,n}为Agent集合，对于有约束关系的Agent对，定义元组CM＝＜Si,j,GIi,j,Ai,j,Λi,j＞，具体元素为：
Si,j＝{＜si,sj＞|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合；
GIi,j＝{＜GIi,GIj＞}是状态对Si,j对应的增益对；
在时刻t，设＜si,sj＞状态下出现观测增益对P(Ot＝＜GIi,GIj＞|Qt＝＜si,sj＞)服从student-t分布
T=O&OverBar;-μS/n,]]>
其中，为观测增益对的样本均值，S为观测增益对的样本方差，由样本均值及样本方差S构造变量x，x服从分布：
f(x)=Γ((<GIi,GIj>+1)/2)<GIi,GIj>πΓ(<GIi,GIj>/2)(1+x2/<GIi,GIj>)-(<GIi,GIj>+1)/2]]>
其中，Ai,j是转移矩阵，Ai,j＝[alk]，
Λi,j是初始状态概率，Λi,j＝[λi,j]，λi,j＝P(Qt＝＜si,sj＞)，
根据马尔可夫序列跳转至不同候选状态的预测概率：
P(Qt+1|Ot,Qt)=Πj&Element;v(i)P(Qt+!|Qtj).]]>
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

资源描述

《面向大规模多AGENT系统的非对称分布式约束优化算法及系统.pdf》由会员分享，可在线阅读，更多相关《面向大规模多AGENT系统的非对称分布式约束优化算法及系统.pdf（13页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410668722.4 (22)申请日 2014.11.18 G06Q 10/04(2012.01) (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街 174 号 (72)发明人陈自郁陈民铀张程石美凤李英豪 (74)专利代理机构重庆市前沿专利事务所 ( 普通合伙 ) 50211 代理人郭云 (54) 发明名称面向大规模多 Agent 系统的非对称分布式约束优化算法及系统 (57) 摘要本发明公开了一种面向大规模多 Agent 系统的非对称分布式约束优化算法及系统，包括以下步骤： S1，。

2、构造约束图； S2，每个Agent随机选择状态信息si,t并发送到其邻居Agent ； S3，每个Agent 计算初始最佳响应状态 si,t+1后再计算增益信息 GIi,t并将所述增益信息 GI i,t发送到其邻居 Agent ； S4，每个 Agent 计算最佳响应 si,t+1，计算最佳响应 si,t+1的预测概率 P 并产生一个随机概率 Pm，如果 Pm P，则 s i,t+1 si,t+1；否则si,t+1si,t； S5，每个Agent计算状态信息si,t+1 的状态出现频率如果则采用随机调度方法；否则采用确定性调度，执行 Agent 的状态改。

3、变；发送 si,t+1，令 t t+1 ； S6，当 t tmax，结束算法，否则返回步骤 S3。本发明适用于大规模多 Agent 的协调优化问题，解决有用户偏好以及不确定环境下多 Agent 系统的优化控制。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书3页说明书8页附图1页 (10)申请公布号 CN 104376382 A (43)申请公布日 2015.02.25 CN 104376382 A 1/3 页 2 1. 一种面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，包括以下步骤： S1，。

4、根据具有非对称关系的 Agent 构造约束图，令 t 0，所述 t 为时刻； S2，每个 Agent 随机选择状态信息 si,t，根据约束图向邻居 Agent 发送所述状态信息 si,t，所述 i 为 Agent 的序号； S3，每个 Agent 接收到邻居 Agent 的状态信息 sj,t后，所述每个 Agent 计算初始最佳响应状态 s i,t+1，计算增益信息 GIi,t并将所述增益信息 GIi,t发送到其邻居 Agent ； S4，每个 Agent 接收到所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状态信息 sj,t后，计算最佳。

5、响应 si,t+1，计算最佳响应 si,t+1的预测概率 P 并产生一个随机概率 Pm，如果 Pm P，则 si,t+1 s i,t+1；否则 si,t+1 si,t； S5，计算状态信息 si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行 Agent 的状态改变；发送 si,t+1，令 t t+1 ； S6，当 t tmax，结束算法，所述 tmax为允许的最大时刻；否则返回步骤 S3。 2. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，在步骤 S3 中，所述 Agent i 只接。

6、收邻居 Agent 的状态信息 sj,t，所述初始最佳响应 s i,t+1的计算方法为：其中， j为 j、 0 或 1，所述 j表示邻居 Agent j 在系统中的影响程度， ui(j)表示 Agent 的私有信息， Si表示 Agent 的状态信息集合， si是 Si中的一个状态信息， sj,t表示在 t 时刻邻居 Agent j 的状态信息， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表示 Agent i 的邻居集合。 3. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述增益信息 GIi,t的计算方。

7、法为：其中， ui(j)表示 Agent 的私有信息， s i,t+1表示初始最佳响应， sj,t表示在 t 时刻邻居 Agent j 的状态信息 ,si,t表示在 t 时刻 Agent 的状态信息， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表 Agent i 的邻居集合。 4. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述最佳响应 s i,t+1的计算方法为：其中， j为 j、 0 或 1，所述 j表示邻居 Agent j 在系统中的影响程度， Ai,j为转移矩阵， Si是 Agent 的状态信。

8、息集合， si是 Si中的一个状态信息， si,t是 t 时刻 Agent i 的状态权利要求书 CN 104376382 A 2 2/3 页 3 信息， sj,t是 t 时刻邻居 Agent j 的状态信息， IFi,t是影响因子，是状态出现频率。 5. 根据权利要求 4 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述影响因子 IFi,t的计算方法为：其中， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表示 Agent i 的邻居集合， GIj,t是邻居 Agent j 的增益信息。 6. 根据权利要求 1 或 4。

9、所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述状态出现频率的计算方法为：是 agent i 在 0 到 t-1 时刻出现过的状态信息，如果采用随机调度，否则采用确定性调度。 7. 根据权利要求 6 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述随机调度的方法：当 P Pp时， Agent i 执行最佳策略 , 其中， Pp为并发概率， Pp t/tmax；否则保持原来的策略。 8. 根据权利要求 6 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述确定性调度的。

10、方法：当 GIi,t GIj,t时， Agent i 执行最佳策略；否则保持原来的策略。 9. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法，其特征在于，所述预测概率 P 的计算方法： N 1,2,n 为 Agent 集合，对于有约束关系的 Agent 对，定义元组 CM Si,j,GIi,j,Ai,j,i,j，具体元素为： Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合； GIi,j GIi,GIj 是状态对 Si,j对应的增益对；在时刻 t，设 si,sj。

11、状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布其中，为观测增益对的样本均值， S 为观测增益对的样本方差，由样本均值及样本方差 S 构造变量 x， x 服从分布：权利要求书 CN 104376382 A 3 3/3 页 4 其中， Ai,j是转移矩阵， Ai,j alk， i,j是初始状态概率， i,j i,j， i,j P(Qt si,sj )，根据马尔可夫序列跳转至不同候选状态的预测概率： 10. 一种利用权利要求 1 所述面向大规模多 Agent 系统的非对称分布式约束优化算法的系统，其特征在于，包括状。

12、态评估模块、决策选择模块、协调控制模块及 Agent 视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述 Agent 视野模块进行最佳响应状态预估并引导 Agent 做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；所述 Agent 视野模块的输入端接收邻居 Agent 的通信信息 I(t)，所述 Agent 视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决策选择模块的输出端与所述协调控制模块的输出。

13、端相连，所述协调控制模块的输出端发送通信信息 I(t+1) ；所述 Agent 视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对 Agent 及邻居 Agent 的状态信息 si,t及与 Agent 相关的转移矩阵 A 的采集，所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；所述状态评估模块用于对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居 Agent 之间的行为，决定 Agent 是否要执行最佳策略或如何传递最佳策略。权利要求书 CN 104376382 A 4。

14、 1/8 页 5 面向大规模多 Agent 系统的非对称分布式约束优化算法及系统技术领域 0001 本发明涉及 Agent 系统的非对称分布式约束优化问题的求解，特别是涉及一种面向大规模多 Agent 系统的非对称分布式约束优化算法及系统，适用于电力发电优化策略计算，尤其是微网配置问题的求解。背景技术 0002 分布式约束优化问题 (Distributed Constraint Opt imization Problems,DCOPs) 是解决多 Agent 系统问题的一个基本框架。DCOPs 常用来作为多 Agent 协作问题的重要而有用的抽象，可对多Age。

15、nt领域许多真实问题建模。 DCOPs强调利用本地的局部交互获得全局的最优性，是协调多个 Agent 解决分布式问题的有效技术，已成为分布式人工智能领域的研究热点。目前已逐步运用于任务调度、资源分配、传感器网络、交通管理、微网配置等实际应用中。但是，当前在这些应用领域中，对于多 Agent 系统仍然使用的是 “对称性” 特性，即认为各 Agent 对与其有约束关系的其他 Agent 的特征、取值 ( 策略 ) 空间及代价 ( 收益 ) 函数有准确的信息，每个 Agent 没有个人的偏好信息和隐私性，进而简化了其求解的过程。 0003 但是，在实际问题中，大。

16、多数的多 Agent 系统都具有非对称特征，即每个个体具有自己的偏好且不希望与其他个体共享。例如，在微网控制中，每个分布式电源 (DG) 由于各自的特性不同 ( 如风能或水电站电源等等 )，彼此之间的影响是不同的，在相同网络配置下相邻 DG 的收益也不相同，而每个 DG 并不清楚其他 DG 的收益情况。因此，现实情况使得在此类多 Agent 系统中，需要充分考虑其非对称性特征。 0004 非对称分布式约束优化问题 (Asymmetric Distributed Constraint Optimization Problems， ADCOPs) 是在。

17、分布式约束优化问题 (DCOPs) 的基础上增加了非对称特性的新模型，具有更强的建模能力和更好的工程应用前景。ADCOPs 由多元组 A,X,D,C 构成。其中 A A1,A2,.,Am 表示 m 个 Agent 的集合， Agent 负责给变量集合 X 中的变量选择赋值； X x1,x2,.,xn 表示 n 个变量； D D1,D2,.,Dn 是一组离散而有限的值域集合， Di表示 xi的值域； C 表示各变量之间的约束关系集合。C 中的约束关系描述如下： 0005 0006 u 称为代价函数或收益函数。以二元关系为例，对于 ADCOPs 求解目标是： 0007 000。

18、8 其中 ui(j),u(i)j:DiDj R+,ui(j),u(i)j uij。说明书 CN 104376382 A 5 2/8 页 6 0009 公式 (2) 中 ui(j)和 u(i)j分别表示在 xi与 xj取相同赋值下， Agent 和邻居 Agent 得到的代价或收益，并且 ui(j)和 u(i)j是 Agent 和邻居 Agent 的私有信息，彼此不共享。由于 ADCOPs 多用于多 Agent 系统的决策优化中，因此在实际应用中，决策集合 S S1,S2,.,Sn 取代 D 作为实际值域集合。从上述公式可见， ADCOPs 中具有非对称关系的各Agent，虽。

19、然彼此影响，但各自的影响情况(代价或收益)是不同的，并且该情况彼此不共享。很多有非对称关系的多 Agent 系统能较方便地用 ADCOPs 建模，然而对 ADCOPs 的求解较困难。发明内容 0010 本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种面向大规模多 Agent 系统的非对称分布式约束优化算法及系统。 0011 为了实现本发明的上述目的，本发明提供了一种面向大规模多 Agent 系统的非对称分布式约束优化算法，包括以下步骤： 0012 S1，根据具有非对称关系的 Agent 构造约束图，令 t 0，所述 t 为时刻； 0013 S2，。

20、每个 Agent 随机选择状态信息 si,t，根据约束图向邻居 Agent 发送所述状态信息 si,t，其中， i 为 Agent 的序号，在本实施方式中，每个 Agent 随机选择状态信息 si,t是指：每个 Agent 的状态信息具有一个设定的取值范围，从这个取值范围内随机选择一个状态信息 si,t。 0014 S3，每个 Agent 接收到邻居 Agent 的状态信息 sj,t后，所述每个 Agent 计算初始最佳响应状态 si,t+1后再计算增益信息 GIi,t并将所述增益信息 GIi,t发送到其邻居 Agent ； 0015 S4，每个 Agent 接收到。

21、所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状态信息 si,t后，计算最佳响应 si,t+1，计算最佳响应 si,t+1的预测概率 P 并产生一个随机概率 Pm，如果 Pm P，则 si,t+1 si,t+1；否则 si,t+1 si,t； 0016 在分布式控制问题中，每个Agent与邻居Agent交换信息，然后自主地进行优化决策，因此对其算法的设计主要在信息交换机制和各 Agent 的内部处理上。本发明采用同步的信息交换机制，即各 Agent 发送完 t 时刻的个人决策信息后，只有接收到全部邻居 Agent 在 t 时刻的个人决策信息。

22、后才进行内部新的决策处理。 0017 S5，计算状态信息 si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行 Agent 的状态改变；发送 si,t+1，令 t t+1 ； 0018 S6，当 t tmax，结束算法，所述 tmax为允许的最大时刻；否则返回步骤 S3。 0019 本发明适用于大规模多 Agent 的协调优化问题，可以解决有用户偏好以及不确定环境下多 Agent 系统的优化控制。Agent 通过网络连接，交换信息，相互协作完成共同的任务。单独 Agent 只与有连接关系的 Agent( 邻居 Agent) 之间进行信息共享。

23、，且个体 Agent 能根据自身的周围环境以及目标自主做出决策，而不受其他 Agent 的限制。Agent 与 Agent 之间存在竞争和合作关系，通过自身协调来解决目标与行为之间的冲突。 0020 在本发明的一种优选实施方式中，在步骤 S3 中，所述 Agent i 只接收邻居 Agent 的状态信息 sj,t，所述初始最佳响应 si,t+1的计算方法为： 0021 说明书 CN 104376382 A 6 3/8 页 7 0022 0023 其中， j为 j、 0 或 1，所述 j表示邻居 Agent j 在系统中的影响程度， ui(j)表示 Agent 的私有信息，。

24、 Si表示 Agent 的状态信息集合， si是 Si中的一个状态信息， sj,t表示在 t 时刻邻居 Agent j 的状态信息， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表示 Agent i 的邻居集合。 0024 在本发明的一种优选实施方式中，所述增益信息 GIi,t的计算方法为： 0025 0026 其中， ui(j)表示 Agent 的私有信息， si,t+1表示初始最佳响应或最佳响应， sj,t表示在 t 时刻邻居 Agent j 的状态信息 ,si,t表示在 t 时刻 Agent 的状态信息， j 表示 Agent i 的邻居 Agent 的序号。

25、， v(i) 表 Agent i 的邻居集合。 0027 本发明引入增益信息GIi,t能够有效地对决策进行预测。具有预测能力的ADCOP近似算法新框架和相应算法，较好的解决 Agent 不完全信息的响应、双向代价求解和个体收益的私密性等问题。 0028 在本发明的一种优选实施方式中，所述最佳响应 si,t+1的计算方法为： 0029 0030 0031 其中， j为 j、 0 或 1，所述 j表示邻居 Agentj 在系统中的影响程度， Ai,j为转移矩阵， Si是 Agent 的状态信息集合， si是 Si中的一个状态信息， si,t是 t 时刻 Agent i 的状态信。

26、息， sj,t是 t 时刻邻居 Agent j 的状态信息， IFi,t是影响因子，是状态出现频率。 0032 在本发明的一种优选实施方式中，所述影响因子 IFi,t的计算方法为： 0033 0034 其中， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表示 Agent i 的邻居集合， GIj,t 是邻居 Agent j 的增益信息。 0035 在本发明的一种优选实施方式中，所述状态出现频率的计算方法为： 0036 0037 0038 是 agent i 在 0 到 t-1 时刻出现过的状态信息， 0039 如果采用随机调度，否则采用确定性调度。 0040 在。

27、本发明的一种优选实施方式中，所述随机调度的方法：说明书 CN 104376382 A 7 4/8 页 8 0041 当 P Pp时， Agent i 执行最佳策略 , 其中， Pp为并发概率， Pp t/tmax；否则保持原来的策略。 0042 在本发明的一种优选实施方式中，所述确定性调度的方法： 0043 当 GIi,t GIj,t时， Agent i 执行最佳策略；否则保持原来的策略。 0044 在本发明的一种优选实施方式中，所述预测概率 P 的计算方法： 0045 N 1,2,n 为 Agent 集合，对于有约束关系的 Agent 对，定义元组 CM Si,。

28、j,GIi,j,Ai,j,i,j，具体元素为： 0046 Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合； 0047 GIi,j GIi,GIj 是状态对 Si,j对应的增益对； 0048 在时刻 t，设 si,sj状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布 0049 0050 其中，为观测增益对的样本均值， S 为观测增益对的样本方差，由样本均值及样本方差 S 构造变量 x， x 服从分布： 0051 0052 其中， Ai,j是转移矩阵， Ai,j alk， 0053。

29、 i,j是初始状态概率， i,j i,j， i,j P(Qt si,sj )， 0054 根据马尔可夫序列跳转至不同候选状态的预测概率： 0055 0056 每个 Agent i 将根据该联合概率给出的预测结果来决定自己在 t+1 时刻的策略。 0057 此外，由于增益对GIi,GIj的优劣是可知的，因此转移矩阵Ai,j的跳转方向(系统变好或变坏 ) 及跳转概率都可以确定，将 Ai,j的跳转方向及概率大小反馈到环境认知特征的构建中，能更准确地刻画当前环境下各状态的影响情况，从而使系统状态不断地往好的方向前进。 0058 对于该模型的参数求解，本发明利用 Baum-Welch。

30、算法使模型和给定的观测序列更加匹配。Baum-Welch 算法采用递归的思想，使 P(|O) 达到局部极大，最后得到模型参数。Baum-Welch 算法思想类似 EM 算法，它可以从非完整数据集中对参数进行最大似然估计，是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据、带有噪声等不完全数据(incomplete data)。除此之外，本发明中的观测数据序列较少，进一步减少了算法进行参数估计的时间，提高模型求参的效率。 0059 本发明公开了一种面向大规模多 Agent 系统的非对称分布式约束优化算法的系统，包括状态评估模块、决策选。

31、择模块、协调控制模块及 Agent 视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述 Agent 视野模块进行最佳响应状态预估并引导说明书 CN 104376382 A 8 5/8 页 9 Agent 做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；所述 Agent 视野模块的输入端接收邻居 Agent 的通信信息 I(t)，所述 Agent 视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决。

32、策选择模块的输出端与所述协调控制模块的输出端相连，所述协调控制模块的输出端发送通信信息 I(t+1) ；所述 Agent 视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对 Agent 及邻居 Agent 的状态信息 si,t及与 Agent 相关的转移矩阵A的采集，所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；所述状态评估模块用于对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。 0060 综上所述，。

33、由于采用了上述技术方案，本发明的有益效果是：本发明适用于大规模多 Agent 的协调优化问题，可以解决有用户偏好以及不确定环境下多 Agent 系统的优化控制并解决了 Agent 不完全信息的响应、双向代价求解和个体收益的私密性等问题。附图说明 0061 图 1 是本发明 Agent 结构示意图。 0062 图 2 是本发明 Agent 算法框架示意图。具体实施方式 0063 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发。

34、明，而不能理解为对本发明的限制。 0064 在本发明的描述中，需要理解的是，术语 “纵向” 、“横向” 、“上” 、“下” 、“前” 、“后” 、 “左” 、“右” 、“竖直” 、“水平” 、“顶” 、“底” “内” 、“外” 等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。 0065 在本发明的描述中，除非另有规定和限定，需要说明的是，术语 “安装” 、“相连” 、 “连接” 应做广义理解，例如，可以是机械连接或电连接。

35、，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。 0066 本发明公开了一种面向大规模多 Agent 系统的非对称分布式约束优化算法的系统，如图 1 所示，包括状态评估模块、决策选择模块、协调控制模块及 Agent 视野模块，决策选择模块包括预测模型模块及策略生成模块；预测模型模块的输出端与策略生成模块的输入端相连，预测模型模块用于对 Agent 视野模块进行最佳响应状态预估并引导 Agent 做出最佳选择，策略生成模块用于选出最佳响应状态的最佳策略； 00。

36、67 Agent视野模块的输入端接收邻居Agent的通信信息I(t)， Agent视野模块的输出端与状态评估模块的输入端相连，状态评估模块的输出端与决策选择模块的输入端相连，决策选择模块的输出端与协调控制模块的输出端相连，协调控制模块的输出端发送通信信说明书 CN 104376382 A 9 6/8 页 10 息 I(t+1) ； 0068 Agent 视野模块包括个体当前利益模块及环境认知特征模块，个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集，环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集；状态。

37、评估模块用于对时刻t收集到的邻居 Agent 信息评估自己的最佳响应状态集合，协调控制模块用于协调邻居 Agent 之间的行为，决定 Agent 是否要执行最佳策略或如何传递最佳策略。 0069 图 1 中状态评估模块是对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应状态集合 (Agent 的邻居可能有 1 个或多个 ) ；决策选择模块负责选出最佳策略；协调控制模块用于协调邻居 Agent 之间的行为，决定 Agent 是否要执行最佳策略或如何传递最佳策略。为了解决 ADCOPs 的不完全信息响应，兼顾个人利益和全局利益，本发明增加了 Agent 视野模块和。

38、预测模型模块。 Agent视野模块是Agent对自己和邻居的认知，在本发明中包括 Agent 当前状态、 Agent 收集到的自己和邻居的历史信息， Agent 的收益函数等。Agent 视野模块是Agent感知的外部世界，会随着信息的不断收集而变化。预测模型模块基于Agent视野预估最佳响应执行对其它 Agent 的影响，引导 Agent 做出最佳选择。图 1 中 I 表示 Agent 之间的通信信息，它影响着系统的稳定性和私密性。对于ADCOPs，通信信息不能包含或推算出 Agent 的私有收益函数 ( 矩阵 )。预测模型随着变化的 Agent 视野不断更新。Agent。

39、 i 预测模型 PM 描述如下： 0070 PM(Viewi,t,si,t+1):Viewi,t (si,t+1 0,1) 0071 其中， Viewi,t是 Agent i 在 t 时刻的视野， si,t+1表示状态评估后的最佳响应状态，即下一时刻可能的最佳策略。 0072 Agent 视野包含个体当前利益和环境认知特征两类信息；个体当前利益主要包括当前状态 si,t、邻居 Agent 状态 sj,t、与自己相关的约束收益函数 ( 矩阵 )。环境认知特征表示 Agent 对全局利益的认知。由于全局信息是不可知的，因此该特征只能通过邻居利益、邻居行为以及系统运行的可能规。

40、律来不断地感知可能的全局特征；从历史和全局的角度，对 Agent的每个状态做合理的评估。本发明采用影响因子IFi,t、状态出现频率和预测选择中的转移矩阵 Ai,j来表征环境认知特征。 0073 本发明提供了一种面向大规模多 Agent 系统的非对称分布式约束优化算法，如图 2 所示，其包括以下步骤： 0074 S1，根据具有非对称关系的 Agent 构造约束图，令 t 0， t 为时刻； 0075 S2，每个 Agent 随机选择状态信息 si,t，根据约束图向邻居 Agent 发送状态信息 si,t， i 为 Agent 的序号。需要说明的是， Agent i 为。

41、待计算 Agent，其邻居 Agent 为 Agent j，其中， i， j 均为正整数。 0076 S3，每个 Agent i 接收到邻居 Agentj 的状态信息 sj,t后，每个 Agenti 计算初始最佳响应状态 si,t+1后再计算增益信息 GIi,t并将增益信息 GIi,t发送到其邻居 Agent ；在本实施方式中，初始最佳响应 s i,t+1的计算方法为：说明书 CN 104376382 A 10 7/8 页 11 0077 增益信息 GIi,t的计算方法为： 0078 其中， j为j、 0或1， j表示邻居Agent j在系统中的影响程度， ui(j)表。

42、示Agent 的私有信息， Si表示 Agent 的状态信息集合， si是 Si中的一个状态信息， si,t表示在 t 时刻 Agent i 的状态信息， sj,t表示在 t 时刻邻居 Agent j 的状态信息， j 表示 Agent i 的邻居 Agent 的序号， v(i) 表示 Agent i 的邻居集合， si,t+1表示初始最佳响应。 0079 S4，每个 Agent 接收到所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状态信息 sj,t后，计算最佳响应 si,t+1，计算最佳响应 s i,t+1的预测概率 P 并产生一个随机概率 Pm，如果。

43、Pm P，则 si,t+1 si,t+1；否则 si,t+1 si,t；在实施方式中，最佳响应 si,t+1的计算方法为： 0080 影响因子 IFi,t 的计算方法为： 0081 状态出现频率的计算方法为： 0082 0083 其中， Ai,j为转移矩阵，是 agent i 在 0 到 t-1 时刻出现过的状态信息。 0084 S5，计算状态信息 si,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行 Agent 的状态改变；发送 si,t+1，令 t t+1 ；在实施方式中，状态出现频率的计算方法为： 0085 0086 其中。

44、，是 agent i 在 0 到 t-1 时刻出现过的状态信息， 0087 在本实施方式中，随机调度方法为：当 P Pp时， Agent i 执行最佳策略 , 其中， Pp为并发概率， Pp t/tmax；否则保持原来的策略；确定性调度的方法：当 GIi,t GIj,t时， Agent i 执行最佳策略；否则保持原来的策略。 0088 S6，当 t tmax，结束算法， tmax为允许的最大时刻；否则返回步骤 S3。 0089 本发明不仅可以用于 ADCOPs，也可用于 DCOPs 以及动态环境下的 DCOPs。 0090 在本发明的一种优选实施方式中，预测概。

45、率 P 的计算方法： 0091 N 1,2,n 为 Agent 集合，对于有约束关系的 Agent 对，定义元组 CM Si,j,GIi,j,Ai,j,i,j，具体元素为： 0092 Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合； 0093 GIi,j GIi,GIj 是状态对 Si,j对应的增益对；说明书 CN 104376382 A 11 8/8 页 12 0094 在时刻 t，设 si,sj状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布 0095 0096 其中，。

46、为观测增益对的样本均值， S 为观测增益对的样本方差，由样本均值及样本方差 S 构造变量 x， x 服从分布： 0097 0098 其中， Ai,j是转移矩阵， Ai,j alk， 0099 i,j是初始状态概率， i,j i,j， i,j P(Qt si,sj )， 0100 根据马尔可夫序列跳转至不同候选状态的预测概率： 0101 0102 在本说明书的描述中，参考术语 “一个实施例” 、“一些实施例” 、“示例” 、“具体示例” 、或 “一些示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。 0103 尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。说明书 CN 104376382 A 12 1/1 页 13 图 1 图 2 说明书附图 CN 104376382 A 13 。

展开阅读全文