《面向大规模多AGENT系统的非对称分布式约束优化算法及系统.pdf》由会员分享,可在线阅读,更多相关《面向大规模多AGENT系统的非对称分布式约束优化算法及系统.pdf(13页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410668722.4 (22)申请日 2014.11.18 G06Q 10/04(2012.01) (71)申请人 重庆大学 地址 400044 重庆市沙坪坝区沙正街 174 号 (72)发明人 陈自郁 陈民铀 张程 石美凤 李英豪 (74)专利代理机构 重庆市前沿专利事务所 ( 普 通合伙 ) 50211 代理人 郭云 (54) 发明名称 面向大规模多 Agent 系统的非对称分布式约 束优化算法及系统 (57) 摘要 本发明公开了一种面向大规模多 Agent 系统 的非对称分布式约束优化算法及系统, 包括以下 步骤 : S1,。
2、 构造约束图 ; S2, 每个Agent随机选择状 态信息si,t并发送到其邻居Agent ; S3, 每个Agent 计算初始最佳响应状态 si,t+1后再计算增益信 息 GIi,t并将所述增益信息 GI i,t发送到其邻居 Agent ; S4, 每个 Agent 计算最佳响应 si,t+1, 计 算最佳响应 si,t+1的预测概率 P 并产生一个随 机概率 Pm, 如果 Pm P, 则 s i,t+1 si,t+1; 否 则si,t+1si,t; S5, 每个Agent计算状态信息si,t+1 的状态出现频率如果则采用随机 调度方法 ; 否则采用确定性调度, 执行 Agent 的状 态改。
3、变 ; 发送 si,t+1,令 t t+1 ; S6, 当 t tmax, 结 束算法, 否则返回步骤 S3。本发明适用于大规模 多 Agent 的协调优化问题, 解决有用户偏好以及 不确定环境下多 Agent 系统的优化控制。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书8页 附图1页 (10)申请公布号 CN 104376382 A (43)申请公布日 2015.02.25 CN 104376382 A 1/3 页 2 1. 一种面向大规模多 Agent 系统的非对称分布式约束优化算法, 其特征在于, 包括以 下步骤 : S1,。
4、 根据具有非对称关系的 Agent 构造约束图, 令 t 0, 所述 t 为时刻 ; S2, 每个 Agent 随机选择状态信息 si,t, 根据约束图向邻居 Agent 发送所述状态信息 si,t, 所述 i 为 Agent 的序号 ; S3, 每个 Agent 接收到邻居 Agent 的状态信息 sj,t后, 所述每个 Agent 计算初始最佳响 应状态 s i,t+1, 计算增益信息 GIi,t并将所述增益信息 GIi,t发送到其邻居 Agent ; S4, 每个 Agent 接收到所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状态信 息 sj,t后, 计算最佳。
5、响应 si,t+1, 计算最佳响应 si,t+1的预测概率 P 并产生一个随机概率 Pm, 如果 Pm P, 则 si,t+1 s i,t+1; 否则 si,t+1 si,t; S5, 计算状态信息 si,t+1的状态出现频率如果则采用随机调度 ; 否则采 用确定性调度, 执行 Agent 的状态改变 ; 发送 si,t+1, 令 t t+1 ; S6, 当 t tmax, 结束算法, 所述 tmax为允许的最大时刻 ; 否则返回步骤 S3。 2. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 在步骤 S3 中, 所述 Agent i 只接。
6、收邻居 Agent 的状态信息 sj,t, 所述初始最佳响 应 s i,t+1的计算方法为 : 其中, j为 j、 0 或 1, 所述 j表示邻居 Agent j 在系统中的影响程度, ui(j)表示 Agent 的私有信息, Si表示 Agent 的状态信息集合, si是 Si中的一个状态信息, sj,t表示在 t 时刻邻居 Agent j 的状态信息, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表示 Agent i 的邻居集合。 3. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述增益信息 GIi,t的计算方。
7、法为 : 其中, ui(j)表示 Agent 的私有信息, s i,t+1表示初始最佳响应, sj,t表示在 t 时刻邻居 Agent j 的状态信息 ,si,t表示在 t 时刻 Agent 的状态信息, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表 Agent i 的邻居集合。 4. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述最佳响应 s i,t+1的计算方法为 : 其中, j为 j、 0 或 1, 所述 j表示邻居 Agent j 在系统中的影响程度, Ai,j为转移矩 阵, Si是 Agent 的状态信。
8、息集合, si是 Si中的一个状态信息, si,t是 t 时刻 Agent i 的状态 权 利 要 求 书 CN 104376382 A 2 2/3 页 3 信息, sj,t是 t 时刻邻居 Agent j 的状态信息, IFi,t是影响因子,是状态出现频率。 5. 根据权利要求 4 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述影响因子 IFi,t的计算方法为 : 其中, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表示 Agent i 的邻居集合, GIj,t是邻 居 Agent j 的增益信息。 6. 根据权利要求 1 或 4。
9、 所述的面向大规模多 Agent 系统的非对称分布式约束优化算 法, 其特征在于, 所述状态出现频率的计算方法为 : 是 agent i 在 0 到 t-1 时刻出现过的状态信息, 如果采用随机调度, 否则采用确定性调度。 7. 根据权利要求 6 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述随机调度的方法 : 当 P Pp时, Agent i 执行最佳策略 , 其中, Pp为并发概率, Pp t/tmax; 否则保持原来 的策略。 8. 根据权利要求 6 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述确定性调度的。
10、方法 : 当 GIi,t GIj,t时, Agent i 执行最佳策略 ; 否则保持原来的策略。 9. 根据权利要求 1 所述的面向大规模多 Agent 系统的非对称分布式约束优化算法, 其 特征在于, 所述预测概率 P 的计算方法 : N 1,2,n 为 Agent 集 合, 对 于 有 约 束 关 系 的 Agent 对, 定 义 元 组 CM Si,j,GIi,j,Ai,j,i,j, 具体元素为 : Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合 ; GIi,j GIi,GIj 是状态对 Si,j对应的增益对 ; 在时刻 t, 设 si,sj。
11、状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布 其中, 为观测增益对的样本均值, S 为观测增益对的样本方差, 由样本均值及样本 方差 S 构造变量 x, x 服从分布 : 权 利 要 求 书 CN 104376382 A 3 3/3 页 4 其中, Ai,j是转移矩阵, Ai,j alk, i,j是初始状态概率, i,j i,j, i,j P(Qt si,sj ), 根据马尔可夫序列跳转至不同候选状态的预测概率 : 10. 一种利用权利要求 1 所述面向大规模多 Agent 系统的非对称分布式约束优化算法 的系统, 其特征在于, 包括状。
12、态评估模块、 决策选择模块、 协调控制模块及 Agent 视野模块, 所述决策选择模块包括预测模型模块及策略生成模块 ; 所述预测模型模块的输出端与所述 策略生成模块的输入端相连, 所述预测模型模块用于对所述 Agent 视野模块进行最佳响应 状态预估并引导 Agent 做出最佳选择, 所述策略生成模块用于选出最佳响应状态的最佳策 略 ; 所述 Agent 视野模块的输入端接收邻居 Agent 的通信信息 I(t), 所述 Agent 视野模块 的输出端与所述状态评估模块的输入端相连, 所述状态评估模块的输出端与所述决策选择 模块的输入端相连, 所述决策选择模块的输出端与所述协调控制模块的输出。
13、端相连, 所述 协调控制模块的输出端发送通信信息 I(t+1) ; 所述 Agent 视野模块包括个体当前利益模块及环境认知特征模块, 所述个体当前利益 模块用于对 Agent 及邻居 Agent 的状态信息 si,t及与 Agent 相关的转移矩阵 A 的采集, 所 述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集 ; 所述状态评估模块 用于对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应状态集合, 所述协调控制模块 用于协调邻居 Agent 之间的行为, 决定 Agent 是否要执行最佳策略或如何传递最佳策略。 权 利 要 求 书 CN 104376382 A 4。
14、 1/8 页 5 面向大规模多 Agent 系统的非对称分布式约束优化算法及 系统 技术领域 0001 本发明涉及 Agent 系统的非对称分布式约束优化问题的求解, 特别是涉及一种面 向大规模多 Agent 系统的非对称分布式约束优化算法及系统, 适用于电力发电优化策略计 算, 尤其是微网配置问题的求解。 背景技术 0002 分 布 式 约 束 优 化 问 题 (Distributed Constraint Opt imization Problems,DCOPs) 是解决多 Agent 系统问题的一个基本框架。DCOPs 常用来作为多 Agent 协作问题的重要而有用的抽象, 可对多Age。
15、nt领域许多真实问题建模。 DCOPs强调利用本地 的局部交互获得全局的最优性, 是协调多个 Agent 解决分布式问题的有效技术, 已成为分 布式人工智能领域的研究热点。目前已逐步运用于任务调度、 资源分配、 传感器网络、 交通 管理、 微网配置等实际应用中。但是, 当前在这些应用领域中, 对于多 Agent 系统仍然使用 的是 “对称性” 特性, 即认为各 Agent 对与其有约束关系的其他 Agent 的特征、 取值 ( 策略 ) 空间及代价 ( 收益 ) 函数有准确的信息, 每个 Agent 没有个人的偏好信息和隐私性, 进而简 化了其求解的过程。 0003 但是, 在实际问题中, 大。
16、多数的多 Agent 系统都具有非对称特征, 即每个个体具有 自己的偏好且不希望与其他个体共享。例如, 在微网控制中, 每个分布式电源 (DG) 由于各 自的特性不同 ( 如风能或水电站电源等等 ), 彼此之间的影响是不同的, 在相同网络配置下 相邻 DG 的收益也不相同, 而每个 DG 并不清楚其他 DG 的收益情况。因此, 现实情况使得在 此类多 Agent 系统中, 需要充分考虑其非对称性特征。 0004 非 对 称 分 布 式 约 束 优 化 问 题 (Asymmetric Distributed Constraint Optimization Problems, ADCOPs) 是在。
17、分布式约束优化问题 (DCOPs) 的基础上增加了 非对称特性的新模型, 具有更强的建模能力和更好的工程应用前景。ADCOPs 由多元组 A,X,D,C 构成。其中 A A1,A2,.,Am 表示 m 个 Agent 的集合, Agent 负责给变量集 合 X 中的变量选择赋值 ; X x1,x2,.,xn 表示 n 个变量 ; D D1,D2,.,Dn 是一组离 散而有限的值域集合, Di表示 xi的值域 ; C 表示各变量之间的约束关系集合。C 中的约束关 系描述如下 : 0005 0006 u 称为代价函数或收益函数。以二元关系为例, 对于 ADCOPs 求解目标是 : 0007 000。
18、8 其中 ui(j),u(i)j:DiDj R+,ui(j),u(i)j uij。 说 明 书 CN 104376382 A 5 2/8 页 6 0009 公式 (2) 中 ui(j)和 u(i)j分别表示在 xi与 xj取相同赋值下, Agent 和邻居 Agent 得到的代价或收益, 并且 ui(j)和 u(i)j是 Agent 和邻居 Agent 的私有信息, 彼此不共 享。由于 ADCOPs 多用于多 Agent 系统的决策优化中, 因此在实际应用中, 决策集合 S S1,S2,.,Sn 取代 D 作为实际值域集合。从上述公式可见, ADCOPs 中具有非对称关系的 各Agent, 虽。
19、然彼此影响, 但各自的影响情况(代价或收益)是不同的, 并且该情况彼此不共 享。很多有非对称关系的多 Agent 系统能较方便地用 ADCOPs 建模, 然而对 ADCOPs 的求解 较困难。 发明内容 0010 本发明旨在至少解决现有技术中存在的技术问题, 特别创新地提出了一种面向大 规模多 Agent 系统的非对称分布式约束优化算法及系统。 0011 为了实现本发明的上述目的, 本发明提供了一种面向大规模多 Agent 系统的非对 称分布式约束优化算法, 包括以下步骤 : 0012 S1, 根据具有非对称关系的 Agent 构造约束图, 令 t 0, 所述 t 为时刻 ; 0013 S2,。
20、 每个 Agent 随机选择状态信息 si,t, 根据约束图向邻居 Agent 发送所述状态信 息 si,t, 其中, i 为 Agent 的序号, 在本实施方式中, 每个 Agent 随机选择状态信息 si,t是指 : 每个 Agent 的状态信息具有一个设定的取值范围, 从这个取值范围内随机选择一个状态信 息 si,t。 0014 S3, 每个 Agent 接收到邻居 Agent 的状态信息 sj,t后, 所述每个 Agent 计算初始最 佳响应状态 si,t+1后再计算增益信息 GIi,t并将所述增益信息 GIi,t发送到其邻居 Agent ; 0015 S4, 每个 Agent 接收到。
21、所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状 态信息 si,t后, 计算最佳响应 si,t+1, 计算最佳响应 si,t+1的预测概率 P 并产生一个随机概 率 Pm, 如果 Pm P, 则 si,t+1 si,t+1; 否则 si,t+1 si,t; 0016 在分布式控制问题中, 每个Agent与邻居Agent交换信息, 然后自主地进行优化决 策, 因此对其算法的设计主要在信息交换机制和各 Agent 的内部处理上。本发明采用同步 的信息交换机制, 即各 Agent 发送完 t 时刻的个人决策信息后, 只有接收到全部邻居 Agent 在 t 时刻的个人决策信息。
22、后才进行内部新的决策处理。 0017 S5, 计算状态信息 si,t+1的状态出现频率如果则采用随机调度 ; 否 则采用确定性调度, 执行 Agent 的状态改变 ; 发送 si,t+1, 令 t t+1 ; 0018 S6, 当 t tmax, 结束算法, 所述 tmax为允许的最大时刻 ; 否则返回步骤 S3。 0019 本发明适用于大规模多 Agent 的协调优化问题, 可以解决有用户偏好以及不确定 环境下多 Agent 系统的优化控制。Agent 通过网络连接, 交换信息, 相互协作完成共同的任 务。单独 Agent 只与有连接关系的 Agent( 邻居 Agent) 之间进行信息共享。
23、, 且个体 Agent 能根据自身的周围环境以及目标自主做出决策, 而不受其他 Agent 的限制。Agent 与 Agent 之间存在竞争和合作关系, 通过自身协调来解决目标与行为之间的冲突。 0020 在本发明的一种优选实施方式中, 在步骤 S3 中, 所述 Agent i 只接收邻居 Agent 的状态信息 sj,t, 所述初始最佳响应 si,t+1的计算方法为 : 0021 说 明 书 CN 104376382 A 6 3/8 页 7 0022 0023 其中, j为 j、 0 或 1, 所述 j表示邻居 Agent j 在系统中的影响程度, ui(j)表 示 Agent 的私有信息,。
24、 Si表示 Agent 的状态信息集合, si是 Si中的一个状态信息, sj,t表示 在 t 时刻邻居 Agent j 的状态信息, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表示 Agent i 的邻居集合。 0024 在本发明的一种优选实施方式中, 所述增益信息 GIi,t的计算方法为 : 0025 0026 其中, ui(j)表示 Agent 的私有信息, si,t+1表示初始最佳响应或最佳响应, sj,t表示 在 t 时刻邻居 Agent j 的状态信息 ,si,t表示在 t 时刻 Agent 的状态信息, j 表示 Agent i 的邻居 Agent 的序号。
25、, v(i) 表 Agent i 的邻居集合。 0027 本发明引入增益信息GIi,t能够有效地对决策进行预测。 具有预测能力的ADCOP近 似算法新框架和相应算法, 较好的解决 Agent 不完全信息的响应、 双向代价求解和个体收 益的私密性等问题。 0028 在本发明的一种优选实施方式中, 所述最佳响应 si,t+1的计算方法为 : 0029 0030 0031 其中, j为 j、 0 或 1, 所述 j表示邻居 Agentj 在系统中的影响程度, Ai,j为转 移矩阵, Si是 Agent 的状态信息集合, si是 Si中的一个状态信息, si,t是 t 时刻 Agent i 的 状态信。
26、息, sj,t是 t 时刻邻居 Agent j 的状态信息, IFi,t是影响因子,是状态出现频率。 0032 在本发明的一种优选实施方式中, 所述影响因子 IFi,t的计算方法为 : 0033 0034 其中, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表示 Agent i 的邻居集合, GIj,t 是邻居 Agent j 的增益信息。 0035 在本发明的一种优选实施方式中, 所述状态出现频率的计算方法为 : 0036 0037 0038 是 agent i 在 0 到 t-1 时刻出现过的状态信息, 0039 如果采用随机调度, 否则采用确定性调度。 0040 在。
27、本发明的一种优选实施方式中, 所述随机调度的方法 : 说 明 书 CN 104376382 A 7 4/8 页 8 0041 当 P Pp时, Agent i 执行最佳策略 , 其中, Pp为并发概率, Pp t/tmax; 否则保持 原来的策略。 0042 在本发明的一种优选实施方式中, 所述确定性调度的方法 : 0043 当 GIi,t GIj,t时, Agent i 执行最佳策略 ; 否则保持原来的策略。 0044 在本发明的一种优选实施方式中, 所述预测概率 P 的计算方法 : 0045 N 1,2,n 为 Agent 集合, 对于有约束关系的 Agent 对, 定义元组 CM Si,。
28、j,GIi,j,Ai,j,i,j, 具体元素为 : 0046 Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合 ; 0047 GIi,j GIi,GIj 是状态对 Si,j对应的增益对 ; 0048 在时刻 t, 设 si,sj状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布 0049 0050 其中, 为观测增益对的样本均值, S 为观测增益对的样本方差, 由样本均值及 样本方差 S 构造变量 x, x 服从分布 : 0051 0052 其中, Ai,j是转移矩阵, Ai,j alk, 0053。
29、 i,j是初始状态概率, i,j i,j, i,j P(Qt si,sj ), 0054 根据马尔可夫序列跳转至不同候选状态的预测概率 : 0055 0056 每个 Agent i 将根据该联合概率给出的预测结果来决定自己在 t+1 时刻的策略。 0057 此外, 由于增益对GIi,GIj的优劣是可知的, 因此转移矩阵Ai,j的跳转方向(系 统变好或变坏 ) 及跳转概率都可以确定, 将 Ai,j的跳转方向及概率大小反馈到环境认知特 征的构建中, 能更准确地刻画当前环境下各状态的影响情况, 从而使系统状态不断地往好 的方向前进。 0058 对于该模型的参数求解, 本发明利用 Baum-Welch。
30、 算法使模型和给定的观测序列 更加匹配。Baum-Welch 算法采用递归的思想, 使 P(|O) 达到局部极大, 最后得到模型参 数。Baum-Welch 算法思想类似 EM 算法, 它可以从非完整数据集中对参数进行最大似然估 计, 是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、 截尾数 据、 带有噪声等不完全数据(incomplete data)。 除此之外, 本发明中的观测数据序列较少, 进一步减少了算法进行参数估计的时间, 提高模型求参的效率。 0059 本发明公开了一种面向大规模多 Agent 系统的非对称分布式约束优化算法的系 统, 包括状态评估模块、 决策选。
31、择模块、 协调控制模块及 Agent 视野模块, 所述决策选择模 块包括预测模型模块及策略生成模块 ; 所述预测模型模块的输出端与所述策略生成模块的 输入端相连, 所述预测模型模块用于对所述 Agent 视野模块进行最佳响应状态预估并引导 说 明 书 CN 104376382 A 8 5/8 页 9 Agent 做出最佳选择, 所述策略生成模块用于选出最佳响应状态的最佳策略 ; 所述 Agent 视 野模块的输入端接收邻居 Agent 的通信信息 I(t), 所述 Agent 视野模块的输出端与所述 状态评估模块的输入端相连, 所述状态评估模块的输出端与所述决策选择模块的输入端相 连, 所述决。
32、策选择模块的输出端与所述协调控制模块的输出端相连, 所述协调控制模块的 输出端发送通信信息 I(t+1) ; 所述 Agent 视野模块包括个体当前利益模块及环境认知特征 模块, 所述个体当前利益模块用于对 Agent 及邻居 Agent 的状态信息 si,t及与 Agent 相关 的转移矩阵A的采集, 所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采 集 ; 所述状态评估模块用于对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应状态集 合, 所述协调控制模块用于协调邻居Agent之间的行为, 决定Agent是否要执行最佳策略或 如何传递最佳策略。 0060 综上所述,。
33、 由于采用了上述技术方案, 本发明的有益效果是 : 本发明适用于大规模 多 Agent 的协调优化问题, 可以解决有用户偏好以及不确定环境下多 Agent 系统的优化控 制并解决了 Agent 不完全信息的响应、 双向代价求解和个体收益的私密性等问题。 附图说明 0061 图 1 是本发明 Agent 结构示意图。 0062 图 2 是本发明 Agent 算法框架示意图。 具体实施方式 0063 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附 图描述的实施例是示例性的, 仅用于解释本发。
34、明, 而不能理解为对本发明的限制。 0064 在本发明的描述中, 需要理解的是, 术语 “纵向” 、“横向” 、“上” 、“下” 、“前” 、“后” 、 “左” 、“右” 、“竖直” 、“水平” 、“顶” 、“底” “内” 、“外” 等指示的方位或位置关系为基于附图所 示的方位或位置关系, 仅是为了便于描述本发明和简化描述, 而不是指示或暗示所指的装 置或元件必须具有特定的方位、 以特定的方位构造和操作, 因此不能理解为对本发明的限 制。 0065 在本发明的描述中, 除非另有规定和限定, 需要说明的是, 术语 “安装” 、“相连” 、 “连接” 应做广义理解, 例如, 可以是机械连接或电连接。
35、, 也可以是两个元件内部的连通, 可 以是直接相连, 也可以通过中间媒介间接相连, 对于本领域的普通技术人员而言, 可以根据 具体情况理解上述术语的具体含义。 0066 本发明公开了一种面向大规模多 Agent 系统的非对称分布式约束优化算法的系 统, 如图 1 所示, 包括状态评估模块、 决策选择模块、 协调控制模块及 Agent 视野模块, 决策 选择模块包括预测模型模块及策略生成模块 ; 预测模型模块的输出端与策略生成模块的输 入端相连, 预测模型模块用于对 Agent 视野模块进行最佳响应状态预估并引导 Agent 做出 最佳选择, 策略生成模块用于选出最佳响应状态的最佳策略 ; 00。
36、67 Agent视野模块的输入端接收邻居Agent的通信信息I(t), Agent视野模块的输出 端与状态评估模块的输入端相连, 状态评估模块的输出端与决策选择模块的输入端相连, 决策选择模块的输出端与协调控制模块的输出端相连, 协调控制模块的输出端发送通信信 说 明 书 CN 104376382 A 9 6/8 页 10 息 I(t+1) ; 0068 Agent 视野模块包括个体当前利益模块及环境认知特征模块, 个体当前利益模块 用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集, 环境认知 特征模块用于对影响因子IFi,t及状态出现频率的采集 ; 状态。
37、评估模块用于对时刻t收 集到的邻居 Agent 信息评估自己的最佳响应状态集合, 协调控制模块用于协调邻居 Agent 之间的行为, 决定 Agent 是否要执行最佳策略或如何传递最佳策略。 0069 图 1 中状态评估模块是对时刻 t 收集到的邻居 Agent 信息评估自己的最佳响应 状态集合 (Agent 的邻居可能有 1 个或多个 ) ; 决策选择模块负责选出最佳策略 ; 协调控制 模块用于协调邻居 Agent 之间的行为, 决定 Agent 是否要执行最佳策略或如何传递最佳策 略。为了解决 ADCOPs 的不完全信息响应, 兼顾个人利益和全局利益, 本发明增加了 Agent 视野模块和。
38、预测模型模块。 Agent视野模块是Agent对自己和邻居的认知, 在本发明中包括 Agent 当前状态、 Agent 收集到的自己和邻居的历史信息, Agent 的收益函数等。Agent 视野 模块是Agent感知的外部世界, 会随着信息的不断收集而变化。 预测模型模块基于Agent视 野预估最佳响应执行对其它 Agent 的影响, 引导 Agent 做出最佳选择。图 1 中 I 表示 Agent 之间的通信信息, 它影响着系统的稳定性和私密性。 对于ADCOPs, 通信信息不能包含或推算 出 Agent 的私有收益函数 ( 矩阵 )。预测模型随着变化的 Agent 视野不断更新。Agent。
39、 i 预测模型 PM 描述如下 : 0070 PM(Viewi,t,si,t+1):Viewi,t (si,t+1 0,1) 0071 其中, Viewi,t是 Agent i 在 t 时刻的视野, si,t+1表示状态评估后的最佳响应状 态, 即下一时刻可能的最佳策略。 0072 Agent 视野包含个体当前利益和环境认知特征两类信息 ; 个体当前利益主要包括 当前状态 si,t、 邻居 Agent 状态 sj,t、 与自己相关的约束收益函数 ( 矩阵 )。环境认知特征表 示 Agent 对全局利益的认知。由于全局信息是不可知的, 因此该特征只能通过邻居利益、 邻 居行为以及系统运行的可能规。
40、律来不断地感知可能的全局特征 ; 从历史和全局的角度, 对 Agent的每个状态做合理的评估。 本发明采用影响因子IFi,t、 状态出现频率和预测选择 中的转移矩阵 Ai,j来表征环境认知特征。 0073 本发明提供了一种面向大规模多 Agent 系统的非对称分布式约束优化算法, 如图 2 所示, 其包括以下步骤 : 0074 S1, 根据具有非对称关系的 Agent 构造约束图, 令 t 0, t 为时刻 ; 0075 S2, 每个 Agent 随机选择状态信息 si,t, 根据约束图向邻居 Agent 发送状态信息 si,t, i 为 Agent 的序号。需要说明的是, Agent i 为。
41、待计算 Agent, 其邻居 Agent 为 Agent j, 其中, i, j 均为正整数。 0076 S3, 每个 Agent i 接收到邻居 Agentj 的状态信息 sj,t后, 每个 Agenti 计算 初始最佳响应状态 si,t+1后再计算增益信息 GIi,t并将增益信息 GIi,t发送到其邻居 Agent ; 在本实施方式中, 初始最佳响应 s i,t+1的计算方法为 : 说 明 书 CN 104376382 A 10 7/8 页 11 0077 增益信息 GIi,t的计算方法为 : 0078 其中, j为j、 0或1, j表示邻居Agent j在系统中的影响程度, ui(j)表。
42、示Agent 的私有信息, Si表示 Agent 的状态信息集合, si是 Si中的一个状态信息, si,t表示在 t 时刻 Agent i 的状态信息, sj,t表示在 t 时刻邻居 Agent j 的状态信息, j 表示 Agent i 的邻居 Agent 的序号, v(i) 表示 Agent i 的邻居集合, si,t+1表示初始最佳响应。 0079 S4, 每个 Agent 接收到所有邻居 Agent 的增益信息 GIj,t及所有邻居 Agent 的的状 态信息 sj,t后, 计算最佳响应 si,t+1, 计算最佳响应 s i,t+1的预测概率 P 并产生一个随机 概率 Pm, 如果 。
43、Pm P, 则 si,t+1 si,t+1; 否则 si,t+1 si,t; 在实施方式中, 最佳响应 si,t+1的 计算方法为 : 0080 影 响 因 子 IFi,t 的计算方法为 : 0081 状态出现频率的计算方法为 : 0082 0083 其中, Ai,j为转移矩阵, 是 agent i 在 0 到 t-1 时刻出现过的状态信息。 0084 S5, 计算状态信息 si,t+1的状态出现频率如果则采用随机调度 ; 否则 采用确定性调度, 执行 Agent 的状态改变 ; 发送 si,t+1, 令 t t+1 ; 在实施方式中, 状态出现 频率的计算方法为 : 0085 0086 其中。
44、, 是 agent i 在 0 到 t-1 时刻出现过的状态信息, 0087 在本实施方式中, 随机调度方法为 : 当 P Pp时, Agent i 执行最佳策略 , 其中, Pp为并发概率, Pp t/tmax; 否则保持原来的策略 ; 确定性调度的方法 : 当 GIi,t GIj,t时, Agent i 执行最佳策略 ; 否则保持原来的策略。 0088 S6, 当 t tmax, 结束算法, tmax为允许的最大时刻 ; 否则返回步骤 S3。 0089 本发明不仅可以用于 ADCOPs, 也可用于 DCOPs 以及动态环境下的 DCOPs。 0090 在本发明的一种优选实施方式中, 预测概。
45、率 P 的计算方法 : 0091 N 1,2,n 为 Agent 集合, 对于有约束关系的 Agent 对, 定义元组 CM Si,j,GIi,j,Ai,j,i,j, 具体元素为 : 0092 Si,j si,sj |si Si,sj Sj 是 Agent i 与 j 相关的状态对集合 ; 0093 GIi,j GIi,GIj 是状态对 Si,j对应的增益对 ; 说 明 书 CN 104376382 A 11 8/8 页 12 0094 在时刻 t, 设 si,sj状态下出现观测增益对 P(Ot GIi,GIj |Qt si,sj ) 服从 student-t 分布 0095 0096 其中,。
46、 为观测增益对的样本均值, S 为观测增益对的样本方差, 由样本均值及 样本方差 S 构造变量 x, x 服从分布 : 0097 0098 其中, Ai,j是转移矩阵, Ai,j alk, 0099 i,j是初始状态概率, i,j i,j, i,j P(Qt si,sj ), 0100 根据马尔可夫序列跳转至不同候选状态的预测概率 : 0101 0102 在本说明书的描述中, 参考术语 “一个实施例” 、“一些实施例” 、“示例” 、“具体示 例” 、 或 “一些示例” 等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中, 对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且, 描述的具体特征、 结构、 材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。 0103 尽管已经示出和描述了本发明的实施例, 本领域的普通技术人员可以理解 : 在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、 修改、 替换和变型, 本 发明的范围由权利要求及其等同物限定。 说 明 书 CN 104376382 A 12 1/1 页 13 图 1 图 2 说 明 书 附 图 CN 104376382 A 13 。