《高压输电线路除冰机器人自主抓线控制方法.pdf》由会员分享,可在线阅读,更多相关《高压输电线路除冰机器人自主抓线控制方法.pdf(18页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN101954638A43申请公布日20110126CN101954638ACN101954638A21申请号201010511402X22申请日20101018B25J13/00200601H02G7/1620060171申请人湖南大学地址410082湖南省长沙市岳麓区麓山南路2号72发明人王耀南魏书宁印峰张辉杨易旻谭磊曹文明74专利代理机构长沙市融智专利事务所43114代理人黄美成54发明名称高压输电线路除冰机器人自主抓线控制方法57摘要本发明公开了一种高压输电线路除冰机器人自主抓线控制方法,通过设定状态集、动作集、Q表和回报函数,建立增强学习系统。该系统选择一个动作A作用。
2、于环境,接受该动作后环境转移到下一个状态S,同时给出评价信号R,如果R满足一定条件则终止控制,否则增强学习系统将根据评价信号和状态S通过行为选择策略决定下一个动作A,更新Q表后进入下一次迭代。该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的复杂性等带来的影响,可实时在线地调整手臂末端的位姿,实现手臂快速准确地抓线,并且不需要人为远程控制,从而达到自主抓线控制的目的。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书11页附图4页CN101954638A1/2页21一种高压输电线路除冰机器人自主抓线控制方法,其特征在于通过设定状态集、动作集、。
3、Q表和回报函数,建立增强学习系统;该增强学习系统选择一个动作A作用于环境,接受动作A后环境转移到下一个状态S,同时给出评价信号R,R又称为回报函数值,如果R满足一定条件则终止控制,否则增强学习系统将根据评价信号R和状态S通过行为选择策略决定下一个动作A,更新Q表后进入下一次迭代。2根据权利要求1所述的高压输电线路除冰机器人自主抓线控制方法,其特征在于,所述的建立增强学习系统的过程为步骤1建立状态集三手臂除冰机器人在越障时,总是保持一个手臂脱线,称为脱线手臂,另外两个手臂悬挂在线上,悬挂在线上的手臂电机驱动机器人前进,脱线手臂待越过障碍后再抓线;以脱线手臂的基座为坐标系原点建立坐标系,脱线手臂最。
4、大活动范围的外边缘为弧线,该弧线与输电线的交点坐标记为XR,YR,输电线上防震锤外侧的竖直方向的垂线与输电线的交点坐标记为XL,YL,点XR,YR和点XL,YL之间的线段为有效线段,目标点为有效线段中心点,坐标记为XF,YF,脱线手臂末端位置坐标为XT,YT;除冰机器人抓线控制的环境状态以SX,Y表示,其中X,Y1,0,1;则状态集为S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1;步骤2建立动作集定义动作A,其中AI对应除冰机器人抓线手臂的第I个手臂关节的关节转角,其中,I1,2,3,三个手臂关节的动作集统一设为A4,3,2,1,0,1,2,3,4,即AIA,动作集A。
5、中元素的物理意义是元素的单位为度,正号表示关节朝顺时针方向转动,负号表示关节朝逆时针方向转动;步骤3建立Q表为三关节手臂的每一个关节建立QI表即Q表,I1,2,3,定义Q,QI表是一个9X9维的矩阵,其中记录了在状态S和在状态S下选择动作AI所预期获得的累积奖赏I1,2,3,其中,E表示数学期望值,为折扣因子,0,1;步骤4建立回报函数脱线手臂触碰到输电线,接触传感器给出开关信号认为抓线成功,否则为抓线失败,以蔓叶线近似表示输电线,蔓叶线方程为Y2X3/2CX,C为常数;回报函数公式为其中DIST1XFXT2YFYT2,DIST2XTXL2YTYL2,DIST3XTXR2YTYR,DISTDI。
6、ST1DIST2DIST3。3根据权利要求1或2所述的高压输电线路除冰机器人自主抓线控制方法,其特征在于,所述的迭代控制过程为步骤A初始化将Q表初始化为0矩阵,给下列参数赋值、;表示学习率,0,1,它决定了学习过程中调整策略的程度;表示随机动作的选择概率,0,1;由摄像机标权利要求书CN101954638A2/2页3定XF,YF、XT,YT、XL,YL、XR,YR;根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态S,初始化动作A,即手臂保持不动;步骤B执行动作执行动作A,控制手臂三个关节转动相应的角度;步骤C计算回报值R并判断终止条件由于每个机器手臂肩部都装有摄像机,通过图像处。
7、理技术,识别出机器手臂末端执行动作后的位置坐标XT,YT,将XT,YT代入回报函数公式,计算出回报值R;判断回报值R符号,如果为正,表明抓线成功,控制终止,否则执行步骤D;步骤D确定下一个状态S;具体步骤如下求出手臂末端和目标点的相对距离为DXFXTYFYT,并求出其符号函数值XSIGND,SIGN表示符号函数,功能是提取某个数的符号,取值为1或1;通过状态集求出状态S从状态集SSX,Y|1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1中选出一个状态S,与符号函数值X的欧氏距离最小,即步骤E通过Q表选择对应最大Q值的动作A通过查表的方法在关节I的QI表中查出S状态下对应最。
8、大Q值的动作,I1,2,3即从而A;步骤F根据GREEDY策略选择动作以概率在动作集中随机选取动作AAA,令AA;以概率1保持A不变;步骤G更新;具体步骤如下按照下列Q值的更新公式QS,AQS,ARQS,AQS,A,其中QS,A表示对应状态S和动作A的Q值;SS,AA,即将S赋值给S,将A赋值给A;步骤H转步骤B。权利要求书CN101954638A1/11页4高压输电线路除冰机器人自主抓线控制方法技术领域0001本发明属于机器人智能的控制技术领域,涉及一种高压输电线路除冰机器人自主抓线控制方法。技术背景0002输电线大量结冰将大大增加输电线塔承受的张力负荷,严重时会导致杆塔倾斜、倒塌、断线及绝。
9、缘子闪络,以及因不均匀覆冰和不同期脱冰所引起的导线舞动等现象,并由此引起线路跳闸、供电中断等事故,给工农业生产和人们生活造成严重影响。0003目前技术上较成熟的是大电流热融除冰方法,多年以来在相关地区电网投入于实际应用并获得了很多宝贵经验,但在实际运用中操作复杂,融冰电流大小不易把握,效率与能耗不能兼顾。此外,还有人工除冰方法,能耗低,除冰方法灵活,但效率较低且具有一定的危险性。和上述传统除冰方法相比,采用机器人除冰具有无人员伤亡、无需停电和转移负载、可连续作业等优点。无需除冰作业时,还可作为巡线即在输电线上巡视检查,掌握和了解输电线路的运行情况用途,因此利用除冰机器人除冰是目前输电线路除冰技。
10、术的发展趋势之0004除冰机器人无论是做除冰还是巡线用途,自主跨越输电线上的障碍物防震锤、绝缘子、悬垂线夹等是设计中的重要组成部分。除冰机器人一股至少具有两个手臂,通过手臂交替脱线和抓线动作实现机器人的整体越障。目前控制除冰机器人越障的方法主要有以下几种以知识库的方式将离线规划好的机器人动作序列存储在机器人主控机中,越障时根据传感器的反馈信息,并结合知识库进行越障动作规划。但是由于障碍物类型的多样性和实际位姿的不可预知性,离线规划好准确的越障行为控制策略非常困难;视觉导航方法,即基于单目视觉或双目视觉进行图像重构,提取图像特征进行视觉伺服导航。但是为了将障碍物与背景分开,需要巨大的图像计算量,。
11、导致系统实时性较差;采用激光传感器进行机器人导航和抓线精确控制,可实现无接触远距离测量、速度快,但其测量过程受其他杂散光的影响较大。现有方法中,均假设输电线相邻两杆塔之间的水平距离很大,机器人手臂之间的输电线为直线,即与机器人箱体长度方向水平,而实际工程中输电线为悬垂角为525不等的“悬链线”,这本身就存在一定的误差,加上风力作用、加工误差、机械振动等原因可能导致机器人手臂在越障过程中抓线不成功,而现有方法缺少在线学习及调整的功能。0005本专利的研究对象是三关节手臂除冰机器人。除冰机器人携带有摄像机,借助控制器里的图像处理单元,能够完成对监控对象空间位置坐标的标定。在机器人手臂末端搭载除冰装。
12、置并安装有接触传感器,传感器给出的开关信号是判断是否抓线成功的依据。针对机器人手臂在越障过程中可能会存在脱线情况,以及考虑到输电线柔性特点和外界不确定性因素的影响,采用传统控制方法难以保证其控制精度,同时由于算法本身过于复杂而无法满足工程应用对实时性的要求。因此如何设计一种简单可靠、实时性好、便于实现的机器人手臂自主抓线控制方法是保证除冰机器人正常工作的关键。说明书CN101954638A2/11页5发明内容0006本发明的目的在于提供一种基于SARSA算法算法中每次迭代用到的五元组ST,AT,RT1,ST1,AT1,因此,该算法命名为SARSA算法的增强学习系统的除冰机器人抓线控制方即高压输。
13、电线路除冰机器人自主抓线控制方法,该控制方法能够克服由于机器自身模型误差、机器手臂末端位姿的不确定性和环境复杂性等带来的影响,可实时在线地调整手臂末端的位姿,实现手臂快速准确地抓线,并且不需要人为远程控制,从而达到较高控制精度。0007本发明的技术解决方案如下0008一种高压输电线路除冰机器人自主抓线控制方法,包括以下步骤0009通过设定状态集、动作集、Q表和回报函数,建立增强学习系统;该增强学习系统选择一个动作A作用于环境,接受动作A后环境转移到下一个状态S,同时给出评价信号R,R又称为回报函数值,如果R满足一定条件则终止控制,否则增强学习系统将根据评价信号R和状态S通过行为选择策略决定下一。
14、个动作A,更新Q表后进入下一次迭代。0010该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的复杂性等带来的影响,可实时在线地调整手臂末端的位姿,实现手臂快速准确地抓线,并且不需要人为远程控制,从而达到自主抓线控制的目的。0011所述的建立增强学习系统的过程为0012步骤1建立状态集0013三手臂除冰机器人在越障时,总是保持一个手臂脱线,称为脱线手臂,另外两个手臂悬挂在线上,悬挂在线上的手臂电机驱动机器人前进,脱线手臂待越过障碍后再抓线;以脱线手臂的基座为坐标系原点建立坐标系,脱线手臂最大活动范围的外边缘为弧线,该弧线与输电线的交点坐标记为XR,YR,输电线上防震锤外侧的竖。
15、直方向的垂线与输电线的交点坐标记为XL,YL,点XR,YR和点XL,YL之间的线段为有效线段,目标点为有效线段中心点,坐标记为XF,YF,脱线手臂末端位置坐标为XT,YT;0014除冰机器人抓线控制的环境状态以SX,Y表示,其中X,Y1,0,1;则状态集为S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1;0015步骤2建立动作集0016定义动作A,其中AI对应除冰机器人抓线手臂的第I个手臂关节的关节转角,其中,I1,2,3,三个手臂关节的动作集统一设为A4,3,2,1,0,1,2,3,4,即AIA,动作集A中元素的物理意义是元素的单位为度,正号表示关节朝顺时针方向转动,。
16、负号表示关节朝逆时针方向转动;0017步骤3建立Q表0018为三关节手臂的每一个关节建立QI表即Q表,I1,2,3,定义Q,QI表是一个9X9维的矩阵,其中记录了在状态S和在状态S下选择动作AI所预期获得的累积奖赏I1,2,3,其中,E表示数学期望值,为折扣因子,0,1;0019步骤4建立回报函数说明书CN101954638A3/11页60020脱线手臂触碰到输电线,接触传感器给出开关信号认为抓线成功,否则为抓线失败,以蔓叶线近似表示输电线,蔓叶线方程为Y2X3/2CX,C为常数;回报函数公式为00210022其中DIST1XFXT2YFYT2,DIST2XTXL2YTYL2,DIST3XTX。
17、R2YTYR,DISTDIST1DIST2DIST3。0023所述的迭代控制过程为0024步骤A初始化0025将Q表初始化为0矩阵,给下列参数赋值、;表示学习率,0,1,它决定了学习过程中调整策略的程度;表示随机动作的选择概率,0,1;由摄像机标定XF,YF、XT,YT、XL,YL、XR,YR;根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态S,初始化动作A,即手臂保持不动;0026步骤B执行动作0027执行动作A,控制手臂三个关节转动相应的角度;0028步骤C计算回报值R并判断终止条件0029由于每个机器手臂肩部都装有摄像机,通过图像处理技术,识别出机器手臂末端执行动作后的位。
18、置坐标XT,YT,将XT,YT代入回报函数公式,计算出回报值R;判断回报值R符号,如果为正,表明抓线成功,控制终止,否则执行步骤D;0030步骤D确定下一个状态S;具体步骤如下0031求出手臂末端和目标点的相对距离为DXFXTYFYT,并求出其符号函数值XSIGND,SIGN表示符号函数,功能是提取某个数的符号,取值为1或1;00320对应的符号函数值为1,在本专利方法中只需提取出手臂末端和目标点的相对距离的符号值,不需要具体的数值,从而大大减少了图像的计算量。0033通过状态集求出状态S从状态集SSX,Y|1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1中选出一个状态S。
19、,与符号函数值X的欧氏距离最小,即0034步骤E通过Q表选择对应最大Q值的动作A0035通过查表的方法在关节I的QI表中查出S状态下对应最大Q值的动作,I1,2,3即从而A;0036步骤F根据GREEDY策略选择动作0037以概率在动作集中随机选取动作AAA,令AA;以概率1保持A不变;0038步骤G更新;具体步骤如下0039按照下列Q值的更新公式QS,AQS,ARQS,AQS,A,其中QS,A表示对应状态S和动作A的Q值;0040SS,AA,即将S赋值给S,将A赋值给A;0041步骤H转步骤B。说明书CN101954638A4/11页70042本发明的技术构思为0043以一种具有三个机械手臂。
20、的除冰机器人为控制对象,结合三关节手臂运动学理论,以增强学习SARSA算法控制手臂抓线。针对输电线为柔性弧线的特点,设计了相应的回报函数并验证其有效性。具体步骤为00441、建立增强学习系统。0045除冰机器人抓线控制所处环境可描述为一个有限状态的离散马尔科夫过程,本发明基于增强学习SARSA算法控制三关节手臂进行抓线通过设定状态集、动作集、Q表和回报函数,建立增强学习系统。该增强学习系统选择一个动作A作用于环境,环境接受该动作后转移到下一个状态S,同时给出评价信号R即回报函数值,如果R满足一定条件则终止控制,否则增强学习系统根据评价信号和状态S通过行为选择策略决定下一个动作A,更新Q表后进入。
21、下一次迭代。基于SARSA算法设计一个增强学习系统时,首先需要建立相应的状态集和动作集,并根据状态集和动作集建立Q值查找表简称Q表,同时需要建立正确的回报函数。下面以除冰机器人为控制对象,对本专利提出的增强学习系统的建立步骤做详细的说明。004611建立状态集。0047所述的除冰机器人为三手臂机器人,分别为手臂一、手臂二和手臂三,如图2所示。其中手臂一和手臂二为可在平面内旋转的三关节手臂,是专利中的研究对象,由于具有相同的结构,在分析中不加区分。手臂三为具有一个伸缩关节的手臂,起到辅助和平衡重心的作用,在专利中不作研究。越障时,三个手臂依次完成脱线从底部跨越障碍物抓线的动作。三手臂机器人在越障。
22、时,总是一个手臂手臂一或手臂二脱线,称为脱线手臂,另外两个手臂悬挂在线上,悬挂在线上的手臂电机驱动机器人巡线前进,脱线手臂待越过障碍后再抓线。由于悬挂在线上的手臂起到了固定箱体的作用,脱线手臂在抓线过程中机器人箱体、脱线手臂的基座、障碍物和输电线之间的位置是相对静止的,因此能够以脱线手臂的基座为坐标系原点建立一个坐标系,如图4所示。该坐标系中,抓线手臂的基座为坐标系原点,两个虚线半圆之间的范围为三关节手臂能够触及的范围,外侧虚线半圆与输电线的交点坐标为XR,YR。图中障碍物边侧垂直的虚线为不触及障碍物的极限位置在专利中以防震锤为例,与输电线的交点坐标为XL,YL。在抓线控制过程中,定义输电线X。
23、R,YR和XL,YL之间的线段为有效线段,有效线段中心点简称目标点坐标为XF,YF,机器人手臂末端位置坐标为XT,YT。0048根据上述坐标系中的手臂末端和目标点之间的相对位置,除冰机器人抓线控制的环境状态以SX,Y表示,其中X,Y1,0,1其物理意义是X或Y1,表示手臂末端的X或Y坐标值小于目标点的X或Y坐标值;X或Y0,表示手臂末端的X或Y坐标值等于目标点的X或Y坐标值;X或Y1,表示手臂末端的X或Y坐标值大于目标点的X或Y坐标值。于是状态集可表示为S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1,SS。例如,0,0表示机器手臂末端和目标点坐标位置重合,即机器手臂抓。
24、线成功。状态集中的1,1表示机器手臂末端的横坐标大于目标点的横坐标,纵坐标小于有效目标点的纵坐标,也即手臂末端位于目标点的右下方。004912建立动作集。0050控制机器手臂达到指定目标位置,需要给出每个手臂关节的关节转角。除冰机器说明书CN101954638A5/11页8人模型中手臂为三关节,定义动作A,其中AII1,2,3对应除冰机器人抓线手臂的第I个手臂关节的关节转角。由于每个关节的活动角度范围相同,则三个手臂关节的动作集可统一设为A4,3,2,1,0,1,2,3,4,AIAI1,2,3。其物理意义是数值的单位为度,正号表示关节朝顺时针方向转动,负号表示关节朝逆时针方向转动。例如A13表。
25、示第一个手臂关节朝逆时针方向旋转3度。动作集A的取值范围受限于单位时间手臂关节的转动范围,动作集划分越细控制精度越高,其缺点是会导致控制系统中的Q表更大,占用更多的内存,计算量也更大;动作集的划分过粗,相邻两个动作之间差别太大可能导致控制难以达到预期效果,即有可能手臂末端在目标点周围反复震荡,控制难以收敛。实验证明,动作集合中元素为9个左右比较合适。005113建立Q表。0052本专利以查找LOOKUP表法,也就是利用表格来表示Q函数,表的大小等于SXA的笛卡尔乘积中元素的个数。为三关节手臂的每一个关节建立QII1,2,3表,定义Q。QI表是一个9X9维的矩阵,其中记录了在状态S和在该状态下选。
26、择动作AI所预期获得的累积奖赏00530054其中,E表示数学期望值,为折扣因子,0,1。上述公式为QI表中元素的定义,在应用中按后面步骤更新,QI表可以任意初始化。005514建立回报函数。0056回报函数的建立并不是唯一的,合理地建立回报函数能够加快收敛速度。在机器手臂的末端夹持机构装有接触传感器,当手臂末端触碰到输电线,接触传感器会给出开关信号,夹持器闭合,表示手臂已经成功抓线,这时给出一个正的而且很大的回报,否则给出负的回报。设计回报函数时以接触传感器给出开关信号为抓线成功,否则为抓线失败。具体设计如下0057由于输电线为弧线,在专利中以蔓叶线近似表示,蔓叶线方程为Y2X3/2CX,C。
27、为常数。回报函数R设计为00580059其中DIST1XFXT2YFYT2,DIST2XTXL2YTYL2,DIST3XTXR2YTYR,DISTDIST1DIST2DIST3。表示当机器手臂末端触碰到输电线,说明抓线成功,给一个正的且很大的回报;否则给一个负的回报,并与手臂末端位置到有效线段的两端和中心点的三段距离的平均值成反比。当某个动作能够获得环境较高的回报,那么以后产生这个动作的趋势就会加强,否则产生这个动作的趋势就会减弱。00602、增强学习系统的工作过程006120、初始化。0062将QII1,2,3表均初始化为0矩阵,给下列参数赋值、。表示学习率,0,1,它决定了学习过程中调整策。
28、略的程度。表示折扣因子,0,1,它决定了期望回报对当前的影响。由摄像机标定XF,YF、XT,YT、XL,YL、XR,YR。表说明书CN101954638A6/11页9示随机动作的选择概率,0,1,在本发明中使用的是GREEDY动作选择策略,即以1的概率选择对应Q值最大的动作,以的概率在动作集中选择随机动作。即随着学习过程的进行,随机选择动作的可能性将更小,而以更大的可能性选择最优的动作。根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态S,初始化动作A,即手臂保持不动。006321、执行动作。0064执行由当前状态S选取的动作A三个关节转动角度1、2、3,控制手臂三个关节转动相应。
29、的角度;006522、计算回报值R。0066由于每个机器手臂肩部都装有摄像机,通过图像处理技术,识别出机器手臂末端执行动作后的位置坐标XT,YT,将XT,YT代入回报函数公式,计算出回报值R。判断回报值R符号,如果为正,表明抓线成功,控制终止;否则执行步骤23;006723、确定下一个状态S。具体步骤如下0068求出手臂末端和目标点的相对距离为DXFXTYFYT,并求出其符号函数值XSIGND。SIGN表示符号函数,功能是提取某个数的符号正或负,取值为1或10的符号函数值为1。在本专利方法中只需提取出手臂末端和目标点的相对距离的符号值,不需要具体的数值,大大减少了图像的计算量;0069通过状态。
30、集求出状态S从状态集S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1中选出一个状态S,与X的欧氏距离最小。即007024、通过Q表选择对应最大Q值动作A。0071通过查表的方法在关节I的QII1,2,3表中查出S状态下对应最大Q值的动作,即从而A。007225、根据GREEDY策略选择动作。0073以概率在动作集中随机选取动作AAA,令AA;以概率1保持A不变。26、更新。具体步骤如下0074按照下列Q值的更新公式QS,AQS,ARQS,AQS,A,其中QS,A表示QIS,AII1,2,3;0075SS,AA。007627、转步骤21。0077与现有技术相比,本发明的优。
31、点在于00781、本发明采用的增强学习控制方法,是一种实时、在线的学习方法,即能从环境状态到动作映射的学习,通过试错的方法寻找最优行为策略,使系统行为从环境中获得累积奖赏值最大。能够解决外界恶劣环境干扰未知和手臂末端姿态的不确定性带来的控制问题,有较强的鲁棒性,不需要人工协助,脱线后自主进行抓线控制,是实现除冰机器人自主越障的一个十分有效的尝试。00792、本发明控制机器手臂进行抓线时,以蔓叶线近似逼近输电线,与以往设计中将输电线考虑成直线不同,更贴近实际,可以进一步减小控制误差。说明书CN101954638A7/11页1000803、本发明与目前应用较多的视觉伺服控制相比,不需要庞大的图像计。
32、算量,方法简单、便于实现。在该方法中,不需要精确计算输电线和机器手臂末端的精确位置误差,而是提取相对误差,从而大大减少图像的计算量,降低对图形获取设备和分辨率的要求。00814、本发明不需要机器人精确的数学模型,设计方法灵活,适用范围广。可以将动作集中的动作序列设计为机器手臂关节的力矩,从而控制各个关节的电机,完成对机器手臂抓线的控制。对于不同数学模型的除冰机器人或是巡线机器人,该方法均适用。附图说明0082图1基于增强学习除冰机器人抓线控制过程示意图;0083图2三手臂除冰机器人机械结构图;0084图3除冰机器人抓线仿真界面示意图;0085图4手臂抓线坐标系示意图;0086图5具体仿真实例抓。
33、线控制流程图;0087图6具体仿真实例训练步数示意图。0088标号说明1输电线,2摄像机,3手臂三,4控制箱内含控制系统和电源,5关节一,6关节二,7关节三,8手臂一,9手臂二。具体实施方式0089下面结合附图以具体实施例对本发明的技术方案及工作过程作进一步的说明,但本发明的保护范围不限于此。0090以一种具有三个机械手臂的除冰机器人为控制对象,结合三关节手臂运动学理论,以增强学习SARSA算法算法中每次迭代用到的五元组S,A,R,S,A,因此该算法命名为SARSA算法控制手臂抓线。针对输电线为柔性弧线的特点,设计了相应的回报函数并验证其有效性。控制过程如图1,其特征在于步骤为00911、建立。
34、增强学习系统。0092除冰机器人抓线控制所处环境可描述为一个有限状态的离散马尔科夫过程,本发明基于增强学习SARSA算法控制三关节手臂进行抓线通过设定状态集、动作集、Q表和回报函数,建立增强学习系统。该增强学习系统选择一个动作A作用于环境,环境接受该动作后转移到下一个状态S,同时给出评价信号R即回报函数值,如果R满足一定条件则终止控制,否则增强学习系统根据评价信号和状态S通过行为选择策略决定下一个动作A,更新Q表后进入下一次迭代。基于SARSA算法设计一个增强学习系统时,首先需要建立相应的状态集和动作集,并根据状态集和动作集建立Q值查找表简称Q表,同时需要建立正确的回报函数。下面以除冰机器人为。
35、控制对象,对本专利提出的增强学习系统的建立步骤做详细的说明。009311建立状态集。0094所述的除冰机器人为三手臂机器人,分别为手臂一、手臂二和手臂三,如图2所示。其中手臂一和手臂二为可在平面内旋转的三关节手臂,是专利中的研究对象,由于具有相同的结构,在分析中不加区分。手臂三为具有一个伸缩关节的手臂,起到辅助和平衡重心的作用,在专利中不作研究。越障时,三个手臂依次完成脱线从底部跨越障碍物抓线的说明书CN101954638A8/11页11动作。三手臂机器人在越障时,总是一个手臂手臂一或手臂二脱线,称为脱线手臂,另外两个手臂悬挂在线上,悬挂在线上的手臂电机驱动机器人巡线前进,脱线手臂待越过障碍后。
36、再抓线。由于悬挂在线上的手臂起到了固定箱体的作用,脱线手臂在抓线过程中机器人箱体、脱线手臂的基座、障碍物和输电线之间的位置是相对静止的,因此能够以脱线手臂的基座为坐标系原点建立一个坐标系,如图4所示。该坐标系中,抓线手臂的基座为坐标系原点,两个虚线半圆之间的范围为三关节手臂能够触及的范围,外侧虚线半圆与输电线的交点坐标为XR,YR。图中障碍物边侧垂直的虚线为不触及障碍物的极限位置在专利中以防震锤为例,与输电线的交点坐标为XL,YL。在抓线控制过程中,定义输电线XR,YR和XL,YL之间的线段为有效线段,有效线段中心点简称目标点坐标为XF,YF,机器人手臂末端位置坐标为XT,YT。0095根据上。
37、述坐标系中的手臂末端和目标点之间的相对位置,除冰机器人抓线控制的环境状态以SX,Y表示,其中X,Y1,0,1其物理意义是X或Y1,表示手臂末端的X或Y坐标值小于目标点的X或Y坐标值;X或Y0,表示手臂末端的X或Y坐标值等于目标点的X或Y坐标值;X或Y1,表示手臂末端的X或Y坐标值大于目标点的X或Y坐标值。于是状态集可表示为S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1,SS。例如,0,0表示机器手臂末端和目标点坐标位置重合,即机器手臂抓线成功。状态集中的1,1表示机器手臂末端的横坐标大于目标点的横坐标,纵坐标小于有效目标点的纵坐标,也即手臂末端位于目标点的右下方。00。
38、9612建立动作集。0097控制机器手臂达到指定目标位置,需要给出每个手臂关节的关节转角。除冰机器人模型中手臂为三关节,定义动作A,其中AII1,2,3对应除冰机器人抓线手臂的第I个手臂关节的关节转角。由于每个关节的活动角度范围相同,则三个手臂关节的动作集可统一设为A4,3,2,1,0,1,2,3,4,AIAI1,2,3。其物理意义是数值的单位为度,正号表示关节朝顺时针方向转动,负号表示关节朝逆时针方向转动。例如A13表示第一个手臂关节朝逆时针方向旋转3度。动作集A的取值范围受限于单位时间手臂关节的转动范围,动作集划分越细控制精度越高,其缺点是会导致控制系统中的Q表更大,占用更多的内存,计算量。
39、也更大;动作集的划分过粗,相邻两个动作之间差别太大可能导致控制难以达到预期效果,即有可能手臂末端在目标点周围反复震荡,控制难以收敛。实验证明,动作集合中元素为9个左右比较合适。009813建立Q表。0099本专利以查找LOOKUP表法,也就是利用表格来表示Q函数,表的大小等于SXA的笛卡尔乘积中元素的个数。为三关节手臂的每一个关节建立QII1,2,3表,定义Q。QI表是一个9X9维的矩阵,其中记录了在状态S和在该状态下选择动作AI所预期获得的累积奖赏01000101其中,E表示数学期望值,为折扣因子,0,1。上述公式为QI表中元素的定义,在应用中按后面步骤更新,QI表可以任意初始化。01021。
40、4建立回报函数。说明书CN101954638A9/11页120103回报函数的建立并不是唯一的,合理地建立回报函数能够加快收敛速度。在机器手臂的末端夹持机构装有接触传感器,当手臂末端触碰到输电线,接触传感器会给出开关信号,夹持器闭合,表示手臂已经成功抓线,这时给出一个正的而且很大的回报,否则给出负的回报。设计回报函数时以接触传感器给出开关信号为抓线成功,否则为抓线失败。具体设计如下0104由于输电线为弧线,在专利中以蔓叶线近似表示,蔓叶线方程为Y2X3/2CX,C为常数。回报函数R设计为01050106其中DIST1XFXT2YFYT2,DIST2XTXL2YTYL2,DIST3XTXR2YT。
41、YR,DISTDIST1DIST2DIST3。表示当机器手臂末端触碰到输电线,说明抓线成功,给一个正的且很大的回报;否则给一个负的回报,并与手臂末端位置到有效线段的两端和中心点的三段距离的平均值成反比。当某个动作能够获得环境较高的回报,那么以后产生这个动作的趋势就会加强,否则产生这个动作的趋势就会减弱。01072、增强学习系统的工作过程010820、初始化。0109将QII1,2,3表均初始化为0矩阵,给下列参数赋值、。表示学习率,0,1,它决定了学习过程中调整策略的程度。表示折扣因子,0,1,它决定了期望回报对当前的影响。由摄像机标定XF,YF、XT,YT、XL,YL、XR,YR。表示随机动。
42、作的选择概率,0,1,在本发明中使用的是GREEDY动作选择策略,即以1的概率选择对应Q值最大的动作,以的概率在动作集中选择随机动作。即随着学习过程的进行,随机选择动作的可能性将更小,而以更大的可能性选择最优的动作。根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态S,初始化动作A,即手臂保持不动。011021、执行动作。0111执行由当前状态S选取的动作A三个关节转动角度1、2、3,控制手臂三个关节转动相应的角度;011222、计算回报值R。0113由于每个机器手臂肩部都装有摄像机,通过图像处理技术,识别出机器手臂末端执行动作后的位置坐标XT,YT,将XT,YT代入回报函数公式。
43、,计算出回报值R。判断回报值R符号,如果为正,表明抓线成功,控制终止;否则执行步骤23;011423、确定下一个状态S。具体步骤如下0115求出手臂末端和目标点的相对距离为DXFXTYFYT,并求出其符号函数值XSIGND。SIGN表示符号函数,功能是提取某个数的符号正或负,取值为1或10的符号函数值为1。在本专利方法中只需提取出手臂末端和目标点的相对距离的符号值,不需要具体的数值,大大减少了图像的计算量;0116通过状态集求出状态S从状态集S1,1,1,0,1,1,0,1,0,0,0,1,1,1,1,0,1,1中选出一个状态S,与X的欧氏距离最小。即说明书CN101954638A10/11页。
44、13011724、通过Q表选择对应最大Q值动作A。0118通过查表的方法在关节I的QII1,2,3表中查出S状态下对应最大Q值的动作,即从而A。011925、根据GREEDY策略选择动作。0120以概率在动作集中随机选取动作AAA,令AA;以概率1保持A不变。012126、更新。具体步骤如下0122按照下列Q值的更新公式QS,AQS,ARQS,AQS,A,其中QS,A表示QIS,AII1,2,3;0123SS,AA。012427、转步骤21。0125以下用一个具体仿真实例对本发明的操作进行详细说明。本专利的基于增强学习的控制方法应用在除冰机器人三关节手臂抓线控制中,建立实时图形仿真界面如图3所。
45、示。输电线的弧度在一定范围内可任意设定。设定仿真学习周期数MAXEPISODES,表示仿真中学习周期的个数。在每个学习周期里,设定最大迭代步数MAXSTEPS,表示每个学习周期中最大的训练步数,超过最大训练步数,表明抓线失败,进入下一个学习周期。0126仿真实例进行了200个学习周期,即MAXEPISODES200,每个学习周期中,蔓叶线参数C的取值范围从100,100000之间随机选取一个值,对应不同的弧线。每个周期训练步数不超过400步MAXSTEPS400,时间步长为01秒,超过400步,则进入下一个训练周期。仿真实例中具体参数设定为03,09,L1085M,L2085M,L3062M,。
46、001。在每个学习周期中以如下规则衰减099,即在学习初始选较大值,增加随机探索的机会,然后逐渐降低,最终为一个很小的正数,既避免陷入局部最优,又保证算法收敛。0127由于仿真中不需要传感器,因此有两处步骤与具体实施方式不同01281步骤14中,回报函数R设计为01290130其中DIST1XFXT2YFYT2,DIST2XTXL2YTYL2,DIST3XTXR2YTYR,DISTDIST1DIST2DIST3。表示当机器手臂末端的坐标处在输电线有效线段地范围内,说明抓线成功,给一个正的且很大的回报;否则给一个负的回报,并与手臂末端位置到有效线段的两端和中心点的三段距离的平均值成反比。0131。
47、2步骤22中,手臂末端位置坐标XT,YT改由三关节手臂运动学计算而得,具体方法如下0132P1PI/21PI/180,P2P12PI/180,P3P23PI/180,0133X2L1COSP1,Y2L1SINP1,X3X2L2COSP2,Y3Y2L2SINP2,0134XTX3L3COSP3,YTY3L3SINP3。说明书CN101954638A11/11页140135其中,L1、L2、L3分别表示三个关节的连杆长度,其中PI为圆周率。X1,Y1为坐标系原点也是第一关节的基座坐标,X2,Y2为第一关节末端坐标,X3,Y3为第二关节末端坐标,XT,YT为机器手臂末端的坐标值,如图4所示。通过运动。
48、学变换矩阵求出机器手臂组成各点在坐标平面内变换后的坐标L1T1LINK1,L2T2LINK2,L3T3LINK3。01360137LINK1、LINK2、LINK3为三个机器手臂组成各点的坐标矩阵,L1、L2、L3为三个机器手臂组成各点通过运动学变换矩阵变换后的坐标矩阵。0138图6给出训练步数示意图,其中横坐标EPISODE表示训练周期,纵坐标STEPS表示训练周期所对应的迭代步数。其平均迭代步数为2237步,说明在学习周期的开始阶段,迭代步数较多,随着Q值的不断更新,使Q表得到不断的完善,所需的迭代步数将会大幅减少,表明控制方法有效,即能通过少量的学习周期,机器手臂能够以较少的迭代步数抓线成功。说明书CN101954638A1/4页15图1图2说明书附图CN101954638A2/4页16图3图4说明书附图CN101954638A3/4页17图5说明书附图CN101954638A4/4页18图6说明书附图。