自由间隔约束的最优对比序列模式启发式挖掘方法.pdf

上传人:1****2 文档编号:6095536 上传时间:2019-04-10 格式:PDF 页数:19 大小:1.12MB
返回 下载 相关 举报
摘要
申请专利号:

CN201610831506.6

申请日:

2016.09.19

公开号:

CN106339609A

公开日:

2017.01.18

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 19/24申请日:20160919|||公开

IPC分类号:

G06F19/24(2011.01)I

主分类号:

G06F19/24

申请人:

四川大学

发明人:

段磊; 高超; 杨皓; 王慧锋

地址:

610000 四川省成都市一环路南一段24号

优先权:

专利代理机构:

成都行之专利代理事务所(普通合伙) 51220

代理人:

王记明

PDF下载: PDF下载
内容摘要

本发明公开了一种自由间隔约束的最优对比序列模式启发式挖掘方法,包括:步骤S1,输入正例序列集合、负例序列集合和期望挖掘的对比序列模式个数;步骤S2,随机产生预定数量的基因型候选模式编码;步骤S3,获得各个基因型候选模式编码对应的候选对比序列模式;步骤S4,计算各个候选对比序列模式的对比度;步骤S5,判断当前基因型候选模式编码是否满足方法结束条件:若满足,对比度最优的k个候选对比序列模式为最终的挖掘结果,否则执行步骤S6;步骤S6,对当前基因型候选模式编码进行选择;步骤S7,形成新的基因型候选模式编码,转到步骤S3。本发明提供的对比序列模式挖掘方法,避免用户在不具备先验知识的情况下因为设置参数不当丢失结果的情况。

权利要求书

1.一种自由间隔约束的最优对比序列模式启发式挖掘方法,其特征在于,包括:
步骤S1,输入正例序列集合、负例序列集合以及期望挖掘的对比序列模式个数;
步骤S2,随机产生预定数量的基因型候选模式编码,所述基因型候选模式编码包括至
少一个长度固定的基因,所述基因包括头部和尾部,头部包括随机产生的间隔约束集合,尾
部是来自于输入的正例序列集合和负例序列集合的字符集合,所述预定数量大于期望挖掘
的对比序列模式个数;
步骤S3,对各个基因型候选模式编码进行解码操作以获得各个基因型候选模式编码对
应的候选对比序列模式;
步骤S4,结合输入的正例序列集合和负例序列集合计算各个候选对比序列模式的对比
度;
步骤S5,判断当前基因型候选模式编码是否满足方法结束条件:若满足,对比度最优的
k个候选对比序列模式为最终的挖掘结果,否则执行步骤S6,其中,k为期望挖掘的对比序列
模式个数;
步骤S6,根据各个候选对比序列模式的对比度采用轮盘赌选择法对当前基因型候选模
式编码进行选择;
步骤S7,对选择出的部分基因型候选模式编码进行预定义的遗传操作形成新的基因型
候选模式编码,并转到步骤S3。
2.根据权利要求1所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,定义有穷的符号集合∑,符号集合∑中的任意符号被称之为项,由符号集合∑中的项
构成的有序序列被称之为序列,表示为S=<e1,e2,…,ei,…em>,其中,ei被称之为元素且1≤
i≤m,|S|表示序列S的长度,即序列S中包含的元素个数;
对于序列S中的第i个元素S[i]和第j个元素S[j](1≤i≤j≤|S|),gap(S,i,j)表示第i个
元素S[i]和第j个元素S[j]之间间隔的元素个数,即gap(S,i,j)=j-i-1。
3.根据权利要求2所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,对于任意两个序列S'和S”,满足条件1和条件2,则称<k1,k2,…,k|S”|>是序列S”在序列
S'中的一个出现,记为其中,
条件1为:|S'|≥|S”|,即序列S'的长度不小于序列S”的长度;
条件2为:存在一组数字1≤k1≤k2≤…≤k|S”|≤|S'|,使得对于1≤i≤|S”|
恒成立。
4.根据权利要求3所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,间隔约束γ为区间[γ.min,γ.max],γ.min≤γ.max,其中γ.min表示间隔约束中
允许的最小间隔元素数目,γ.max表示间隔约束中允许的最大间隔元素数目,γ.min和γ
.max均大于等于0;
由不同或者相同的多个间隔约束组成的有序序列称为间隔约束序列Γ,其形式为:Γ
=<γ1,γ2,…,γh>,其中,h为间隔约束的数量;
对于每个序列P,其间隔约束序列的长度||Γ||=||P||-1。
5.根据权利要求4所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,在间隔约束序列Γ下,序列P在序列集D中的支持度记作Sup((P,Γ),D):
<mrow> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>P</mi> <mo>,</mo> <mi>&Gamma;</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mrow> <mo>{</mo> <mi>S</mi> <mo>&Element;</mo> <mi>D</mi> <mo>|</mo> <mi>P</mi> <msub> <mo>&SubsetEqual;</mo> <mi>&Gamma;</mi> </msub> <mi>S</mi> <mo>}</mo> </mrow> <mo>|</mo> <mo>/</mo> <mo>|</mo> <mi>D</mi> <mo>|</mo> <mo>,</mo> </mrow>
其中,S为序列,|D|表示序列集D中序列的数目,序列P在序列S中满足间隔约束序列Γ
的子序列,记为
在间隔约束序列Γ下,序列P在正例序列集合D+与负例序列集合D-之间的对比度记作CR
((P,Γ),D+,D-):
CR((P,Γ),D+,D-)=Sup((P,Γ),D+)-Sup((P,Γ),D_)。
6.根据权利要求1所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,头部为随机产生的间隔约束集合,或者头部由随机产生的间隔约束集合与来自于输
入的正例序列集合和负例序列集合的字符集合组成。
7.根据权利要求1所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,头部的长度预先设定,尾部的长度根据t=h×(n-1)+1获得,其中,t为尾部的长度,h
为头部的长度,n为间隔约束所需的最大操作数。
8.根据权利要求7所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,所述对各个基因型候选模式编码进行解码操作以获得各个基因型候选模式编码对应
的候选对比序列模式包括:
按从上到下、从左到右的顺序建立每个基因对应的二叉树,所述二叉树中每个节点依
次对应为基因中的一个元素,当所述二叉树的叶子节点均为字符时建树完成;
采用新的根节点作为第一棵二叉树的根节点和第二棵二叉树的根节点的父节点以组
成第一棵更新二叉树,采用新的根节点作为第一棵更新二叉树的根节点和第三棵二叉树的
根节点的父节点以组成第二棵更新二叉树,以此类推,采用新的根节点作为第x-2棵更新二
叉树的根节点和第x棵二叉树的根节点的父节点以组成表达式树,其中,每个新的根节点为
随机产生的间隔约束,x为基因型候选模式编码中基因的个数;
通过中序方式遍历所述表达式树,产生候选对比序列模式。
9.根据权利要求7所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,所述预定义的遗传操作包括变异操作、插串操作以及重组操作;
所述变异操作包括:将基因中的一个间隔约束变异成一个字符或者另一个的间隔约
束;将基因中的一个字符变异成一个间隔约束或者另一个字符;
所述插串操作包括:在基因中随机选择y1个连续的元素插入除头部第一个元素之前的
任意位置,删除原头部最后y1个元素以保持头部长度不变,其中,y1≥1;在基因中随机选择
y2个连续且以间隔约束开头的元素插入头部第一个元素之前,删除原头部最后y2个元素以
保持头部长度不变,其中,y2≥1;将基因型候选模式编码中除第一个基因外的任意一个基
因移动到第一个基因之前;
所述重组操作包括:交换两个基因型候选模式编码同一位置的一个元素;交换两个基
因型候选模式编码同一位置的至少两个元素;交换两个基因型候选模式编码同一位置的基
因。
10.根据权利要求1所述的自由间隔约束的最优对比序列模式启发式挖掘方法,其特征
在于,所述方法结束条件为方法执行时间、方法执行次数或者所获结果的稳定性。

说明书

自由间隔约束的最优对比序列模式启发式挖掘方法

技术领域

本发明涉及数据挖掘技术领域,具体涉及一种自由间隔约束的最优对比序列模式
启发式挖掘方法。

背景技术

序列模式挖掘作为数据挖掘的一项重要任务,有着广泛的应用。例如,电力公司通
过分析历史用电数据,提高对电力负荷预测的准确度。再如,卫生疾控部门通过分析传染病
传播的时空监测数据,可望发现传染病时空聚集性暴发规律,进而为防控工作提供参考。与
此同时,序列模式挖掘也受到了众多研究者的关注,不同类型的序列模式被陆续提出,例如
频繁序列模式、闭合序列模式、周期序列模式、偏序序列模式等。

对比序列模式挖掘的目标是挖掘出在正例序列集合中频繁(序列模式的支持度大
于指定阈值)且在负例序列集合中不频繁(序列模式的支持度小于指定阈值)的对比序列模
式。对比序列模式能识别不同类别序列集合间的对比信息,并识别各类别样本集合的特征,
适用于多个领域的序列数据分析。例如,在医学领域,分析阳性肿瘤和阴性肿瘤的DNA序列,
通过对比序列模式,能够提高临床诊断的精度;在商业领域,对比不同年龄段顾客的不同购
物模式,可以提高商品促销活动的针对性。

序列挖掘中广泛使用间隔约束的概念,其目的在于让序列模式的匹配更加灵活、
通用。间隔约束是一个由两个非负整数确定的区间,表示序列模式中两个相邻元素在序列
中允许间隔的元素数目的最小值和最大值。在已有对比序列模式挖掘方法的研究中,间隔
约束需要用户设定。实践表明,在没有足够先验知识时,用户很难设定恰当的间隔约束。失
当的间隔约束,会丢失很多有用的序列模式。而穷举所有可能的间隔约束则会导致算法执
行时间过长,失去实用性。

发明内容

本发明所要解决的是用户在没有足够先验知识时设定不恰当的间隔约束导致丢
失有用序列模式、穷举所有可能的间隔约束导致算法执行时间过长的问题。

本发明通过下述技术方案实现:

一种自由间隔约束的最优对比序列模式启发式挖掘方法,包括:步骤S1,输入正例
序列集合、负例序列集合以及期望挖掘的对比序列模式个数;步骤S2,随机产生预定数量的
基因型候选模式编码,所述基因型候选模式编码包括至少一个长度固定的基因,所述基因
包括头部和尾部,头部包括随机产生的间隔约束集合,尾部是来自于输入的正例序列集合
和负例序列集合的字符集合,所述预定数量大于期望挖掘的对比序列模式个数;步骤S3,对
各个基因型候选模式编码进行解码操作以获得各个基因型候选模式编码对应的候选对比
序列模式;步骤S4,结合输入的正例序列集合和负例序列集合计算各个候选对比序列模式
的对比度;步骤S5,判断当前基因型候选模式编码是否满足方法结束条件:若满足,对比度
最优的k个候选对比序列模式为最终的挖掘结果,否则执行步骤S6,其中,k为期望挖掘的对
比序列模式个数;步骤S6,根据各个候选对比序列模式的对比度采用轮盘赌选择法对当前
基因型候选模式编码进行选择;步骤S7,对选择出的部分基因型候选模式编码进行预定义
的遗传操作形成新的基因型候选模式编码,并转到步骤S3。

本发明提供的对比序列模式挖掘方法,不需要用户预先设置间隔约束,而是自动
对候选模式计算最适合的间隔约束,避免丢失有用的序列模式。在此挖掘方法中,为避免由
于高昂计算代价的全搜索可能导致的无法在合理运行时间获得解的情况,本发明引入进化
计算的方式。进化计算是一类启发式的搜索优化算法,主要通过选择、评价和变异这三种操
作实现候选解的优化。进化计算具有鲁棒性的优点,对各种待挖掘的数据集都能比较好的
适应。为将进化计算的启发式搜索机制运用于对比序列模式挖掘中,本发明提出了新的基
因型候选模式编码。在不同基因之间和每个基因内部,间隔约束是随机产生的,每个间隔约
束允许不相同。因此,在进化过程中间隔约束会不断更新,使得候选对比序列模式对比度朝
着更大的方向进化,这样就克服了用户自己设置单一间隔约束不能找到最优解,或者穷举
所有可能间隔约束导致运行时间不合理的问题。进一步,本发明采用轮盘赌选择法对当前
基因型候选模式编码进行选择,对比度大的候选对比序列模式被选择的机率会更大,获得
的结果更为准确。

可选的,定义有穷的符号集合∑,符号集合∑中的任意符号被称之为项,由符号集
合∑中的项构成的有序序列被称之为序列,表示为S=<e1,e2,…,ei,…em>,其中,ei被称之
为元素且1≤i≤m,|S|表示序列S的长度,即序列S中包含的元素个数;对于序列S中的第i个
元素S[i]和第j个元素S[j](1≤i≤j≤|S|),gap(S,i,j)表示第i个元素S[i]和第j个元素S[j]
之间间隔的元素个数,即gap(S,i,j)=j-i-1。

可选的,对于任意两个序列S'和S”,满足条件1和条件2,则称<k1,k2,…,k|S”|>是序
列S”在序列S'中的一个出现,记为其中,条件1为:|S'|≥|S”|,即序列S'的长度不
小于序列S”的长度;条件2为:存在一组数字1≤k1≤k2≤…≤k|S”|≤|S'|,使得对
于1≤i≤|S”|恒成立。

可选的,间隔约束γ为区间[γ.min,γ.max],γ.min≤γ.max,其中γ.min表示
间隔约束中允许的最小间隔元素数目,γ.max表示间隔约束中允许的最大间隔元素数目,
γ.min和γ.max均大于等于0;由不同或者相同的多个间隔约束组成的有序序列称为间隔
约束序列Γ,其形式为:Γ=<γ1,γ2,…,γh>,其中,h为间隔约束的数量;对于每个序列P,
其间隔约束序列的长度||Γ||=||P||-1。

可选的,在间隔约束序列Γ下,序列P在序列集D中的支持度记作Sup((P,Γ),D):
其中,S为序列,|D|表示序列集D中序列的数目,序列P
在序列S中满足间隔约束序列Γ的子序列,记为在间隔约束序列Γ下,序列P在正例
序列集合D+与负例序列集合D-之间的对比度记作CR((P,Γ),D+,D-):CR((P,Γ),D+,D_)=
Sup((P,Γ),D+)-Sup((P,Γ),D-)。

可选的,头部为随机产生的间隔约束集合,或者头部由随机产生的间隔约束集合
与来自于输入的正例序列集合和负例序列集合的字符集合组成。

可选的,头部的长度预先设定,尾部的长度根据t=h×(n-1)+1获得,其中,t为尾
部的长度,h为头部的长度,n为间隔约束所需的最大操作数。

可选的,所述对各个基因型候选模式编码进行解码操作以获得各个基因型候选模
式编码对应的候选对比序列模式包括:按从上到下、从左到右的顺序建立每个基因对应的
二叉树,所述二叉树中每个节点依次对应为基因中的一个元素,当所述二叉树的叶子节点
均为字符时建树完成;采用新的根节点作为第一棵二叉树的根节点和第二棵二叉树的根节
点的父节点以组成第一个更新二叉树,采用新的根节点作为第一棵更新二叉树的根节点和
第三棵二叉树的根节点的父节点以组成第二个更新二叉树,以此类推,采用新的根节点作
为第x-2棵更新二叉树的根节点和第x棵二叉树的根节点的父节点以组成表达式树,其中,
每个新的根节点为随机产生的间隔约束,x为基因型候选模式编码中基因的个数;通过中序
方式遍历所述表达式树,产生候选对比序列模式。

本发明基于进化计算的新进展——基因表达式编程,来实现自由间隔约束的最优
对比序列模式挖掘。相比之前的遗传算法和遗传编程,基因表达式编程利用了基因表达的
知识,即使在个体编码时采用长度一样的基因型候选模式编码,在解码后能产生长度不同
的表达信息,本发明中产生的则是自由间隔约束的候选对比序列模式。

可选的,所述预定义的遗传操作包括变异操作、插串操作以及重组操作;

所述变异操作包括:将基因中的一个间隔约束变异成一个字符或者另一个的间隔
约束;将基因中的一个字符变异成一个间隔约束或者另一个字符;

所述插串操作包括:在基因中随机选择y1个连续的元素插入除头部第一个元素之
前的任意位置,删除原头部最后y1个元素以保持头部长度不变,其中,y1≥1;在基因中随机
选择y2个连续且以间隔约束开头的元素插入头部第一个元素之前,删除原头部最后y2个元
素以保持头部长度不变,其中,y2≥1;将基因型候选模式编码中除第一个基因外的任意一
个基因移动到第一个基因之前;

所述重组操作包括:交换两个基因型候选模式编码同一位置的一个元素;交换两
个基因型候选模式编码同一位置的至少两个元素;交换两个基因型候选模式编码同一位置
的基因。

可选的,所述方法结束条件为方法执行时间、方法执行次数或者所获结果的稳定
性。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明提供的自由间隔约束的最优对比序列模式启发式挖掘方法,在给定期望挖
掘的对比序列模式个数的场景下自动求出对比度最优的序列模式,实现不需要用户设置间
隔约束,并对候选对比序列模式自动计算最适合的间隔约束,避免了用户在不具备先验知
识的情况下因为设置参数不恰当而丢失结果的情况。同时,借力于进化计算的启发式搜索
机制,克服了穷举法运行时间过长,不实用的缺点,因此对推动对比序列模式挖掘的实际应
用有积极作用。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部
分,并不构成对本发明实施例的限定。在附图中:

图1是本发明实施例的自由间隔约束的最优对比序列模式启发式挖掘方法的输
入-输出示意图;

图2是本发明实施例的自由间隔约束的最优对比序列模式启发式挖掘方法的流程
示意图;

图3是本发明实施例的基因型候选模式编码的示意图;

图4是本发明实施例的获得候选对比序列模式的示意图;

图5a~图5d是本发明实施例进行变异操作的示意图;

图6a~图6c是本发明实施例进行插串操作的示意图;

图7a~图7c是本发明实施例进行重组操作的示意图。

具体实施方式

正如背景技术中所描述的,已有对比序列模式挖掘方法需要用户预先设定间隔约
束。但是如果没有充分的先验知识,用户很难设定合适的间隔约束,进而导致不能发现有用
的模式。本发明提供了一种自由间隔约束的最优对比序列模式启发式挖掘方法,只需要用
户给定一个期望挖掘的对比序列模式个数k,方法不需要用户预先设置间隔约束,它能对候
选对比序列模式自动计算最适合的间隔约束。同时,借力于进化计算的启发式搜索机制,克
服了穷举法运行时间过长,不能实用的缺点。

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本
发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作
为对本发明的限定。

实施例

首先给出对比序列模式挖掘的相关定义:给定一个有穷的符号集合∑,我们将其
称为字母表,字母表中的任意符号被称之为项。由∑中项构成的有序序列被称之为序列,表
示为S=<e1,e2,…,en>,其中ei∈∑(1≤i≤m)被称之为元素。我们使用|S|表示序列S的长
度,即序列S中包含的元素的个数。我们用S[i]来表示序列S中的第i个元素(1≤i≤|S|),对
于序列S中的两个元素S[i]和S[j](1≤i≤j≤|S|),使用gap(S,i,j)来表示在序列S中这两个
元素之间间隔的元素个数,即gap(S,i,j)=j-i-1。

对于任意两个序列S'和S”,满足如下条件:

条件1:|S'|≥|S”|,即序列S'的长度不小于序列S”的长度;

条件2:存在一组数字1≤k1≤k2≤…≤k|S”|≤|S'|,使得对于1≤i≤|S”
|恒成立;

那么,我们称<k1,k2,…,k|S”|>是序列S”在序列S'中的一个出现,也可以说序列S'
是序列S”的超序列,或者说序列S”是序列S'的子序列,记为

间隔约束γ被定义为一个区间[γ.min,γ.max],γ.min≤γ.max,其中γ.min
(γ.min≥0)和γ.max(γ.max≥0)分别表示间隔约束中允许的最小和最大间隔元素数目。
由不同或者相同的多个间隔约束组成的有序序列称为间隔约束序列Γ,其形式为:Γ=<
γ1,γ2,…,γh>,其中,h为间隔约束的数量;对于每个序列P,其间隔约束序列的长度||Γ|
|=||P||-1。给定两个序列S'和S”,令<k1,k2,…,k|S”|>是序列S”在序列S'中一个出现。若有
γ.min≤gap(S',ki,ki+1)≤γ.max对于任意1≤i≤|S”|均成立,那么我们称序列S”是在序
列S'中满足间隔约束序列Γ的子序列,表示为

给定一个序列集合D,又被称为序列集D,在间隔约束序列Γ下,序列P在序列集D中
的支持度用Sup((P,Γ),D)来表示,其物理意义为序列集D中序列P在间隔约束序列Γ下的
超序列的数目与序列集D中序列的数目的比值,即:

<mrow> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>P</mi> <mo>,</mo> <mi>&Gamma;</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>{</mo> <mi>S</mi> <mo>&Element;</mo> <mi>D</mi> <mo>|</mo> <mi>P</mi> <msub> <mo>&SubsetEqual;</mo> <mi>&Gamma;</mi> </msub> <mi>S</mi> <mo>}</mo> <mo>/</mo> <mo>|</mo> <mi>D</mi> <mo>|</mo> <mo>,</mo> </mrow>

其中,S为序列,|D|表示序列集D中序列的数目,序列P在序列S中满足间隔约束序
列Γ的子序列,记为

在间隔约束序列Γ下,给定两个序列集合,正例序列集合D+与负例序列集合D-,序
列P在正例序列集合D+和负例序列集合D-之间的对比度用CR((P,Γ),D+,D-)来表示,其意义
是表示该序列在两个序列集合之间的支持度的差异,即:

CR((P,Γ),D+,D-)=Sup((P,Γ),D+)-Sup((P,Γ),D-)。

图1是本实施例的自由间隔约束的最优对比序列模式启发式挖掘方法的输入-输
出示意图。针对给定正例序列集合D+与负例序列集合D-以及序列模式的个数k,我们的目标
是找出正例序列集合D+与负例序列集合D-之间对比度最优的k个带间隔约束的对比序列模
式。图2是本实施例的自由间隔约束的最优对比序列模式启发式挖掘方法的流程示意图,所
述自由间隔约束的最优对比序列模式启发式挖掘方法包括:

步骤S1,输入正例序列集合、负例序列集合以及期望挖掘的对比序列模式个数。

步骤S2,随机产生预定数量的基因型候选模式编码。具体地,所述预定数量大于期
望挖掘的对比序列模式个数,所述基因型候选模式编码包括至少一个长度固定的基因,所
述基因包括头部和尾部。头部包括随机产生的间隔约束集合,即头部可以仅为随机产生的
间隔约束集合,也可以由随机产生的间隔约束集合与来自于输入的正例序列集合和负例序
列集合的字符集合共同组成;尾部是来自于输入的正例序列集合和负例序列集合的字符集
合。进一步,头部的长度根据实际需求预先设定,尾部的长度根据t=h×(n-1)+1获得,其
中,t为尾部的长度,h为头部的长度,n为间隔约束所需的最大操作数。

以头部长度为3、间隔约束所需的最大操作数为2为例,图3是本实施例的一个基因
型候选模式编码的示意图。所述基因型候选模式编码包括两个基因:基因1和基因2。基因1
的头部为随机产生的间隔约束集合,即由间隔约束[0,3]、间隔约束[1,2]以及间隔约束[2,
5]组成;基因1的尾部来自于输入的正例序列集合和负例序列集合的字符集合,即由字符A、
字符C、字符C以及字符G组成。基因2的头部由随机产生的间隔约束集合与来自于输入的正
例序列集合和负例序列集合的字符集合共同组成,即由间隔约束[3,4]、间隔约束[2,4]以
及字符G组成;基因2的尾部来自于输入的正例序列集合和负例序列集合的字符集合,即由
字符T、字符A、字符T以及字符T组成。

步骤S3,对各个基因型候选模式编码进行解码操作以获得各个基因型候选模式编
码对应的候选对比序列模式。具体地,按从上到下、从左到右的顺序建立每个基因对应的二
叉树,所述二叉树中每个节点依次对应为基因中的一个元素,当所述二叉树的叶子节点均
为字符时建树完成;采用新的根节点作为第一棵二叉树的根节点和第二棵二叉树的根节点
的父节点以组成第一个更新二叉树,采用新的根节点作为第一棵更新二叉树的根节点和第
三棵二叉树的根节点的父节点以组成第二个更新二叉树,以此类推,采用新的根节点作为
第x-2棵更新二叉树的根节点和第x棵二叉树的根节点的父节点以组成表达式树,其中,每
个新的根节点为随机产生的间隔约束,x为基因型候选模式编码中基因的个数;通过中序方
式遍历所述表达式树,产生候选对比序列模式。

其中,第一棵二叉树为基因型候选模式编码中第一个基因对应的二叉树,第二棵
二叉树为基因型候选模式编码中第二个基因对应的二叉树,...,第x棵二叉树为基因型候
选模式编码中第x个基因对应的二叉树。特殊地,若二叉树只有一个根节点,则根节点也可
以为字符。对于仅有一个基因的基因型候选模式编码,该基因对应的二叉树即为表达式树。
图4是以对图3所示包括两个基因的基因型候选模式编码进行解码操作获得候选对比序列
模式的示意图。以建立基因2对应的二叉树为例,其根节点对应为基因2第一个元素,基因2
第一个元素为间隔约束,继续建立第二层;第二层第一个节点对应为基因2第二个元素,第
二层第二个节点对应为基因2第三个元素,基因2第二个元素为间隔约束,继续建立第三层;
第三层第一个节点对应为基因2第四个元素,第三层第二个节点对应为基因2第五个元素;
基因2第三个元素、基因2第四个元素以及基因2第五个元素均为字符,字符作为节点时无孩
子节点,即所述二叉树所有的叶子节点均为字符,建树完成。

步骤S4,结合输入的正例序列集合和负例序列集合计算各个候选对比序列模式的
对比度。根据对比度的定义,根据公式CR((P,Γ),D+,D-)=Sup((P,Γ),D+)-Sup((P,Γ),
D-)计算各个候选对比序列模式的对比度。

步骤S5,判断当前基因型候选模式编码是否满足方法结束条件。所述方法结束条
件可以根据实际需求进行设置,可以为方法执行时间、方法执行次数或者所获结果的稳定
性等。例如,设置方法结束条件为方法执行时间为5分钟,算法在执行了5分钟后就会自动停
止,即当前基因型候选模式编码满足方法结束条件,对比度最优的k个候选对比序列模式为
最终的挖掘结果;若算法执行时间未达到5分钟,即当前基因型候选模式编码不满足方法结
束条件,则执行步骤S6,其中,k为序列模式的个数。

步骤S6,根据各个候选对比序列模式的对比度采用轮盘赌选择法对当前基因型候
选模式编码进行选择。轮盘赌选择法是一种常用的随机选择方法,个体适应度按比例转换
为选择的概率,按个体所占的比值在一圆盘上进行比例划分,每次转动圆盘后待圆盘停止
后指针停靠扇区对应的个体为选中的个体。显然,个体概率越大,其在圆盘中所占的面积越
大,其被选中的机会也就越多。采用轮盘赌选择法进行当前基因型候选模式编码选择,对比
度大的候选对比序列模式被选择的机率会大一些。具体地,每次从所有当前基因型候选模
式编码中随机选择一定数量的基因型候选模式编码,再在此一定数量的当前基因型候选模
式编码中挑选出对比度最优的基因型候选模式编码,直至挑选出预定数量的基因型候选模
式编码。

步骤S7,对选择出的部分基因型候选模式编码进行预定义的遗传操作形成新的基
因型候选模式编码,并转到步骤S3。进一步,所述遗传操作包括变异操作、插串操作以及重
组操作。

具体地,所述变异操作包括:将基因中的一个间隔约束变异成一个字符或者另一
个的间隔约束;将基因中的一个字符变异成一个间隔约束或者另一个字符。所述变异操作
可以发生在基因的任何位置,但是基因的结构不能改变。也就是说,尾部的字符只能变异成
另一个字符而不能变异成间隔约束,但是头部的元素既可以变异成字符又可以变异成间隔
约束。仍以图3所示的基因型候选模式编码为例,图5a~图5d是本实施例进行变异操作的示
意图。其中,图5a是将基因1头部第一个元素由间隔约束变异成另一个间隔约束;图5b是将
基因1头部第二个元素由间隔约束变异成字符;图5c是将基因1尾部第二个元素由字符变异
成另一个字符;图5d是将基因2头部第三个元素由字符变异成间隔约束。

所述插串操作包括:在基因中随机选择y1个连续的元素插入除头部第一个元素之
前的任意位置,删除原头部最后y1个元素以保持头部长度不变,其中,y1≥1;在基因中随机
选择y2个连续且以间隔约束开头的元素插入头部第一个元素之前,删除原头部最后y2个元
素以保持头部长度不变,其中,y2≥1;将基因型候选模式编码中除第一个基因外的任意一
个基因移动到第一个基因之前。仍以图3所示的基因型候选模式编码为例,图6a~图6c是本
实施例进行插串操作的示意图。其中,图6a是将基因1第四个元素和第五个元素插串到基因
1第一个元素和第二个元素之间,并删除基因1头部最后两个元素;图6b是将基因1第三个元
素和第四个元素插串到基因1第一个元素之前,并删除基因1头部最后两个元素;图6c是将
基因2移动到基因1前面,原来的基因2作为新的基因1,原来的基因1作为新的基因2。

所述重组操作包括:交换两个基因型候选模式编码同一位置的一个元素;交换两
个基因型候选模式编码同一位置的至少两个元素;交换两个基因型候选模式编码同一位置
的基因。以图3所示的基因型候选模式编码作为原基因型候选模式编码1和另一个基因型候
选模式编码作为原基因型候选模式编码2为例,图7a~图7c是本实施例进行重组操作的示
意图。其中,图7a是将基因1第三个元素、基因1第六个元素以及基因2第四个元素进行互换
重组;图7b是将基因1第三个元素至第六个元素互换重组;图7c是将整个基因2互换重组。

通过遗传操作形成新的基因型候选模式编码,对新的基因型候选模式编码重复执
行步骤S3至步骤S5,可获得最终的挖掘结果。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步
详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含
在本发明的保护范围之内。

自由间隔约束的最优对比序列模式启发式挖掘方法.pdf_第1页
第1页 / 共19页
自由间隔约束的最优对比序列模式启发式挖掘方法.pdf_第2页
第2页 / 共19页
自由间隔约束的最优对比序列模式启发式挖掘方法.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《自由间隔约束的最优对比序列模式启发式挖掘方法.pdf》由会员分享,可在线阅读,更多相关《自由间隔约束的最优对比序列模式启发式挖掘方法.pdf(19页珍藏版)》请在专利查询网上搜索。

本发明公开了一种自由间隔约束的最优对比序列模式启发式挖掘方法,包括:步骤S1,输入正例序列集合、负例序列集合和期望挖掘的对比序列模式个数;步骤S2,随机产生预定数量的基因型候选模式编码;步骤S3,获得各个基因型候选模式编码对应的候选对比序列模式;步骤S4,计算各个候选对比序列模式的对比度;步骤S5,判断当前基因型候选模式编码是否满足方法结束条件:若满足,对比度最优的k个候选对比序列模式为最终的挖掘。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1