《一种基于仿真特定领域的仿真信息自动排序方法.pdf》由会员分享,可在线阅读,更多相关《一种基于仿真特定领域的仿真信息自动排序方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN101968808A43申请公布日20110209CN101968808ACN101968808A21申请号201010519896622申请日20101026G06F17/3020060171申请人北京理工大学地址100081北京市海淀区中关村南大街5号72发明人宿红毅郑宏闫波柳寒冰沈宇恒54发明名称一种基于仿真特定领域的仿真信息自动排序方法57摘要本发明涉及一种基于仿真特定领域的仿真信息自动排序方法,包括以下步骤1基于仿真资源的特点,定义仿真领域的仿真因子WF,并基于WF定义文件的重要因子和分割的重要因子;2在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两。
2、个词库将待排序文档分割为若干个与排序有关的相关词;3计算每个待排序文档的相关性;4根据相关度计算结果,实现基于仿真领域的排序。本发明所述方法可以准确地检索出仿真应用相关的信息,具有简单、易行、高效的特点,非常适合目前广泛流行的分布式仿真应用。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书6页附图2页CN101968808A1/3页21一种基于仿真特定领域的仿真信息自动排序方法,其特征在于,包括以下步骤一、基于仿真资源的特点,定义仿真领域的仿真因子WF,并基于WF定义文件的重要因子和分割的重要因子公式1其中,LF表示分割DIVISION中文本的长度,F表示分割。
3、的加权系数,如表1所示表1分割权重分配表WJ是某个分割中词J的权重,定义如下WJCOETJF公式2其中COE为词的类别系数,COE的取值要根据该词在仿真领域专业词库中的权重分配表中的位置来确定,仿真领域专业词库权重分配表如表2所示;TJF表示词J在分割中出现的次数;M为分割中包含的词的个数;表2仿真领域专业词库权重分配表权利要求书CN101968808A2/3页3分割的重要因子DIVISIONBOOST和文件的重要因子FILEBOOST的定义分别如下DIVISIONBOOSTWF公式3公式4其中,FILEBOOST表示一个文件的重要因子,而DIVISIONBOOSTI表示文件中第I个分割的重要。
4、因子,N表示此文件共包含N个分割;二、在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两个词库将待排序文档分割为若干个与排序有关的相关词;三、计算每个待排序文档的相关性,具体步骤为1将文件划分为不同的分割,包括标题区TITLE、摘要区ABSTRACT、主体区BODY,针对文件每一个分割建立相对应的分割字符集,分割字符集是当前文件分割包含的相关词和查询式对应分割包含的相关词的并集;2获得待排序文档每个分割的相关度序列S和对应的要查询的文件分割的相关度序列Q,设分割对应的分割字符集包含的相关词的数目为N,则S和Q的长度均为N,即SX1X2X3XN,QY1Y2Y3YN,序列中的每一位用。
5、0或者1表示文件信息的状态,如果文件分割不包含分割字符集当前位置的词,则取值0,如文件分割包含字符集里的对应的分量,产生0,15TJF范围内的随机数,如果该数落在0,WI中,取值1,否则取值0;其中WI为分割字符集当前位置的词的权重;3通过以下公式计算待排序文档每个分割的相关度公式8其中,XI,YI分别是待排序文件中分割的相关度序列S和对应的要查询的文件分割的相关度序列Q在第I个位置的值;DIVISIONBOOSTK是文件中第K个分割的重要因子;TFI,J是相关词I在文件中的出现频率,通过计算得到,TERMFREQ为相关词在文件中出现的次数,TERMNUM为文件的总词语数;IDFI是相关词I的。
6、逆文件频率,通过计算得到,NUMFILES为总文件数,FILEFREQ为出现该相关词的文件数;4在求出所有分割的相关度之后,通过加权求和的方式计算整个文件的相关度,文件的相关度S的计算公式如下公式9其中,TI表示第I个文件,共M个分割,FK表示文件中第K个分割所带的权值,SRK代表第K个分割所计算出的分割相关度的值,为体现每个文件的不同权重,利用因子FILEBOOST来表示具体某个文件的重要性;四、根据相关度计算结果,实现基于仿真领域的排序。2根据权利要求1所述的一种基于仿真特定领域的仿真信息自动排序方法,其特征在于,所述排序过程通过堆实现,在计算每个相关文档的相关度之前,先初始化一个堆来保存。
7、权利要求书CN101968808A3/3页4计算结果,并以相关度作为键,以文件编号作为值,将得到的相关度与当前文件编号写入堆中,直到所有文件都遍历完成。权利要求书CN101968808A1/6页5一种基于仿真特定领域的仿真信息自动排序方法技术领域0001本发明涉及一种搜索信息排序方法,具体涉及一种基于仿真特定领域的仿真信息自动排序方法,属于计算机建模与仿真领域领域。背景技术0002美国国防部DOD在制定建模与仿真主计划MSMP时就提出了构建建模与仿真资源库系统MSRRMODELINGSIMULATIONRESOURCEREPOSITORY计划,其目的就是要提供建模与仿真应用中资源管理、访问、浏。
8、览和检索的工具,提高建模与仿真资源的重用性和共享性,增进系统开发的效率和可靠性。美国现有的MSRR系统由DMSO、联合C4ISR决策支持中心、美国陆军、美国空军等7家相关机构的节点组成,以模型和仿真应用资源为核心。0003对于仿真资源用户来说,通常关心的是仿真领域相关的仿真信息、文档等,但是通用的检索或搜索引擎中的排序方法并没有考虑到其应用领域的特点,一方面,通用的排序方法中采用通用词库来实现排序过程中的分词工作,它缺乏仿真领域的专有名词,这些名词就会被分割成普通的词汇,并不符合仿真领域的需求;另一方面,目前的排序过程中没有考虑到与仿真应用的相关度,通常返回给用户的结果多半是与仿真领域无关的信。
9、息,这为仿真资源用户带来很多困扰。另外,通用排序中采用的相关度计算方法中的向量空间模型VSM与布尔模型,一是需要词汇之间具有独立性,并且其向量的相关操作缺乏理论验证,大都是经验公式;二是难于建立查询表述方式,查询结果无序,无法判断相关文档的相关程度。由此可见,作为特定的仿真应用领域,由于数据存储方式多种多样,资源之间存在着层次、相联等特有的相关性,以文件等多种形式存储于分布式的资源库中;并且,随着仿真应用的发展,仿真资源种数、数量越来越多,存储的分布式环境越来越广等,当信息量大到一定程度时,系统的整体性能有着显著的下降,这与越来越强调响应速度的仿真应用极为不符,很难满足仿真应用领用的应用需求。。
10、0004因此,有必要提供针对仿真领域特点的自动排序方法,为构建专用的仿真资源搜索引擎提供必需的技术支持,提高检索时仿真资源相关文档的相关度,使仿真资源用户可以快速检索到所需要的信息,以提高仿真应用系统性能。发明内容0005本发明的目的是针对现有通用排序方法的不足,提供一种基于仿真领域的结果排序方法,为实现仿真结果的搜索、管理等功能提供底层支持,使仿真资源用户可以快速检索到所需要的信息。0006本发明提供了一种基于仿真特定领域的仿真信息自动排序方法,包括以下步骤0007一、基于仿真资源的特点,定义仿真领域的仿真因子WF,并基于WF定义文件的重要因子和分割的重要因子说明书CN101968808A2。
11、/6页60008公式10009其中,LF表示分割DIVISION中文本的长度,F表示分割的加权系数,如表1所示0010表1分割权重分配表00110012WJ是某个分割中词J的权重,定义如下0013WJCOETJF公式20014其中COE为词的类别系数,COE的取值要根据该词在仿真领域专业词库中的权重分配表中的位置来确定,仿真领域专业词库权重分配表如表2所示;TJF表示词J在分割中出现的次数;M为分割中包含的词的个数;0015表2仿真领域专业词库权重分配表0016根权重一级分类权重二级分类权重三级分类权重仿真资源1仿真想定11剧情110017说明书CN101968808A3/6页70018分割的。
12、重要因子DIVISIONBOOST和文件的重要因子FILEBOOST的定义分别如下0019公式0020公式40021其中,FILEBOOST表示一个文件的重要因子,而DIVISIONBOOSTI表示文件中第I个分割的重要因子,N表示此文件共包含N个分割;0022二、在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两个词库将待排序文档分割为若干个与排序有关的相关词;0023三、计算每个待排序文档的相关性,具体步骤为00241将文件划分为不同的分割,包括标题区TITLE、摘要区ABSTRACT、主体区BODY,针对文件每一个分割建立相对应的分割字符集,分割字符集是当前文件分割包含的相。
13、关词和查询式对应分割包含的相关词的并集;00252获得待排序文档每个分割的相关度序列S和对应的要查询的文件分割的相关度序列Q,设分割对应的分割字符集包含的相关词的数目为N,则S和Q的长度均为N,即SX1X2X3XN,QY1Y2Y3YN,序列中的每一位用0或者1表示文件信息的状态,如果文件分割不包含分割字符集当前位置的词,则取值0,如文件分割包含字符集里的对应的分量,产生0,15TJF范围内的随机数,如果该数落在0,WI中,取值1,否则取值0;其中WI为分割字符集当前位置的词的权重;00263通过以下公式计算待排序文档每个分割的相关度0027公式80028其中,XI,YI分别是待排序文件中分割的。
14、相关度序列S和对应的要查询的文件分割的相关度序列Q在第I个位置的值;DIVISIONBOOSTK是文件中第K个分割的重要因子;TFI,J是相关词I在文件中的出现频率,通过计算得到,TERMFREQ为相关词在文件中出现的次数,TERMNUM为文件的总词语数;IDFI是相关词I的逆文件频率,通过计算得到,NUMFILES为总文件数,FILEFREQ为出现该相关词的文件数;00294在求出所有分割的相关度之后,通过加权求和的方式计算整个文件的相关度,文件的相关度S的计算公式如下0030公式90031其中,TI表示第I个文件,共M个分割,FK表示文件中第K个分割所带的权值,SRK代表第K个分割所计算出。
15、的分割相关度的值,为体现每个文件的不同权重,利用因子FILEBOOST来表示具体某个文件的重要性;0032四、根据相关度计算结果,实现基于仿真领域的排序。说明书CN101968808A4/6页80033有益效果00341本发明提出的基于仿真特定领域的仿真结果自动排序方法,可以准确地检索出仿真应用相关的信息。00352本发明提出的基于仿真特定领域的仿真结果自动排序方法,具有简单、易行、高效的特点,非常适合目前广泛流行的分布式仿真应用。00363本发明中采用了并行排序的思想,加快了运算速度,从而可以适应仿真规模的不断扩大。附图说明0037图1是基于仿真特定领域的仿真结果自动排序方法总体流程图。00。
16、38图2是仿真领域专业词库权重分配图。具体实施方式0039下面结合附图,具体说明本发明的优选实施方式。0040附图1是本实施例所采用的基于仿真特定领域的仿真结果自动排序方法总体流程图。首先建立仿真因子,并通过仿真因子导出两个重要因子文件的重要因子和分割的重要因子;然后基于改造过的词库之上建立相似度计算模型,计算结果相似度;最后将结果根据相似度的计算结果排序。0041现有的仿真结果信息都可以转换为统一格式的文件来进行表示的,所以,仿真信息的排序可以看作是对文件中关键词,也就是与仿真信息相关的词的相关度的排序。0042本实施方式的具体步骤包括00431、按照发明内容所述,定义仿真领域的仿真因子WF。
17、,并基于WF定义分割的重要因子DIVISIONBOOST和文件的重要因子FILEBOOST;在得到某个分割中词I的权重WI时,根据图2得到该词的类别系数COE,最终仿真专业词的权重是从根开始到最终分类逐级权重的乘积。图2是仿真领域专业词库权重分配图。如图所示,由顶层节点“仿真资源”开始,每一层的每一个节点都代表一类仿真领域的专业词汇,并且每一个节点都拥有一个权值,如果文档中某个节点落入到图中某个节点所覆盖的范围内,则该词的类别系数COE由该节点到顶端节点所经过的节点路径的所有权值相乘得到的乘积表示。例如,“钓鱼岛”一词落入“地理,海洋”所在的节点区域,则该词的权重结果为11413112002;。
18、而“海军军力”一词落入“军力描述”所在的节点区域,则该词的权重计算结果为11112132。00442为了实现排序中仿真领域专业词汇的准确分析,我们基于仿真领域建立仿真领域专业词库。在通用中文词库基础上,我们加入一个仿真领域的专有名词词库,其中的通用中文词库与专有名词词库并不重叠,这样,既可以实现对仿真专业信息文档的准确分词,又可以保持原有信息文档切分的正确性。0045分词过程将排序信息的文档分割为若干个与排序有关的相关词,包括仿真领域的专业相关词,排序过程就是根据这些相关词来实现仿真信息的排序。00463在面向仿真应用的特定领域的排序结果,需要将与仿真领域最相关的结果排在最前面,所以,在排序具。
19、体实现之前,需要对排序信息的仿真领域相关度进行计算。根据前面建立的仿真因子公式,通过以下步骤建立相关度计算模型说明书CN101968808A5/6页900471将文件划分为不同的分割,包括标题区TITLE、摘要区ABSTRACT、主体区BODY,针对文件每一个分割建立相对应的分割字符集,分割字符集是当前文件分割包含的相关词和查询式对应分割包含的相关词的并集;0048例如,待排序文档的标题区包含“仿真资源库综合管理系统”这段文字,查询式的标题区包含“仿真资源”,则分割字符集为“仿真资源仿真资源库综合管理系统”。00492获得待排序文档每个分割的相关度序列S和对应的要查询的文件分割的相关度序列Q,。
20、设分割对应的分割字符集包含的相关词的数目为N,则S和Q的长度均为N,即SX1X2X3XN,QY1Y2Y3YN,序列中的每一位用0或者1表示文件信息的状态,如果文件分割不包含分割字符集当前位置的词,则取值0,如文件分割包含字符集里的对应的分量,产生0,15TJF范围内的随机数,如果该数落在0,WI中,取值1,否则取值0;其中WI为分割字符集当前位置的词的权重;0050仍以上例情况说明,S序列和Q序列在不考虑随机分布的情况分别为11111、10000。注意在序列中为1的位置实际取值取决于每次生成随机数的分布。00513通过以上方法可得到各个分割的相关度序列SI,假定某分割字符集中字符数量是N个,相。
21、关度序列SIX1X2X3XN,要查询的查询式相对应的分割相关度序列QY1Y2Y3YN。则该分割相关度SRK计算公式如下0052公式50053其中XI,YI分别是相关度序列SK和查询式Q的相关度序列在第I个位置的值,WI,K,WI,Q分别是XI,YI对应的相关因子,DIVISIONBOOSTK是文件中第K个分割的重要因子。且0054WI,KTFI,JIDFI公式60055WI,QIDFI公式70056其中,TFI,J是相关词I在文件TJ中的出现频率,IDFI是相关词I的逆文件频率。将公式6、7代入公式5,得到新的分割相关度SRK计算公式如下0057公式800584在求出所有分割的相关度之后,通过。
22、加权求和的方式计算整个文件的相关度。为体现每个文件的不同权重,利用因子FILEBOOST来表示具体某个文件的重要性。文件的相关度S的计算公式如下0059公式90060其中,TI表示第I个文件,共M个分割,FK表示文件中第K个分割所带的权值,SRK代表第K个分割所计算出的分割相关度的值。在实际处理过程中,使用公式8和公式9进行相关度的计算。00614最后,在相关度计算结果的基础上,实现面向仿真应用的自动排序。0062由于排序结果中排在最前的结果必然与相关词最相关,其必然是一个大根堆,所以为了基于相关度计算结果实现排序,本实施方式在计算每个相关文档的相关度之前,说明书CN101968808A6/6。
23、页10先初始化一个堆HEAP来保存计算结果,并以相关度作为键KEY,以文件编号作为值VALUE,将得到的相关度与当前文件编号写入堆中,直到所有文件都遍历完成。0063遍历结束后,再从堆中将所需要的前N个文件的文件编号输出。这样根据按相关度排序的文件编号,便可以在索引中找到文件的相应信息。0064在本实施方式中计算文件相关度与排序实际处于同一个过程,也就是在计算文件相关度的同时直接进行排序。0065本发明不仅限于以上实施例,对上面描述的实施例所作的变化不会脱离本发明的主旨。凡是利用本发明的设计思路,做一些简单变化的设计,都应计入本发明的保护范围之内。说明书CN101968808A1/2页11图1说明书附图CN101968808A2/2页12图2说明书附图。