《一种行业应用软件词根表的分类进退方法.pdf》由会员分享,可在线阅读,更多相关《一种行业应用软件词根表的分类进退方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103116658 A(43)申请公布日 2013.05.22CN103116658A*CN103116658A*(21)申请号 201310077358.X(22)申请日 2013.03.12G06F 17/30(2006.01)(71)申请人中科软科技股份有限公司地址 100080 北京市海淀区中关村新科祥园甲6号楼(72)发明人左春 张正 庞朴 魏萍(74)专利代理机构北京君尚知识产权代理事务所(普通合伙) 11200代理人余长江(54) 发明名称一种行业应用软件词根表的分类进退方法(57) 摘要本发明公开了一种行业应用软件词根表的分类进退方法。本方法为:1)在。
2、词根表数据库中建立一当前库和一历史库,将当前库中的词根按递进分类方法进行分组,每一分组设有一最大容量值;2)根据新词根的适合系数确定其所对应的分组Ti,将其添加到Ti并自动补充该词根的属性;3)如果Ti中词根总数超过其最大容量值ki,则进行降级操作:将该Ti中所有词根按适合系数排序,适合系数最小的词根进入其前一分组Ti-1;4)依次触发降级操作直到某一分组中的词根总数未超过其最大容量值,如果适合系数最低分组T1发生降级,则将T1中适合系数最小词根移到历史库。本发明提升了词根表当前库的稳定性和自我优化能力,以及词根表体系的开放性。(51)Int.Cl.权利要求书2页 说明书4页 附图3页(19)。
3、中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书4页 附图3页(10)申请公布号 CN 103116658 ACN 103116658 A1/2页21.一种行业应用软件词根表的分类进退方法,其步骤为:1)在词根表数据库中建立一当前库和一历史库,将当前库中的词根按照递进分类方法进行分组,每一分组设有一最大容量值;2)当一新词根需要加入词根表时,根据词根的适合系数确定其所对应的分组Ti,将其添加到该分组Ti并自动补充该词根的属性;3)如果该Ti分组中词根总数超过其最大容量值ki,则进行降级操作:将该分组Ti中所有词根按适合系数排序,适合系数最小的词根进入其前一分组Ti-1;4。
4、)依次触发降级操作直到某一分组中的词根总数未超过其最大容量值,如果适合系数最低分组T1发生降级,则将分组T1中适合系数最小词根移到历史库。2.如权利要求1所述的方法,其特征在于根据词根的适合系数将词根表划分为当前库和历史库;将词根表数据库中的词根按照适合系数进行排序,将排序靠前的N个词根放入当前库,剩余的词根进入历史库。3.如权利要求1或2所述的方法,其特征在于所述递进分类方法为按照词根的使用频率将当前库中的词根分为具有递进关系的多个分组。4.如权利要求3所述的方法,其特征在于所述分组的划分方法为:1)根据实际业务中的数据字段名/数据表名,程序变量名/程序表名生成数据字典;2)检索数据字典,确。
5、定词根表中每一词根的使用频率;3)按照词根的使用频率从大到小的顺序,依次将词根表当前库中的词根分为k个使用频率依次降低的分组(Tk、,T2,T1),Ti分组的最大容量设为ki,kiN。5.如权利要求1或2所述的方法,其特征在于根据规范文件ACORD文件、金融术语文件、精编英汉保险词典、保险术语表和保险术语文件计算所述适合系数,其方法为:51)检索保险术语表是否存在该词根英文名称,记为v1,存在则v11,反之则为0;52)检索ACORD文件是否存在该词根英文名称,记为v2,存在则v21,反之则为0;53)检索精编英汉保险词典,确认该词根英文名称的中文含义中是否有对应的中文名称,记为v3,存在则v。
6、31,反之则为0;54)检索保险术语文件是否存在该词根中文名称,记为v4,存在则v41,反之则为0;55)检索金融术语文件是否存在该词根中文名称,记为v5,存在则v51,反之则为0;56)检索精编英汉保险词典,确认该词根中文名称的含义中是否有对应的中文含义,记为v6,存在则v61,反之则为0;57)计算该词根的适合系数fitness1v1+2v2+3v3+4v4+5v5+6v6,其中,1+2+3+4+5+61。6.如权利要求1或2所述的方法,其特征在于对所述当前库进行定期巡查更新,其方法为:首先定期检索数据字典,确认使用频率变化的词根;然后计算使用频率变化的词根的适合系数,根据适合系数将其插入。
7、到相应的目标分组;若目标分组中词根总数超过该分组的最大容量值,则触发降级操作。7.如权利要求1所述的方法,其特征在于对词根的属性进行补充,其方法为:对于中文含义或英文含义为空的词根,自动检索保险术语表和ACORD文件,对词根的中文名称和英文名称进行补充,未检索到则进行标注。权 利 要 求 书CN 103116658 A2/2页38.如权利要求1所述的方法,其特征在于对新词根的属性进行补充的方法为:检索词根表中与新词根匹配的已有词根,根据该匹配词根的中文含义或英文含义对该新词根属性进行补充。9.如权利要求1所述的方法,其特征在于对分类属性为空的词根,自动添加词根的分类属性,其方法为:91)对于一。
8、词根x1(x11x12,x13,x14,x15),首先对x12按照正向最大匹配算法和逆向最大匹配算法相结合进行分词,得到向量x12(x121,x122,x12i,.,x12n);其中,x11为词根x1的中文名称,x12为中文含义,x13为英文名称,x14为英文含义,x15为备注;x12i为x12的分词,n为分词总数;92)利用分类器计算每一分词的类条件概率;93)计算该向量x12属于分类器类ci的概率P(c1|x12)P(xn|c1)*P(ci);其中,P(ci)为某分词属于分类器类ci的先验概率,P(xnl ci)为分词xn的类条件概率;94)取maxP(c1|x12)的最大值,即向量x12。
9、属于此概率最大的分类ct,得到x1(x11,x12,x13,x14,x15,ct)。权 利 要 求 书CN 103116658 A1/4页4一种行业应用软件词根表的分类进退方法技术领域0001 本发明属于行业应用软件建设领域,具体来说,涉及一种对支撑行业应用软件数据字段命名的语义字典表进行分类进退方法。由于业务内容的不断发展,领域知识呈动态的变化趋势,词根表成为一个动态变化的开放系统,使用分类进退方法对其进行适应性设计,可在控制词根表无限膨胀的前提下满足业务需要。本发明不仅能应用于保险领域,对其他领域的行业应用也有指导意义。背景技术0002 词根表是行业应用软件中用以表述领域内容的术语组成的词。
10、码表。词根包括最基础的词及其缩写符号,也可以是某些词根组成的新词,由中英文为基础另加多种语言的词根集合构成词根表。统一词根表便于更大范围的交流和共享。0003 词根是领域概念在软件实现过程中的缩写与约定,是软件设计和实现中各种概念元素命名构造的基本单位。词根的分类进退设计旨在适应行业软件开发规范和标准的发展,统一领域语义,实现软件开发过程成果物的一致性,供开发人员参考遵循,避免不必要的重复工作和资源浪费,提高工作效率和质量。0004 一般而言,一项标准的制定按照立项论证、人员分配、文献检索、起草准备、征求意见稿、审查会及定稿多个步骤完成。而当标准制定后,标准随具体业务环境发展而变化的可能性较小。
11、,具有一定的迟滞性,具体到词根表设计,以往的方法都仅实现封闭的词根表积累,并未实现动态、开放的局部流动,不存在词根表的分类进退设计,因为存在大量重复工作和资源浪费,工作效率低且质量差。发明内容0005 针对现有技术中存在的技术问题,本发明的目的在于提供一种行业应用软件词根表的分类进退方法。基于此分类进退设计生成的词根表反映了行业业务的实际发展需求,也解决了词根表无限膨胀的问题。词根表是行业应用软件构建和实施的基础,是开发过程一系列成果物的重要支撑。完善、规范的词根表,有助于提高开发效率,提升软件品质。0006 IDC“中国保险解决方案2009-2013市场预测与分析”指出,中科软在保险行业IT。
12、解决方案(包括财产险核心业务系统、寿险核心业务系统、ERM、多渠道客户服务、网上保险系统、再保险业务处理系统等)提供商的收入及市场份额连续五年均排名第一。0007 为实现上述目的,本发明的解决方案是:0008 列举词根表的分类0009 词根表可按照不同的规则进行多种分类,如单分类、组合分类等。0010 (1)单分类0011 可将词根表按照不同的属性进行单一分类,如分为应用/备用、业务/财务等,这一分类形式称为单分类。0012 (2)递进分类说 明 书CN 103116658 A2/4页50013 可将词根表根据不同的属性进行递进分类,如(基础,通用)、(核心、通用)、(基础、专用)、(核心、专。
13、用)等。递进分类之间有递进关系,词根可按照一定规则在不同的组合分类之间变动。0014 该方法的主要思想是:词根表可按照分类方法分为递进的不同类别,分类进退设计是指词根表分为当前库和历史库,将当前库分为多个具有递进关系的“个体”容量一定的分组。当发生如下两种情况:0015 1)插入(新“个体”需要加入已分组的当前库时);0016 2)巡查(定期,如每半年检索数据字典,确定当前库所有使用频率有变化的“个体”);0017 将触发升级和降级规则,从而最终实现词根表内“个体”在分组之间的流动和循环。词根表的优化设计步骤如下:0018 (1)检索数据字典,按照使用频率将当前库分为具有递进关系的多个分组;0。
14、019 (2)当有新“个体”需要加入词根表时,计算其“适合系数”,并自动补充相关属性;0020 (3)根据该“个体”的适合系数,将其自动添加到当前库Ti分组;0021 (4)如果Ti分组“个体”总数超过其“个体”容量ki,则将该分组Ti中所有“个体”按“适合”系数排序,“适合系数”最小的“个体”进入其前一分组Ti-1,依次触发降级操作,适合系数最低分组T1分组“个体”若发生降级,则将适合系数最小词根直接进入历史库;0022 (5)定期(如每半年)检索数据字典,确认使用频率变化的“个体”;0023 (6)计算使用频率变化的个体的适合系数,将其插入到相应的目标分组;0024 (7)若目标分组“个体。
15、”数超过其“个体”容量,则触发新的降级操作;0025 (8)进入(5),直到新“个体”需要加入,进入(2)。0026 与现有技术相比,本发明的积极效果为:0027 本发明在词根表这一指导行业软件开发的标准制定过程中,采用了循环优化的方法,提升了标准对具体业务环境反映的准确性和对具体业务指导的实时性。由于采用分类进退设计方法,提升了词根表当前库的稳定性和自我优化能力,同时由于历史库是容错的、开放的,从而提升整个词根表体系的开放性,以便在行业应用软件中有效的使用,与现有方法论相比,本发明有本质的差别。事实上,特定领域内的语义字典积累及其分类进退发展具有重要意义。中科软凭借在行业应用领域的经验和领域。
16、知识积累,实现了分类进退设计的词根表在保险领域内的良好实践。附图说明0028 图1词根表变化对行业应用软件开发的影响;0029 图2新词根加入时词根表分类进退步骤流程图;0030 图3为定期巡查时词根表分类进退步骤流程图;0031 图4为文本分类方法流程图;0032 图5为分类进退降级方法流程图。0033 具体实现方式0034 下面结合附图对本发明进行进一步详细描述。0035 1)有新“个体”加入时,词根表分类进退步骤流程如图2所示。说 明 书CN 103116658 A3/4页60036 2)定期检索数据字典,确定使用频率发生变化的个体,词根表分类进退步骤流程如图3所示。0037 注1 初始。
17、词根表分组规则0038 (1)根据“适合”系数将词根表分为当前库和历史库,当前库个体“容量”为N(N为固定数,如5000),历史库“个体”容量为M(M不固定);0039 (2)根据已有数据字段名/数据表名,程序变量名/程序表名生成数据字典,确定词根个体的使用频率;0040 (3)检索数据字典,确定词根表每一“个体”的使用频率,按照使用频率从大到小的顺序,依次将词根表当前库分为Tk、.,T2,T1等k个使用频率依次降低的分组,每个组的最大“个体”容量为ki,kiN,历史库G1的“个体”容量可以无限大。0041 注2 计算“个体”的“适合”系数0042 根据规范文件 ACORD/保险术语/金融术语。
18、/词典/保险术语表,形成中英文名称的“适合”系数计算算法,计算不同“个体”的“适合”系数大小:0043 1)检索保险术语表是否存在该词英文名称,记为v1,存在则v11,反之则为0;0044 2)检索ACORD文件是否存在该词英文名称,记为v2,存在则v21,反之则为0;0045 3)检索精编英汉保险词典,确认该英文名称的中文含义中是否有对应的中文名称,记为v3,存在则v31,反之则为0;0046 4)检索保险术语文件是否存在该词中文名称,记为v4,存在则v41,反之则为0;0047 5)检索金融术语文件是否存在该词中文名称,记为v5,存在则v51,反之则为0;0048 6)检索精编英汉保险词典。
19、,确认该中文名称的含义中是否有对应的中文含义,记为v6,存在则v61,反之则为0;0049 7)计算“个体”的“适合”系数为:0050 fitness1v1+2v2+3v3+4v4+5v5+6v6(1+2+3+4+5+61);0051 8)若不同“个体”的“适合”系数相等,则进行标注供人工定时处理。0052 注3 对新加入“个体”添加其他属性0053 (1)对于中文含义或英文含义为空的“个体”,自动检索保险术语表(中文含义)和ACORD文件(英文含义)进行补充,未检索到则进行标注供人工操作;0054 (2)新“个体”检索匹配到库中“个体”且仅有一个中文含义或英文含义时,直接补充为该中英文含义;。
20、0055 (3)对于分类属性为空的“个体”,自动添加分类属性,首先对个体进行分类,其流程如图4所示。0056 输入:词根x1(x11,x12,x13,x14,x15)【以向量x1为例,x11为中文名称,x12为中文含义,x13为英文名称,x14为英文含义,x15为备注】0057 输出:x1(x11,x12,x13,x14,x15,x16)(x16为分类)0058 (1)对x12按照正向最大匹配算法和逆向最大匹配算法相结合进行分词,按照停用词表,进行停用词处理,得到向量x12(x121,x122,x123,.,x12n);x12i为x12的分词,n为分词总数;0059 (2)计算培训集每一分类中。
21、词的数量Ni(可重复)以及整个培训库中词的数量说 明 书CN 103116658 A4/4页7M(不重复计算),则先验概率0060 (3)计算类条件概率P(x12i|ci)(ci类下词x12i在培训集中出现的次数之和+1)/(ci类单词总数+培训库词数M);0061 (4)计算向量x12属于ci的概率P(ci|x12)P(xn|c1)*P(ci);0062 (5)maxP(ci|x12)的最大值,向量x12属于此概率最大的分类ct;0063 (6)得到x1(x11,x12,x13,x14,x15,ct)。0064 注4 降级规则,其流程如图5所示。0065 (1)当词根表某分组Ti“个体”数达到“个体”容量ki以上,则按照个体“适合”系数的高低对该组所有“个体”进行排序;0066 (2)将前ki个“个体”留在当前分组;0067 (3)第ki+1个“个体”(即“适合”系数最小的“个体”)放入其前一分组Ti-1,若此时Ti-1分组的“个体”数大于其“个体”容量,则重复(1)-(3),直到降级结束。说 明 书CN 103116658 A1/3页8图1图2说 明 书 附 图CN 103116658 A2/3页9图3图4说 明 书 附 图CN 103116658 A3/3页10图5说 明 书 附 图CN 103116658 A10。