《一种法律数据库构建方法及法律检索服务方法.pdf》由会员分享,可在线阅读,更多相关《一种法律数据库构建方法及法律检索服务方法.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104008171 A (43)申请公布日 2014.08.27 C N 1 0 4 0 0 8 1 7 1 A (21)申请号 201410242810.8 (22)申请日 2014.06.03 G06F 17/30(2006.01) G06Q 50/18(2012.01) (71)申请人中国科学院计算技术研究所 地址 100190 北京市海淀区中关村科学院南 路6号 (72)发明人刘婕 张程 赵晓芳 (74)专利代理机构北京泛华伟业知识产权代理 有限公司 11280 代理人王勇 李科 (54) 发明名称 一种法律数据库构建方法及法律检索服务方 法 (57) 摘要 。
2、本发明提供一种法律数据库构建方法,包括: 1)对于一个新的法律文本,按条目拆分所接收的 法律文本,得到相应的法律条目文档并创建相应 的唯一标识;2)对每个法律条目文档进行分词, 对于分词所得的每个词项,在基于内容的倒排索 引中建立或更新该词项所对应的唯一一条记录, 所述基于内容的倒排索引的每条记录均包括:内 容中出现该条记录所对应词项的每个法律条目文 档及相应的索引信息;3)回到步骤1)处理下一个 法律文本直至所有法律文本均处理完毕。本发明 还提供了相应的检索服务方法。本发明使得一次 检索即可获得精确到法律条目的检索结果。 (51)Int.Cl. 权利要求书2页 说明书8页 附图3页 (19)。
3、中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书8页 附图3页 (10)申请公布号 CN 104008171 A CN 104008171 A 1/2页 2 1.一种法律数据库构建方法,包括下列步骤: 1)对于一个新的法律文本,按条目拆分所接收的法律文本,得到相应的法律条目文档 并创建相应的唯一标识; 2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排索引 中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均包 括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息; 3)回到步骤1)处理下一个法律文本直至所有法。
4、律文本均处理完毕。 2.根据权利要求1所述的法律数据库构建方法,其特征在于,所述步骤2)中,所述索 引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频; 其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。 3.根据权利要求2所述的法律数据库构建方法,其特征在于,所述步骤2)包括下列子 步骤: 21)遍历拆分得到的每个法律条目文档,对于当前法律条目文档,对其进行分词; 22)遍历分词得到的所有词项,对每一个词项,计算当前词项出现在所述当前法律条目 文档中的词频,在基于内容的倒排索引中查找对应于所述当前词项的记录,如果查找到已 存的所述当前词项的记录,在。
5、记录中增加所述当前法律条目文档的标识,以及所述当前词 项在所述当前法律条目文档中出现的词频,并更新所述当前词项的逆文档频率;如果未查 找到已存的所述当前词项的记录,则在所述基于内容的倒排索引的词典中增加所述当前词 项,同时增加一条新的记录,所述新的记录包括所述当前词项的逆文档频率,所述当前法律 条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频。 4.一种基于权利要求1所述法律数据库构建方法的法律检索服务方法,包括下列步 骤: 4)获取作用于内容域的检索向量; 5)对于检索向量中的每个关键词,根据基于内容的倒排索引,找到内容中出现该关键 词的每个法律条目文档及相应的索引信息; 。
6、6)根据相应的索引信息对命中的法律条目文档进行排序。 5.根据权利要求4所述的法律检索服务方法,其特征在于,所述步骤5)中,所述索引信 息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其 中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。 6.根据权利要求5所述的法律检索服务方法,其特征在于,所述步骤6)包括下列子步 骤: 61)对于步骤5)中命中的每个法律条目文档,得到维度与所述检索向量一致的法律条 目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根据步 骤5)所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键。
7、词的词 频得出; 62)将法律条目文档向量和检索向量的相似度作为相应法律条目文档在内容域的检索 相似度,根据所述检索相似度对各个命中的法律条目文档进行排序。 7.根据权利要求6所述的法律检索服务方法,其特征在于,所述步骤62)中,所述的法 律条目文档向量和检索向量的相似度为法律条目文档向量和检索向量的余弦相似度。 权 利 要 求 书CN 104008171 A 2/2页 3 8.根据权利要求7所述的法律检索服务方法,其特征在于,所述步骤6)中,所述法律条 目文档向量中,每个元素的值为步骤5)所找到的该元素所对应的关键词的逆文档频率,和 该法律条目文档的内容中出现该元素所对应的关键词的词频的乘积。
8、。 9.根据权利要求6所述的法律检索服务方法,其特征在于,所述法律条目文档包括元 信息和内容,所述元信息包括法律条目所属法律文本的标题,以及法律条目在所属法律文 本中的所属章节和编号。 10.根据权利要求9所述的法律检索服务方法,其特征在于,所述步骤6)还包括:将命 中的法律条目文档的所属法律作为命中法律,根据各个命中的法律条目文档的所述检索相 似度,得出每个命中法律的检索相似度对各个命中法律进行排序,然后依排序显示每个命 中法律中的命中的各个法律条目文档的内容和元信息。 11.根据权利要求10所述的法律检索服务方法,其特征在于,所述法律检索服务方法 还包括步骤: 7)对于每个命中法律,根据该。
9、命中法律与所述法律数据库中其它法律的相似度,查找 并显示该命中法律的相关法律; 所述相关法律根据法律之间的相似度确定,其中,两个法律之间的相似度按下述方法 得出:对所有法律标题进行分词获得一系列词项,并根据词性提取出标题中的属于主语结 构、谓语结构和宾语结构的词项,用所提取出的词项构成特征子空间,将所有法律标题都转 换为所述特征子空间上的词项向量的表述形式,将两个法律标题所对应的两个词项向量的 在所述特征子空间的相似度作为所述两个法律之间的相似度。 12.根据权利要求11所述的法律检索服务方法,其特征在于,所述步骤7)中,对于每个 命中法律,显示该命中法律与其相关法律的关联关系图,所述关联关系。
10、图包括:一系列点和 连接各点的边,每个点代表所述命中法律或者一个该命中法律的一个相关法律,每条边上 显示其两个端点所对应的两个法律之间的相似度。 权 利 要 求 书CN 104008171 A 1/8页 4 一种法律数据库构建方法及法律检索服务方法 技术领域 0001 本发明涉及计算机文本信息检索,具体地说,本发明涉及一种法律数据库构建方 法及法律检索服务方法。 背景技术 0002 信息检索是指将记录信息的资料按一定的方式组织和存储起来,并根据用户的需 要找出有关信息的过程。利用信息检索技术,人们可以更加容易的从海量的资料中寻找到 需要的知识,提高了知识获取的效率。 0003 法律检索系统是将。
11、信息检索技术作用于法律法规文本的一种应用,可以帮助各级 人大机关、党政机关,法院、检察院、律师事务所等法律从业机构的工作人员,快速找到所需 的法律法规信息。同时,法律检索系统也向社会大众提供法律检索服务。 0004 目前的法律检索系统,如全国人大的“中国法律法规检索系统”,北京大学的“北大 法宝”等,都是针对法律法规全文及其标题、日期、发布部门、法规分类、效力级别、时效性等 元数据组合信息进行检索,返回的检索结果以法律法规全文为基本单位。然而用户往往需 要找到案情可能适用的法条,所以在获得检索结果后,用户还需要进一步地自行查找相关 法条。 0005 另一方面,用户往往期望找到与案情相关的所有相。
12、关法条,目前的法律检索都是 对关键字的精确匹配,如果关键字不够准确,检索出的结果就可能存在遗漏,有的相关法条 可能不在检索结果范围之内。因此为找到更多的相关法条,用户往往需要尝试使用多种关 键字或关键字组合,进行多次、反复检索,才能最终找到所需的多个相关法律条目。因此,现 有法律检索的便捷性亟待提高。 0006 因此,当前迫切需要一种能够帮助用户更快速地找到所需的法律法规信息的法律 检索服务方案。 发明内容 0007 因此,本发明的任务是克服现有技术的不足,提供一种能够帮助用户更快速地找 到所需的法律法规信息的法律检索服务方案。 0008 本发明提供了一种法律数据库构建方法,包括下列步骤: 0。
13、009 1)法律数据库接收一个新的法律文本,按条目拆分所接收的法律文本,得到相应 的法律条目文档并创建相应的唯一标识; 0010 2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排 索引中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均 包括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息; 0011 3)回到步骤1)接收下一个法律文本并进行相应的处理,直至所有法律文本均处 理完毕。 0012 其中,所述步骤2)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应 说 明 书CN 104008171 A 2/8页 5 词项出现在。
14、每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律 条目文档的逆文档频率。 0013 其中,所述步骤2)包括下列子步骤: 0014 21)遍历拆分得到的每个法律条目文档,对于当前法律条目文档,对其进行分词; 0015 22)遍历分词得到的所有词项,对每一个词项,计算当前词项出现在所述当前法律 条目文档中的词频,在基于内容的倒排索引中查找对应于所述当前词项的记录,如果查找 到已存的所述当前词项的记录,在记录中增加所述当前法律条目文档的标识,以及所述当 前词项在所述当前法律条目文档中出现的词频,并更新所述当前词项的逆文档频率;如果 未查找到已存的所述当前词项的记录,则在所述基于内。
15、容的倒排索引的词典中增加所述当 前词项,同时增加一条新的记录,所述新的记录包括所述当前词项的逆文档频率,所述当前 法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频。 0016 本发明还提供了一种基于上述法律数据库的法律检索服务方法,包括下列步骤: 0017 4)获取作用于内容域的检索向量; 0018 5)对于检索向量中的每个关键词,根据基于内容的倒排索引,找到内容中出现该 关键词的每个法律条目文档及相应的索引信息; 0019 6)根据相应的索引信息对命中的法律条目文档进行排序。 0020 其中,所述步骤5)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应 词项出现。
16、在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律 条目文档的逆文档频率。 0021 其中,所述步骤6)包括下列子步骤: 0022 61)对于步骤5)中命中的每个法律条目文档,得到维度与所述检索向量一致的法 律条目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根 据步骤5)所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键词 的词频得出; 0023 62)将法律条目文档向量和检索向量的相似度作为相应法律条目文档的检索相似 度,根据所述检索相似度对各个命中的法律条目文档进行排序。 0024 其中,所述步骤62)中,所述的法律条目文档向量。
17、和检索向量的相似度为法律条 目文档向量和检索向量的余弦相似度。 0025 其中,所述步骤6)中,所述法律条目文档向量中,每个元素的值为步骤5)所找到 的该元素所对应的关键词的逆文档频率,和该法律条目文档的内容中出现该元素所对应的 关键词的词频的乘积。 0026 其中,所述法律条目文档包括元信息和内容,所述元信息包括法律条目所属法律 文本的标题,以及法律条目在所属法律文本中的所属章节和编号。 0027 其中,所述步骤6)还包括:将命中的法律条目文档的所属法律作为命中法律,根 据各个命中的法律条目文档的所述检索相似度,得出每个命中法律的检索相似度对各个命 中法律进行排序,然后依排序显示每个命中法律。
18、中的命中的各个法律条目文档的内容和元 信息。 0028 其中,所述法律检索服务方法还包括步骤: 0029 7)对于每个命中法律,根据该命中法律与所述法律数据库中其它法律的相似度, 说 明 书CN 104008171 A 3/8页 6 查找并显示该命中法律的相关法律; 0030 所述相关法律根据法律之间的相似度确定,其中,两个法律之间的相似度按下述 方法得出:对所有法律标题进行分词获得一系列词项,并根据词性提取出标题中的属于主 语结构、谓语结构和宾语结构的词项,用所提取出的词项构成特征子空间,将所有法律标题 都转换为所述特征子空间上的词项向量的表述形式,将两个法律标题所对应的两个词项向 量的在所。
19、述特征子空间的相似度作为所述两个法律之间的相似度。 0031 其中,所述步骤7)中,对于每个命中法律,显示该命中法律与其相关法律的关联 关系图,所述关联关系图包括:一系列点和连接各点的边,每个点代表所述命中法律或者 一个该命中法律的一个相关法律,每条边上显示其两个端点所对应的两个法律之间的相似 度。 0032 与现有技术相比,本发明具有下列技术效果: 0033 1、一次检索即可获得精确到法律条目的检索结果。 0034 2、不仅能获得与检索语句匹配的法律条目,还可以进一步获得所有相关法律,从 而帮助用户更全面地找到与案情相关的所有法条,降低了法律法规信息的检索难度。 附图说明 0035 以下,结。
20、合附图来详细说明本发明的实施例,其中: 0036 图1示出了本发明一个实施例的整体流程示意图; 0037 图2示出了本发明一个实施例中建立以法律条目文档为存储单元的法律数据库 的流程示意图; 0038 图3示出了本发明一个实施例中的倒排索引中词典与索引记录表的结构实例; 0039 图4示出了本发明一个实施例中的检索服务的流程示意图; 0040 图5示出了本发明一个实施例中的关联检索服务的流程示意图; 0041 图6示出了本发明一个实施例中的命中法律及其相关法律的关联关系图示例。 具体实施方式 0042 根据本发明的一个实施例提供了一种法律检索服务方法,如图1所示,它包括三 个部分。第一部分是:。
21、建立以法律条目文档为存储单元的法律数据库,以及相应的倒排索 引。第二部分是:接收检索语句,基于法律数据库及相应的倒排索引,返回精确到法律条目 的检索结果。第三部分是:基于第二部分的检索结果,进一步查找检索结果所属法律的相关 法律,并将所找到的相关法律加入检索结果。下面对这三个部分分别进行详细描述。 0043 一、建立以法律条目文档为存储单元的法律数据库,以及相应的倒排索引。现有技 术中,通常由整部法律构成一个法律文档,法律数据库通常以法律文档为单位存储法律数 据。而本实施例中,法律数据库中以法律条目文档为基本存储单元。即每个法律条目各自 构成一个文档。为便于理解,下面以中华人民共和国全国人民代。
22、表大会及地方各级人民代 表大会选举法这一法律文档为例进行说明。该法律文档中,其文本主要包括:标题,题注, 目录,正文。 0044 图2示出了本发明一个实施例中建立以法律条目文档为存储单元的法律数据库 的流程示意图,参考图2,将法律文档依次输入法律数据库,对于每个法律文档,执行下列步 说 明 书CN 104008171 A 4/8页 7 骤11至14。 0045 步骤11:对法律文档结构进行识别及拆分。通过预先定义的规则,识别法律文档 的结构信息,如篇、章、节;进一步识别并定位法律文本中的每一条目,并将其按条目一一拆 分。其中,将正文按条目拆分为N个子文档,以中华人民共和国全国人民代表大会及地方。
23、 各级人民代表大会选举法的法律文档为例,其条目共有66条,所以,将其拆分为66个子文 档。其中,每个子文档均包括:法律条文内容,所属法律标题及其在所属法律中的层次结构。 例如:中华人民共和国全国人民代表大会及地方各级人民代表大会选举法第一条所对应 的子文档存储有法律条文内容:根据中国人民政治协商会议共同纲领第十二条,中华人民 共和国全国人民代表大会及地方各级人民代表大会由各民族人民用普选方法产生之;所属 法律标题:中华人民共和国全国人民代表大会及地方各级人民代表大会选举法;在所属法 律中的层次结构:第一章第一条。 0046 步骤12:对拆分好的子文档(即法律条目文档)建立索引。经过拆分后,将每。
24、一 个条目作为一个子文档,在内容域上进行分词(即对子文档的内容部分进行分词),对于 分词得到的每个词项(重复出现的词汇被视作同一词项),统计其词频(tf)及逆文档频率 (idf),并在此基础建立倒排索引。倒排索引分为词典和倒排记录表两部分。图3示出了一 个倒排索引中词典与索引记录表的结构实例。如图3所示,对于一条记录,由一个词项作为 其唯一标识,存储在倒排索引的词典中。同时,词典中还存储倒排记录表中对应记录的链 接以及该条记录的词项在法律数据库中的逆文档频率,需注意的是该逆文档频率是基于法 律数据库中的所有法律条目文档所计算的逆文档频率,而非常见的基于法律文档所计算的 逆文档频率。在倒排记录表。
25、中,每条记录以链表的形式存储,包含了所有出现该词项的法 律条目,如图3的倒排记录表中对应于词项1的记录,其四个节点分别代表法律条目文档 1,2,3,4,这表示法律条目文档1,2,3,4中都出现了词项1,对应于词项2的记录,其两个节 点分别代表法律条目文档5,6表示法律条目文档5,6中都出现了词项2。其中,每个代表法 律条目文档的节点均记录法律条目的id,词项出现在该法律条目子文档中的频率,以及词 项出现在该法律条目子文档中的位置等其他信息。 0047 步骤13:对法律的标题,以及发布时间,发布机构等其它信息域建立索引。其中, 对标题进行分词而后建立相应的倒排索引,其它各域不进行分词,而是将每一。
26、个域的整体 内容作为一个词项。例如:发布机构为中央人民政府委员会时,在该倒排索引中,“中央人民 政府委员会”整体作为一个词项。 0048 步骤14:将内容域、标题域以及发布时间,发布机构等其它元数据信息域的多个 倒排索引以文件的形式存储在系统中。 0049 二、接收检索语句,基于法律数据库及相应的倒排索引,返回精确到法律条目的检 索结果。本实施例可以提供多域组合检索服务。同时,它可以将属于同一部法律法规的多 条相关条目归为一类,并组合显示。通常来说,检索服务分可为简单和高级两种模式。简单 模式是在标题和内容域上检索相同的检索语句,该模式下用户直接输入检索语句即可。高 级模式则可以通过元数据信息。
27、域支持对于元数据的枚举筛选,该模式下用户需要指定需要 检索的域以及在该域上输入检索语句或选择枚举值。例如“内容:消费权益保障&标题:保 护法&发布机构(枚举值):全国人民代表大会”。检索服务返回检索相关的条目内容与其 元数据信息。检索语句可以是词汇(如“经济”)、词汇集合(如“经济政策”)或短语(如 说 明 书CN 104008171 A 5/8页 8 “经济政策” )。针对不同的信息域,通常会有不同的检索服务方式,例如,对内容域和标题 域,检索语句通常需要进行分词,而其它元信息域的检索语句则不做分词处理,直接把检索 语句作为相应元信息域的关键词即可。本实施例的精确到法律条目的检索主要是指作用。
28、于 内容域的检索服务上,因此下文中主要对作用于内容域的检索服务进行描述,其余与本发 明主旨无关的部分,本文中不再赘述。 0050 图4示出了本发明一个实施例中的检索服务的流程示意图,参考图4,检索服务包 括下列步骤21至24。 0051 步骤21:接收作用于内容域的检索语句。如前文所述,检索语句可以是词汇(如 “经济”)、词汇集合(如“经济政策”)或短语(如“经济政策”)。 0052 步骤22:对检索语句进行分词,获得相应的一个或多个检索关键词,组成检索向 量。 0053 步骤23:在内容域上,对于每个关键词,基于该域的倒排索引,找到该关键词的逆 文档频率,出现该关键词的每个法律条目文档,以及。
29、该关键词在相应法律条目文档中的词 频。倒排索引中存储了法律数据库中属于该域的所有词项的索引记录,查找到关键词对应 的词项的索引,就可得到所需的信息。例如关键词为“经济”和“政策”时,在倒排索引分别 查找到词项“经济”的索引记录以及“政策”的索引记录,这样就可以从“经济”的索引记录 中得到词项“经济”的逆文档频率,含有“经济”的每个法律条目文档,以及“经济”在每个法 律条目文档中出现的词频。同样地,从“政策”的索引记录中,获取词项“政策”的逆文档频 率,含有“政策”的每个法律条目文档,以及“政策”在每个法律条目文档中出现的词频。此 时,对词项“经济”和“政策”的法律条目文档列表取并集,就获得了该。
30、域上所有的与检索相 关的文档。如果所选择的是高级检索模式,则在所有域上基于对应的一个或多个关键词进 行检索。 0054 步骤24:计算查找到的每个法律条目文档的检索相关度,根据检索相关度对查找 到的各法律条目文档进行排序,其中检索相关度越大,排序越靠前。然后将排序后的所述查 找到的各法律条目文档的信息作为检索结果。其中,对于仅作用于内容域的检索,基于步骤 23得到维度与所述检索向量一致的法律条目文档向量,所述法律条目文档向量的每个元素 对应于一个关键词,每个元素的值根据步骤23所找到的该关键词的逆文档频率,以及该法 律条目文档的内容中出现该关键词的词频得出。可以直接将法律条目文档向量和检索向量。
31、 的相似度作为相应法律条目文档的在内容域的检索相似度,根据所述检索相似度对各个命 中的法律条目文档进行排序。这样就能呈现出检索语句在内容域上的综合检索结果。所述 的法律条目文档向量和检索向量的相似度为法律条目文档向量和检索向量的余弦相似度。 所述法律条目文档向量中,每个元素的值为步骤23所找到的该元素所对应的关键词的逆 文档频率和该法律条目文档的内容中出现该元素所对应的关键词的词频的乘积。 0055 而对于高级模式的检索,一个法律条目文档的检索相关度是该法律条目文档对应 于各个域的相关度的线性加权和,一个法律条目文档对应于一个域的相关度等于在文本的 向量空间模型下,该域上的条目文档的向量表示和。
32、检索内容的向量表示(即检索向量)的 余弦相似度。条目文档的向量表示中,用词项的逆文档频率与该词项在该法律条目文档中 的词频的乘积作为每一维的数值,检索内容的向量表示中,则只用词项的词频作为每一维 的数值。这样就能呈现出检索语句的综合检索结果,并且其排序考虑了各个域,及各域上多 说 明 书CN 104008171 A 6/8页 9 个关键词的不同影响。 0056 进一步地,在一个实施例中,根据步骤24中查找到的法律条目文档(即命中的法 律条目文档)的所属法律,以法律为基础的对法律条目文档进行整合归类。计算整个法律 文本的检索相关度并基于整个法律文本的检索相关度参与检索相关度排序,整个法律文本 的。
33、检索相关度等于所查找到的属于它的各个法律条目文档的检索相关度之和。这样就将检 索获得的条目列表按照法律进行整合归类,并在原有的条目相关度的基础上,重新计算法 律的相关度值,重新排序,达到以法律为单位集中显示,并仅列出该部法律中相关条目而非 全文,且法律中的条目按相关度有序的呈现效果。这种方案能够使得检索结果更有逻辑性, 更加美观且便于用户浏览。 0057 三、基于第二部分的检索结果,进一步查找检索结果所属法律的相关法律,并将所 找到的相关法律加入检索结果。这一部分实质上是一种关联检索服务,它针对法律法规这 种具有一定规范化结构的文本,进行关联度的计算,并提取出关联的图形化描述,从而更加 直观地。
34、展示法律法规直接的关联,以便于用户查阅与检索结果相关联的信息。 0058 图5示出了本发明一个实施例中的关联检索服务的流程示意图,参考图5,关联检 索服务包括下列步骤31至34。 0059 步骤31:法律特征提取。由于法律文本具有一定的规范化结构,特别是其命名,很 大程度上表明了法律法规所关心的领域和主题。因此,可以通过对其标题进行分析,获取法 律主题,并将其用特征向量子空间下的向量表示。其中,根据对法律法规标题的分析,其标 题的语法结构相对简单,标题中的主语、宾语(名词部分)和谓语(动词部分)基本涵盖了 法律法规主要表达的内容。通过分词以及词性分析,能够容易的找到标题中的主、谓、宾语 成分,。
35、并将其提取为代表标题的特征。 0060 下面结合具体三篇法律标题的具体例子进行说明。首先经过中文分词,将法律的 标题拆分成一个个词项。其中,对于法律1的标题:中华人民共和国外商投资企业和外国企 业所得税法,其分词结果为: 0061 中华人民共和国外商投资企业和外国企业所得税法 0062 对于法律2的标题:关于外国投资者并购境内企业的规定,其分词结果 0063 为: 0064 关于外国投资者并购境内企业的规定 0065 对于法律3的标题:关于电子专利申请的规定,其分词结果为: 0066 关于电子专利申请的规定 0067 这三篇法律标题组成的向量空间为所有词项所构成的集合,具体如下:并购, 的,电。
36、子,法,关于,规定,和,境内,企业,申请,所得税,投资,投资者,外国,外商,中华人民 共和国,专利。 0068 将每篇法律标题均用属于上述向量空间的向量表示,向量中每个元素代表一个词 项,该元素的值代表相应的词频。 0069 具体地三篇法律标题的向量表示如下: 0070 说 明 书CN 104008171 A 7/8页 10 0071 进一步地,为了排除与法律主题无关词项的干扰,还可以在对法律标题分词后进 行词性识别,找到标题中的主、谓、宾语成分,并将其提取为代表标题的特征,进而构成特征 向量。其中,法律标题的固定后缀,例如规定,通知,法等,也可视为与法律主题无关的词项, 这些与内容无关的后缀。
37、也予以去除。 0072 在示例中,对于法律1的标题:中华人民共和国外商投资企业和外国企业所得税 法,分词结果为: 0073 中华人民共和国/名词外商/名词投资/动词企业/名词和/连词外国/名词企 业/名词所得税/名词法/名词 0074 对于法律2的标题:关于外国投资者并购境内企业的规定,分词结果为: 0075 关于/介词外国/名词投资者/名词并购/动词境内/处所词企业/名词的/助 词规定/名词 0076 对于法律3的标题:关于电子专利申请的规定,其分词结果:关于/介词电子/名 词专利/名词申请/动词的/助词规定/名词 0077 此时,获得的三篇标题的特征子空间为: 0078 电子,企业,所得税。
38、,投资,投资者,外国,外商,中华人民共和国,专利 0079 在特征子空间中的三篇法律的向量表示如下: 0080 电子企业所得税投资投资者外国外商中华人民共和国专利 0 2 1 1 0 1 1 1 0 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 0081 步骤32:法律相似度计算。如上文所述,通过特征提取,可以将法律法规的标题描 述为在特征子空间中的词项向量。即使用向量空间模型表示法律标题,但将空间限制为所 有的提取的特征词项。此时,可以将在特征子空间中法律法规的标题相似度作为法律的相 似度。 0082 在一个实施例中,法律的相似度是两篇法律标题在特征向量子空间上计算。
39、的余弦 相似度。 0083 说 明 书CN 104008171 A 10 8/8页 11 0084 对于前文例子中的法律1、法律2、法律3,相似度计算结果如下: 0085 0086 CosSimilarity(法律1,法律3)0 0087 CosSimilarity(法律2,法律3)0 0088 步骤33:基于法律之间的相似度,返回与第二部分检索结果中的法律相关联的法 律。为了减小实际的计算量,以及避免生成关联度过小的关联关系,在提取关联关系之前, 先对法律进行聚类,生成数个内部具有较大相似度的法律法规集合。其中,利用计算得到的 余弦相似度即可对法律进行聚类,采用层次聚类方法,基于预设的阈值,。
40、将相似度较大的法 律聚为一类。例如,法律1和法律2将被聚为一类,法律3属于另一类。聚类中记录两两之 间的相似度值,以便于在返回关联检索结果时进行排序。关联关系的提取只在聚类内部进 行。在一个例子中,根据查询关键字,系统获得了N部匹配的法律,如检索“所得税”,将会返 回“中华人民共和国外商投资企业和外国企业所得税法”。同时,系统将检索预先存储的法 律关联聚类结果,获得法律1所在的聚类,从该聚类中获取满足阈值设定的前K部关联法律 (以相似度值进行排序),如法律2,将作为法律1的关联检索结果返回。法律3则因不属于 同一聚类,不会作为法律1的关联检索结果返回。 0089 进一步地,在返回关联结果时,作。
41、为关联检索结果的多个法律可根据它与第二部 分检索结果中的法律之间的相似度进行排序。与第二部分检索结果中的法律的相似度较大 的关联法律排序靠前。 0090 同时,对于提出得到的关联法律,根据预先存储的法律两两之间的相似度值,生成 关联关系的图结构描述:G(V,E)。点(V)代表包括检索结果中的法律与其关联法律的集合, 边(E)代表着其连接的两个节点(两部法律)之间存在关联关系,边的长度短,说明关系越 紧密,即两部法律的相似度越大。每条边上还可以进一步显示其两个端点所对应的两个法 律之间的相似度数值。 0091 图6示出了本发明一个实施例中的命中法律及其相关法律的关联关系图示例。由 图6可知,命中。
42、法律与关联法律2相似度最大,与关联法律3相似度最小,并且,关联法律1 与关联法律2之间也有相似之处。 0092 上述实施例中,基于法律条目文档及相应的倒排索引构建全新的法律数据库,使 得一次检索即可获得精确到法律条目的检索结果。并且,上述实施例不仅能获得与检索语 句匹配的法律条目,还可以进一步获得所有相关法律。而现有技术中,为找到更多的相关法 条,用户往往需要尝试使用多种关键字或关键字组合,进行多次、反复检索,才能最终找到 所需的多个相关法律条目。因此,本发明能够更加便捷全面地帮助用户找到与案情相关的 所有法条,降低了法律法规信息的检索难度。 0093 以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何 本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合, 均应属于本发明保护的范围。 说 明 书CN 104008171 A 11 1/3页 12 图1 图2 图3 说 明 书 附 图CN 104008171 A 12 2/3页 13 图4 图5 说 明 书 附 图CN 104008171 A 13 3/3页 14 图6 说 明 书 附 图CN 104008171 A 14 。