一种专利文献关键短语自动提取方法.pdf

上传人:e2 文档编号:6121606 上传时间:2019-04-13 格式:PDF 页数:18 大小:1.73MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410056332.1

申请日:

2014.02.19

公开号:

CN103885934A

公开日:

2014.06.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20140219|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

中国专利信息中心

发明人:

任智军; 张威; 李进; 杨婧; 张江涛; 肖湘

地址:

100088 北京市海淀区蓟门桥西土城路6号

优先权:

专利代理机构:

北京瑞恒信达知识产权代理事务所(普通合伙) 11382

代理人:

苗青盛

PDF下载: PDF下载
内容摘要

本申请提供一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。

权利要求书

权利要求书
1.  一种专利文献关键短语自动提取方法,包括:
步骤1:进行文本域的预处理;
步骤2:识别专利发明的主题类型;
步骤3:提取候选关键短语并进行短语过滤;
步骤4:对过滤后的候选关键短语进行权重计算并选出关键短语。

2.  根据权利要求1所述的方法,其中,步骤1包括:
步骤11、识别专利文献各文本域;
步骤12、对专利全文进行分句,根据需要进行分词处理,分词后进行词性标注;
步骤13、对于文本特殊位置进行识别。

3.  根据权利要求2所述的方法,其中,步骤11中,识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、附图说明或者发明内容的文本域;其中,步骤13中,对于各文本域中的特殊位置进行识别。

4.  根据权利要求1所述的方法,其中,步骤2包括:
步骤21、对于技术主题类型进行分类训练,获取分类器;
步骤22、获取发明名称、分词、词性标注信息、核心词;
步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。

5.  根据权利要求4所述的方法,其中,步骤21包括:
步骤211、选取1万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息;
步骤212、获取核心词;
步骤213、对上述训练人工标注其技术主题类型;
步骤214、根据技术主题类型的标注结果,分别建立上述技术主题类型的特 征词表;
步骤215、使用自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类,获取分类器。

6.  根据权利要求5所述的方法,其中,步骤22中,对新专利文档进行技术主题分类的步骤包括:使用步骤211和步骤212的方法获取发明名称、分词、词性标注信息、核心词;
步骤23包括以经过步骤215训练后的分类结果,使用步骤214中获得的特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型,然后将标注的技术主题类型进行存储。

7.  根据权利要求1所述的方法,其中,步骤3包括:
步骤31、使用词表法、规则方法、模板方法或者前后指示词方法来提取候选关键短语;
步骤32、提取后对停用短语和低信息度短语进行过滤。

8.  根据权利要求1所述的方法,其中,步骤4中,权重计算包括频率权重和IPC权重;
步骤4还包括计算权重的修正因子,该修正因子包括位置因子、文本域因子。

9.  根据权利要求8所述的方法,其中,步骤4中,计算频率权重包括统计与短语频率等统计信息相关的权重,计算方法包括TF-IDF、TFC、ITC或者TF-IWF法。

10.  根据权利要求8所述的方法,其中,步骤4中,位置因子是短语首次出现的位置带来的权重影响,位置因子分为文本位置因子和专利位置因子,文本位置因子是指因关键短语出现在文档的不同位置带来的对权重的影响,专利位置因子是指由于专利特殊撰写格式带来的对权重的影响;其中,文本域因子是指短语位于专利文献不同文本域对其权重的影响。

11.  根据权利要求1所述的方法,其中,步骤4还包括:
提取出关键词后,将关键词-文本域信息进行关联显示;或者
提取出关键短语后,根据所述技术领域-近义词表,显示与提取出来的关键短语相似的技术术语,作为近似检索词推荐给查询者。

12.  根据权利要求11所述的方法,其中,显示与提取出来的关键短语相似的技术术语的步骤包括:
根据待标引文档的IPC分类号,定位到所属技术领域-近义词表的相关技术领域,如果该技术领域中仅存在一个词义,同时显示出该关键词的相关技术领域共使用者参考;或者
如果存在多个词义,则根据现有方法使用技术领域-近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链,计算词的集聚特征值,计算后取集聚特征值最大的词义。

说明书

说明书一种专利文献关键短语自动提取方法
技术领域
本发明涉及文本信息处理技术,更具体地,涉及一种专利文献关键短语自动提取方法。
背景技术
随着专利文献数量的迅速增长,专利文献专业和社会化查询日益普遍,实现专利文献数据的查全率和查准率成为专利文献信息检索的难点和重点。长期以来,利用原始专利数据来完成的专利信息的检索,往往使得查全率和查准率很差并且通常会相互矛盾。由于专利文献原始信息来源于申请人的原始提交资料,往往存在大量相关的技术资料和引用技术,使得在检索过程中,为了保证查全率,就会引入过多文件,出现大量的噪音数据或者噪音文献。而为了保证查准率,就会限制过多的条件并且加载较为严格的检索要求,往往会丢失很多有用的检索结果。
为了解决这个问题,通用的方法就是对于专利文献进行前期的数据加工,在全面了解专利技术的基础上,按照一定的加工规则对于文献进行区分和标引,而使得数据较为集中和降低数据量。并且通过整理之后,提取的文献信息还保证和技术主题相关。但是,由于数据加工需要耗费大量的时间、人力和财力,建设成本非常之高,加工效率目前也不尽如人意。
但是目前缺乏专业、精准的标引工具,大部分都是通过手工标引来提高准确率,使得标引工作在目前日益增加的专利申请量面前更是难以满足需要。中国发明专利CN1818906A提供了一种专利文献的标引方法,该方法通过建立技术分类和关键词对应,并且提供通过修正来提高准确率,但是该方法还是依赖 于人工,没有实现完全自动,并且该方法处理的数据较大,难以实用。
发明内容
为克服现有技术的上述缺陷,本发明提出一种专利文献关键短语自动提取方法。
根据本发明的一个方面,提出了一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。
本发明通过选取3000篇专利文献为训练集对上述方法构建的实验系统进行训练,另选取100篇专利文献为测试集,根据上述本发明涉及的方法,对每篇专利文档提取15个关键短语。同时,使用现有的基于统计的方法提取相同数量关键短语作为对比。同时,人工对同样的100篇专利文献提取关键短语,人工提取的关键短语作为判定提取的关键短语是否正确的标准。使用上述数据计算方法的准确率,使用公式如下:
测试方法提取的关键短语的数量×100%
人工提取的关键短语的数量×100%
实验结果如下:使用本发明涉及的方法的准确率为95.24%,使用传统方法的准确率为81.61%。使用本发明涉及的方法的召回率为85.5%,使用传统方法的召回率为84.2%。可见,使用本发明涉及的方法,明显提高了关键短语的抽取准确率,召回率也略有提高,对专利文献的关键短语提取显示了较好的效果。
附图说明
图1为根据本发明的专利文献自动抽取关键短语方法的流程图;
图2为根据本发明的专利文献自动抽取关键短语方法提取出的关键短语-文本域关联的示意图。
为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种专利文献关键短语自动提取方法进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
在本说明书中使用的术语仅用于更好的理解本发明的实施方案的目的,不用于限制本发明。本说明书中使用的“一个”、“一种”、“该”也可以包括复数形式,除非上下文明确指出。
术语“短语”,是指包括由一个及以上单词构成的名词性短语、以及嵌套了短语的名词性结构,本发明的“短语”最小单位是单个词,是广义的短语概念。
图1示出根据本发明的一种专利文献关键短语自动提取方法的流程图,如图1所示,该方法包括:步骤1:文本的预处理,包括文本域标注、分句、分词、词性标注等;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:权重计算并选出关键短语。
其中,步骤1用于文本域的识别和分句、词性标注等预处理。进一步,步骤1包括:步骤11、识别专利文献各文本域;步骤12、对专利全文进行分句, 根据需要进行分词处理,分词后进行词性标注;步骤13、对于文本特殊位置进行识别。
其中,步骤11中,识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、附图说明、发明内容等文本域;优选的,各文本域可以进一步细分识别,例如发明内容进而可以分为所要解决的技术问题、技术方案和有益效果。识别后以标签标注,例如,<Claims></Claims>。
其中,步骤1中,识别文本域的方法可以包括:对于XML格式存储的专利文档,使用专利文档原有的XML标签进行分析;对纯文本格式存储的专利文档,对全文进行内容的识别,通过识别各文本域标题来识别,识别方法可以是模板规则等常用方法。
其中,步骤12中,对专利全文进行分句,根据需要进行分词处理,例如中文、日语等没有明显分词标志的语种。分词后进行词性标注。上述处理均可以采用本领域常用的现有工具。
其中,步骤13中,对于各文本域中的特殊位置的识别,例如独立权利要求、从属权利要求、权利要求主题名称、附图说明、独立权利要求前序、特征部分,从属权利要求引用、限定部分进行进一步的识别处理。其中,识别方法可以包括XML标签加规则匹配或模板匹配的方法。
例如,
2.根据权利要求1所述的保温壶,其特征在于,所述保温壶具有一个带密封垫圈的盖子。
通过模板匹配,得出“根据权利要求1所述的保温壶”为引用部分,“所述保温壶具有一个带密封垫圈的盖子”为限定部分。
其中,步骤2中,识别专利发明的主题类型,专利按技术主题类型分为产品发明、方法发明。根据发明类型的不同,抽取关键词应当有不同的侧重点, 经过对专利文献的深入分析,本申请设置了以下具有关键短语提取侧重点的主要类型:一、方法类型:1.制备方法(有机物、组合物、食品等的制备);2.加工方法(成形、纺织等);3.建筑方法;4.使用方法;5.信息的处理和传输方法;二、产品类型:1.制造的物品;2.织物;3.建筑物;三、设备类型:1.工艺设备;2.机器;3.工具;4.操作仪器;四、材料:1.化合物、组合物、微生物;2.生活用品材料;3.建筑、工程材料;五、应用类型:已知产品新用途、转用发明等。
步骤2主要用于对待提取关键短语的专利文献进行技术主题类型分析,其中包括:步骤21、对于技术主题类型的分析训练;步骤22、获取发明名称、分词、词性标注信息、核心词;步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。
其中,步骤21的技术主题类型分析方法的训练步骤包括:
步骤211、选取1万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息。其中,独立权利要求的主题名称,可通过现有技术识别出独立权利要求,再通过模板等常用方法获取其主题名称。例如,一种音频特征提取方法,其特征在于:…,则获取主题名称为“音频特征提取方法”。
步骤212、获取核心词。其中,如果发明名称是两个或多个并列短语,分别获取每个短语的核心词。例如:一种音频特征提取方法和系统,应分别获取“方法”、“系统”两个核心词。获取独立权利要求的主题名称核心词,例如:音频特征提取方法,应获取“方法”。核心词获取采用常用的工具。
步骤213、对上述训练人工标注其技术主题类型,标注为前述划分的5种类型。
步骤214、根据步骤213的标注结果,分别建立上述5种技术主题类型的特征词表。即,根据每篇文档被人工标注的技术主题类型,将其核心词存入相应 技术主题类型的特征词表中。同时,计算核心词概率,即该核心词在每种类型中出现的概率;以及核心词文档概率,即出现该核心词的文档在上述选取的作为训练语料的专利文档集中出现的概率。将上述概率存储并与对应核心词关联。
步骤215、使用常用的自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类。其中自动分类方法包括条件随机场方法,k近邻法、决策树、朴素贝叶斯、贝叶斯网络或者支持向量机(SVM)等。使用上述步骤211-步骤214收集的训练语料对分类器进行训练。
步骤22中,对新专利文档进行技术主题分类的步骤包括:使用步骤211和步骤212的方法获取发明名称、分词、词性标注信息、核心词。
步骤23包括以经过步骤215训练后的分类器,使用步骤214中获得的特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型,然后将标注的技术主题类型进行存储。
步骤2的方法比人工添加规则的方法适应性好,对于一些发明名称和权利要求主题名称比较模糊的情况也能很好的进行分类。由于专利的发明名称和权利要求主题名称撰写方式繁多,例如,“用于中药煎煮锅的防烫型倒药架”、“一种棋盘和棋子自动定位识别棋”、“一种Asia1型口蹄疫病毒抗原”,如果使用模板或规则的方法要全面覆盖这样各异的名称,就需要针对大量产品名称撰写规则模板,造成规则、模板的数量过多。同时,如果为了提高模板的匹配效率,将模板撰写得比较宽泛,例如:[名词短语]+棋,又容易带入一些噪声。
其中,步骤3中,提取候选关键短语并进行短语过滤。其中,步骤3的方法包括:步骤31、提取候选的关键短语;步骤32、提取后对停用短语和低信息度短语进行过滤。
候选短语是作为关键短语的候选,以便进一步对其进行权重计算等处理的短语。其中,步骤31中获取候选短语的方法有词表法、规则方法、模板方法和前 后指示词方法。
其中,词表法中,词表是预先人工编撰或用统计方法收集的专利关键短语。短语按照短语词长度降序排列,以首词为索引进行编撰。在待抽取关键短语的专利经过分词之后,对分词的结果的每个词,均在上述词表中进行搜索,当索引中含有相同词时,从该词位置起,按照长度由长至短依次进行匹配。匹配成功则将候选短语储存留用。重复该步骤直到搜索完待抽取关键短语的专利中每个词。
其中,规则方法中,先使用n-gram法对分词后的词语进行组合,以便从中筛选候选短语,选取1-n长度的所有组合作为候选的短语。n可以根据经验选择,n优选5。利用词性标注的结果和根据语法现象预先设定的规则进行提取,例如,提取名词+名词、形容词+名词、形容词+名词+名词,具体规则可以为下表1例子中所示。下表1仅作为示例不用于限制本发明,所述规则可以是1-m个词的组合,优选m=4。根据以下规则保留的n-gram短语作为候选短语等待进一步处理。
表1
na+na+a+na+a+a+n
其中,n名词,a形容词。
其中,模板结合正则表达式法中,根据专利文献的特点,预先分析出常见的关键词的出现模式,撰写提取候选短语的模板,再根据专利的撰写特点,使用正则表达式对模板进行泛化处理,提高模板的命中率,减少人工撰写模板的工作量。
例如,模板1:
文本域:权利要求/摘要
STR[一种]+KP[POS:NP]+[POS:标点]+STR[其特征在于/特征是/其特征是/它包括/包括]。
模板2:
文本域:发明名称/摘要/权利要求
STR[一种]+KP[(POS:NP)+STR(方法/装置/发明/系统/产品/工艺)]。
模板1中,当某短语词性标注为名词/形容词+名词,且其前词为“一种”,后词为“其特征在于/特征是/其特征是/它包括/包括”等时,提取该短语为候选短语。
其中,前后指示词法中,前指示词表示其后面出现的短语是可能的关键短语,后指示词表示其前面出现的短语是可能的关键短语。例如,“本发明所述的”、“本发明的技术方案中涉及的”为前指示词;“其特征在于”为后指示词。可以利用预先撰写的前后指示词提取候选短语。
本发明的候选短语获取方法可以是上述3种方法一种或多种的结合,但是本发明的候选短语获取方法可以使用现有的常用方法,不限于上述方法。
其中,步骤32中,在上述步骤31获取候选短语之后,对上述方法获取的候选短语进行噪声过滤处理。因为利用在提取关键短语时会同时将一些对检索没有意义的词提取出来,所以必须进行过滤处理,以提高准确率。
例如“一种基于情境搜索提取搜索价值词的装置,其特征在于,包括:候选搜索词集生成模块、泛词过滤模块、主题相关性计算模块、…”,使用模板法提取出候选短语为“基于情境搜索”、“搜索价值词的”、“搜索词集生成模块”、“泛词过滤模块”、“主题相关性计算模块”。对上述提取的候选短语块利用头尾词过滤,提取出过滤后的候选短语“情境搜索”、“搜索价值词”、“搜索词生成”、“泛词过滤”、“主题相关性计算”。头尾词过滤的方法主要采取模板法和停用头尾词法。模板法是使用人工预先设定的模板对头尾词进行过滤的方法。例如:模板“介词+[KP]”、“[KP]+的”、“[KP]+模块”应用 到本例中可以成功过滤不需要的词尾。停用头尾词法是指利用预先建立的停用头尾词表进行头尾词过滤的方法,该词表是利用统计方法获取的通用头尾词表。如果短语头尾词出现停用头尾词表中头尾词,则从短语中删除该头尾词,并将删除头尾词后的短语更新为候选短语。例如,“**模块”、“第一**”是机械领域常见的头尾词。可以预先使用统计方法总结并存储在停用头尾词表中。
其中,步骤32还包括经过噪声过滤处理之后,再对候选短语进行短语过滤处理。短语过滤处理分为停用短语过滤和过滤信息度不高、不能有效表述本发明主题的词汇。
其中,步骤32中,过滤信息度不高、不能有效表述本发明主题的词汇。包括但不限于:对于形容词、量词、数次、感叹词、助词、副词、介词等,可以利用词性标注结果进行过滤。部分作者为了叙述方便而造出的词汇,例如“第一设备”“第二螺纹”等,这些词汇不能清楚的表述明确的技术含义,可以利用预先设定的模板进行过滤。
例如,
[STR:第]+[NUM:1-9]+[STR&POS:N]
[STR:第]+[STR:一/二/三/四/五]+[STR&POS:N]
其中STR表示字符串,“:”后面内容表示具体的字符串。NUM表示数字。1-9表示数字1-9。“STR&POS:N”表示,该部分为字符串,且词性标注为名词。
其中,步骤32中,停用短语过滤是使用预先通过一定规模专利文档库训练得出的停用短语列表。列出使用频率最高的n个通用高频短语,这些高频短语在所述专利文档库中出现频率较高。然而在当前专利文献中不具有足够的信息度。例如“本发明”、“附图1”。所述一定规模的专利文档库可以是包含各技术领域的通用专利文档库或者某个特定领域的主题专利文档库。所含有的专利文献的数量不小于k篇;k优选5000以上。
其中,步骤4中,对候选关键短语进行权重计算并选出关键短语。其中,权重计算可以包括频率权重、IPC权重。进一步,步骤4还包括计算权重的修正因子。该修正因子包括位置因子、文本域因子。其中,权重计算方法如公式(1)所示:

其中,步骤4中,计算频率权重包括统计与短语频率等统计信息相关的权重,计算方法包括TF-IDF、TFC、ITC、TF-IWF等方法。
其中,TF-IDF法中,如公式(2)所示:
ωNP=fNP×logNnNP---(2)]]>
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率即当前短语的出现次数和总词数的比值,nNP在专利文档库中出现的该短语的专利文档数,N为专利文档库中总文档数。
其中,TFC法如公式(3)所示:
ωNP=fNP×log(NnNP)ΣNP[fNP×log(NnNP)]2---(3)]]>
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,nNP在专利文档库中出现的该短语的专利文献数,N为专利文档库中总文档数,ΣNP表示对全篇专利文献中所有短语求和。
其中,ITC法如公式(4)所示:
ωNP=log(fNP+1.0)×log(NnNP)ΣPN[log(fNP+1.0)×log(NnNP)]2---(4)]]>
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,nNP在专利文档库中出现的该短语的专利文献数,N为专利文档库中总文档数,ΣNP表示对当前专利文献中所有短语求和。
其中,TF-IWF法如公式(5)所示:
ωNP=fNP×log(ΣNPcNPcNP)---(5)]]>
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,cNP为短语在当前专利文献中出现的次数,ΣNP表示对当前专利文献中所有短语求和。
其中,步骤4中,包括计算IPC权重。其中,IPC分类体系是国际通用的专利分类体系,每篇专利文档都必然有一个或一个以上IPC分类号。因此可以利用IPC分类号增加关键词提取的准确性。IPC权重是利用当前文档的主IPC分类号,在IPC权重值表中查找当前文档中短语的相应IPC权重值。
IPC权重值表,是利用预先收集的专利文档库得到的。具体的方法为:在一定规模的专利文档库中,先选取词频最高的n个短语,排除停用短语,优选n为不小于500的任意整数,更加优选n不小于5000;然后,计算选出的短语在某个分类号下所有文档中的权重的均值,计算方法如公式(6)所示;其中,所述专利文档库所包含的专利不小于5000篇。
ωIPCi=ΣdjωdjΣdj---(6)]]>
其中,为短语的对应第i个IPC权重值,为该短语在文档dj中的权重值。
上述计算方法还可以变化为,对于第i个IPC选取m篇文档,m为不小于1000的任意整数;先选取词频最高的n个短语,排除停用短语,n为不小于500的任意整数,更加优选n不小于5000;计算选出的短语在某个分类号下所有文档中的权重的均值,计算方法如公式(7)所示:
ωIPCi=ΣdjωdjΣdj---(7)]]>
其中,为短语的对应第i个IPC权重值,为短语在文档dj中的权重值。
步骤4还包括计算权重的修正因子。其中,位置因子是短语首次出现的位置带来的权重影响,位置因子分为文本位置因子和专利位置因子。文本位置因子 是指因关键短语出现在文档的不同位置,例如段首,对其权重的影响。文本位置因子计算如表2所示:
表2

具体计算时,如果一个短语既为句子主语又为段首,取最高值进行计算。
专利位置因子是指由于专利特殊撰写格式带来的对权重的影响。具体计算如表3所示:
表3

具体计算时,对于符合多个条件的短语,取最高值进行计算。判断从属权利要求限定部分作为主语、独立权利要求特征部分作为主语和附图标记所标注的短语时,使用浅层句法分析加规则的方法。
规则可以为例如,在主语成分中如果出现:所述的+NP=>NP为作为主语的短语。
在具体实施方式部分如果出现:NP+附图标记=>NP为附图标记标注的短语。
技术主题类型位置因子是指对于步骤2中确定的技术主题类型,应重点提取不同的关键词。例如,产品类型,应重点形状、构造、连接关系等;方法类型,应重点提取工艺、步骤等;设备类型,应重点抽取,部件、连接关系、该设备的用途等;应用类型要重点提取关于用途信息的关键短语;材料类型,应提取组成材料的各组分,材料的用途等。
技术主题类型位置因子主要采用启发式方法。预先分别对每种类型制作触发词表,当待标注的文档中某位置出现对应技术主题类型的触发词表中的触发词时,对于在预先设定的窗口范围内出现的短语,将其技术主题类型位置因子设为1.1;其他位置主题类型位置因子设为1。预先设定的窗口范围优选为30个 字符。
上述步骤计算完毕后,按照公式(8)计算出位置因子:
位置因子=文本位置因子*专利位置因子*技术主题类型位置因子(8)。
步骤4还包括计算权重的修正因子。其中,文本域因子是指短语位于专利文献不同文本域对其权重的影响,具体计算方法如表4所示,
表4
文本域权重因子发明名称1.62权利要求1.44摘要0.72附图说明1.08技术领域0.9所要解决的技术问题0.9背景技术0.36有益效果0.9具体实施方式0.36发明内容技术方案部分1.08对单个文本域提取时1
具体计算时,对于符合多个条件的短语,取最高值进行计算;对于单个文本域提取关键短语时,公式1中文本域因子为1。根据上述方法,对于某个短语,其权重值可以根据公式(1)进行计算。将上述经过去重的短语按权重值降序排列,选出前t个短语作为关键短语。t为正整数,优选t为10-20。
其中,步骤4还包括提取出关键词后,将关键词-文本域信息进行关联显示。其中,对于每个关键词,同时显示其所属的文本域,则查询者可以根据关键短语所属的文本域,判断该关键短语的重要程度或与对专利文档的技术主题的代表程度。例如,关键词“音频特征提取方法”出现的文本域为标题、权利要求、发明内容,则可以判断该关键词与专利文档的技术主题的密切相关,如图2所示。
进一步,步骤4还可以包括:提取出关键短语后,还可以根据所述技术领域-近义词表,显示与提取出来的关键短语相似的技术术语,作为近似检索词推 荐给查询者。所述技术领域-近义词表是预先利用一定规模的专利文档库的专利文档进行分词、停用词去除处理后,使用人工方法加工的根据IPC技术领域分类的短语表,并且将含义相同或相近的短语关联起来。
利用上述方法提取出关键词后,如果其中有一个或多个关键词具有2个或2个以上词义。利用上述技术领域-近义词表确定词义,具体做法为,先根据待标引文档的IPC分类号,定位到所属技术领域-近义词表的相关技术领域,如果该技术领域中仅存在1个词义,则同时显示出该关键词的相关技术领域共使用者参考。如果存在多个词义,则根据现有方法使用技术领域-近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链,计算词的集聚特征值,计算如公式(9)所示:
ωco=ωspan+ωlen+ωwcount+ωsim      (9)
其中,ωspan表示词汇链的词汇中短语最早出现的位置和最晚出现位置的距离,ωlen表示词汇链含有的短语数目,ωwcount表示含有词汇链任意元素的句子数目,ωsim词汇链中短语间的相关度,计算后取集聚特征值最大的词义。
上述方法与现有技术的区别在于,现有技术中一般使用知网等现有资源构建词汇链,仅能以词为元素构建词汇链。而本发明中使用预先利用专利文档库建立的技术领域近义词表,该词表是以短语为元素,因而可以以短语为元素进行词汇链构建,从而可以用于关键短语的提取。
进一步,利用上述方法提取出关键短语后,还可以将关键短语分类为主题信息、技术方案信息、其他对检索有用的信息。主题信息,是指揭示了发明技术主题的信息。技术方案信息,是表示技术方案内容的关键信息。其他对检索有用的信息,是指直接揭示了发明有益效果、用途、所要解决的技术问题的技术信息。
例如,“一种用于垂直轴盘式电机的磁悬浮支撑结构”,使用模板
[STR:一种]+[STR:PP]+[STR:的]+[STR:NP]
提取出介词短语PP“用于垂直轴盘式电机”和名词短语NP“磁悬浮支撑结构”,经过本发明上述方法提取出关键短语“垂直轴盘式电机”和“磁悬浮支撑结构”,其中,“垂直轴盘式电机”属于其他对检索有用的信息,“磁悬浮支撑结构”为主题信息。
利用上述方法提取出关键短语后,还可以将关键短语与其他知识信息相关联,例如带提取关键词的专利文档的分类号信息、技术领域信息,与提取的关键短语一起进行显示。
例1
以下以一个具体的专利文献的片段为例,说明本发明涉及的方法,但是以下实施例仅为说明本发明,而不用于限定本发明。
【例】
发明名称:时分双工系统中随机接入信道的发送方法
主分类号:H04L1/18
摘要:本发明提供了一种时分双工系统中随机接入信道的发送方法,包括以下步骤:确定时分双工系统的UpPTS内的RACH的数目;…
权利要求:
1.一种时分双工系统中随机接入信道RACH的发送方法,其特征在于,……
技术领域:本发明涉及通信领域,具体而言,涉及一种时分双工系统中随机接入信道的发送方法。
背景技术:LTE(Long Term Evolution,长期演进)系统TDD(Time Division Duplex,时分双工)模式的帧结构,如图1所示。…
发明内容:本发明旨在提供一种时分双工系统中随机接入信道的发送方法,能够解决在UpPTS中发送RACH时,RACH在频域位置不当导致减弱RACH间分集效果的问题。…
附图说明:
此处所说明的附图用来提供对本发明的进一步理解,…

具体实施方式:
下面将参考附图并结合实施例,来详细说明本发明。

首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为方法类型。之后使用关键词表、规则方法、模板法、前后指示词法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短语过滤处理。经过上述处理后进行候选短语的权重值计算,根据计算结果,
选取10个关键短语为:时分双工;随机接入信道;信道分配;均匀分布;信道发送;上行导频时隙;信道数目;可用频带;上边界;下边界。此处仅为示例选取了10个关键短语,根据需要还可以改变选择的关键短语的数量。
例2
【例】
发明名称:基于嵌块和嵌槽的异质壳体结合构造
主分类号:G06F1/18
摘要:一种异质壳体结合构造,包括有第一构件、第二构件、及黏合剂。…
权利要求:1.一种异质壳体结合构造,包括有:一第一构件,具有至少一嵌槽;…
技术领域:本发明涉及一种壳体结合构造,特别涉及一种强化异质材料壳体的结合强度的构造。
背景技术:为了满足现今消费者的要求,目前笔记本电脑的外壳均强调散热性能佳、重量轻、坚固耐磨、色彩多样等特点。

发明内容:鉴于以上的问题,本发明提供一种异质壳体结合构造,以改善现有的黏合剂仅黏合内外两层异质壳体的表面所造成黏合性不佳的问题。…

附图说明:
图1为本发明的分解示意图;

具体实施方式:根据本发明所披露的异质壳体结合构造,所述的壳体构造包括笔记本电脑、平板电脑、超便携电脑(ultra mobile personal computer,UMPC)、个人数字助理(Personal Digital Assistant,PDA)等便携式电脑装置,但并不以此为限。…
首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如 ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为产品类型。之后使用关键词表、规则方法、模板法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短语过滤处理。
经过上述处理后进行候选短语的权重值计算。提取10个关键短语,则选取的关键短语分别为:嵌块;嵌槽;连接结构;构件;粘合剂;黏合剂;笔记本电脑;异质壳体;结合强度;铝合金。此处仅为示例,根据需要还可以改变选择的关键短语的数量。
例3
【例】
发明名称:预定收集率为20%-50%的车辆柴油机用颗粒状物质减少装置
主分类号:F01N3/022
摘要:本发明涉及颗粒状物质的减少装置。本发明的颗粒状物质的减少装置(10)以总计收集率为50%以下的低收集率,将柴油机的排放气体(1)中的颗粒状物质PM收集于各过滤器(11)上的同时,使其燃烧并减少。

权利要求:1.一种颗粒状物质的减少装置,用于燃烧并减少柴油机的排放气体中所含有的颗粒状物质,同时将所述物质收集在所述减少装置上,…

技术领域:本发明涉及颗粒状物质的减少装置。即,涉及收集并燃烧包含于柴油发动机的排放气体中的颗粒状物质并使其减少的颗粒状物质的减少装置。例如,涉及随后追加安装在现在被使用的在用车辆上的减少装置。
背景技术:在柴油发动机的排放气体中,含有:一氧化碳CO、碳氢化合物 HC、氮氧化物NOX、颗粒状物质PM等。

发明内容:本发明就是鉴于这样的实际情况,为了解决上述现有技术的问题而开发的。本发明的颗粒状物质减少装置,其特征在于:对于一片或多片过滤器,采用了将以下各点组合的方法。

附图说明:
图1是对本发明的颗粒状物质的减少装置,为说明用于实施本发明的最佳实施例的说明图,(1)图是第1例的主剖面说明图,(2)图是第2例的主剖面说明图。

具体实施方式:以下,根据附图所示的用于实施本发明的最佳实施例,详细说明本发明的颗粒状物质减少装置。图1、图2、图3、图4等,供用于实施本发明的最佳实施例的说明。

首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为设备类型。之后使用关键词表、规则方法、模板法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短 语过滤处理。
经过上述处理后进行候选短语的权重值计算。提取10个关键短语,则选取的关键短语分别为:预定收集率;过滤器;金属丝筛网;过滤器元件;通气孔;短圆柱状;遮盖板;填充密度;外圆周面;外筒壳体。此处仅为示例,根据需要还可以改变选择的关键短语的数量。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

一种专利文献关键短语自动提取方法.pdf_第1页
第1页 / 共18页
一种专利文献关键短语自动提取方法.pdf_第2页
第2页 / 共18页
一种专利文献关键短语自动提取方法.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《一种专利文献关键短语自动提取方法.pdf》由会员分享,可在线阅读,更多相关《一种专利文献关键短语自动提取方法.pdf(18页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103885934 A (43)申请公布日 2014.06.25 CN 103885934 A (21)申请号 201410056332.1 (22)申请日 2014.02.19 G06F 17/27(2006.01) (71)申请人 中国专利信息中心 地址 100088 北京市海淀区蓟门桥西土城路 6 号 (72)发明人 任智军 张威 李进 杨婧 张江涛 肖湘 (74)专利代理机构 北京瑞恒信达知识产权代理 事务所 ( 普通合伙 ) 11382 代理人 苗青盛 (54) 发明名称 一种专利文献关键短语自动提取方法 (57) 摘要 本申请提供一种专利文献关键短语自动提。

2、取 方法, 包括 : 步骤 1 : 文本的预处理 ; 步骤 2 : 识别 专利发明的主题类型 ; 步骤 3 : 提取候选关键短语 并进行短语过滤 ; 步骤 4 : 对候选关键短语进行权 重计算并选出关键短语。 (51)Int.Cl. 权利要求书 2 页 说明书 13 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书13页 附图2页 (10)申请公布号 CN 103885934 A CN 103885934 A 1/2 页 2 1. 一种专利文献关键短语自动提取方法, 包括 : 步骤 1 : 进行文本域的预处理 ; 步骤 2 : 识别专利发明的。

3、主题类型 ; 步骤 3 : 提取候选关键短语并进行短语过滤 ; 步骤 4 : 对过滤后的候选关键短语进行权重计算并选出关键短语。 2. 根据权利要求 1 所述的方法, 其中, 步骤 1 包括 : 步骤 11、 识别专利文献各文本域 ; 步骤 12、 对专利全文进行分句, 根据需要进行分词处理, 分词后进行词性标注 ; 步骤 13、 对于文本特殊位置进行识别。 3. 根据权利要求 2 所述的方法, 其中, 步骤 11 中, 识别专利文献各文本域, 包括识别权 利要求书、 说明书、 说明书摘要、 附图说明或者发明内容的文本域 ; 其中, 步骤 13 中, 对于各 文本域中的特殊位置进行识别。 4.。

4、 根据权利要求 1 所述的方法, 其中, 步骤 2 包括 : 步骤 21、 对于技术主题类型进行分类训练, 获取分类器 ; 步骤 22、 获取发明名称、 分词、 词性标注信息、 核心词 ; 步骤 23、 基于经过训练后的分类器, 通过特征词表、 核心词概率和核心词文档概率以及 核心词本身作为特征, 标注技术主题类型。 5. 根据权利要求 4 所述的方法, 其中, 步骤 21 包括 : 步骤 211、 选取 1 万篇以上专利文档作为训练语料, 从著录项目中获取发明名称和独立 权利要求的主题名称及其分词、 词性标注信息 ; 步骤 212、 获取核心词 ; 步骤 213、 对上述训练人工标注其技术主。

5、题类型 ; 步骤 214、 根据技术主题类型的标注结果, 分别建立上述技术主题类型的特征词表 ; 步骤 215、 使用自动分类方法作为技术类型分类方法, 对待分类的专利文档主题名称进 行分类, 获取分类器。 6.根据权利要求5所述的方法, 其中, 步骤22中, 对新专利文档进行技术主题分类的步 骤包括 : 使用步骤 211 和步骤 212 的方法获取发明名称、 分词、 词性标注信息、 核心词 ; 步骤 23 包括以经过步骤 215 训练后的分类结果, 使用步骤 214 中获得的特征词表、 核 心词概率和核心词文档概率以及核心词本身作为特征, 标注技术主题类型, 然后将标注的 技术主题类型进行存。

6、储。 7. 根据权利要求 1 所述的方法, 其中, 步骤 3 包括 : 步骤 31、 使用词表法、 规则方法、 模板方法或者前后指示词方法来提取候选关键短语 ; 步骤 32、 提取后对停用短语和低信息度短语进行过滤。 8. 根据权利要求 1 所述的方法, 其中, 步骤 4 中, 权重计算包括频率权重和 IPC 权重 ; 步骤 4 还包括计算权重的修正因子, 该修正因子包括位置因子、 文本域因子。 9. 根据权利要求 8 所述的方法, 其中, 步骤 4 中, 计算频率权重包括统计与短语频率等 统计信息相关的权重, 计算方法包括 TF-IDF、 TFC、 ITC 或者 TF-IWF 法。 10.根。

7、据权利要求8所述的方法, 其中, 步骤4中, 位置因子是短语首次出现的位置带来 的权重影响, 位置因子分为文本位置因子和专利位置因子, 文本位置因子是指因关键短语 权 利 要 求 书 CN 103885934 A 2 2/2 页 3 出现在文档的不同位置带来的对权重的影响, 专利位置因子是指由于专利特殊撰写格式带 来的对权重的影响 ; 其中, 文本域因子是指短语位于专利文献不同文本域对其权重的影响。 11. 根据权利要求 1 所述的方法, 其中, 步骤 4 还包括 : 提取出关键词后, 将关键词 - 文本域信息进行关联显示 ; 或者 提取出关键短语后, 根据所述技术领域 - 近义词表, 显示与。

8、提取出来的关键短语相似 的技术术语, 作为近似检索词推荐给查询者。 12. 根据权利要求 11 所述的方法, 其中, 显示与提取出来的关键短语相似的技术术语 的步骤包括 : 根据待标引文档的IPC分类号, 定位到所属技术领域-近义词表的相关技术领域, 如果 该技术领域中仅存在一个词义, 同时显示出该关键词的相关技术领域共使用者参考 ; 或者 如果存在多个词义, 则根据现有方法使用技术领域 - 近义词表分别对每个词义与其他 关键短语以短语为元素构建词汇链, 计算词的集聚特征值, 计算后取集聚特征值最大的词 义。 权 利 要 求 书 CN 103885934 A 3 1/13 页 4 一种专利文献。

9、关键短语自动提取方法 技术领域 0001 本发明涉及文本信息处理技术, 更具体地, 涉及一种专利文献关键短语自动提取 方法。 背景技术 0002 随着专利文献数量的迅速增长, 专利文献专业和社会化查询日益普遍, 实现专利 文献数据的查全率和查准率成为专利文献信息检索的难点和重点。长期以来, 利用原始专 利数据来完成的专利信息的检索, 往往使得查全率和查准率很差并且通常会相互矛盾。由 于专利文献原始信息来源于申请人的原始提交资料, 往往存在大量相关的技术资料和引用 技术, 使得在检索过程中, 为了保证查全率, 就会引入过多文件, 出现大量的噪音数据或者 噪音文献。 而为了保证查准率, 就会限制过。

10、多的条件并且加载较为严格的检索要求, 往往会 丢失很多有用的检索结果。 0003 为了解决这个问题, 通用的方法就是对于专利文献进行前期的数据加工, 在全面 了解专利技术的基础上, 按照一定的加工规则对于文献进行区分和标引, 而使得数据较为 集中和降低数据量。并且通过整理之后, 提取的文献信息还保证和技术主题相关。但是, 由 于数据加工需要耗费大量的时间、 人力和财力, 建设成本非常之高, 加工效率目前也不尽如 人意。 0004 但是目前缺乏专业、 精准的标引工具, 大部分都是通过手工标引来提高准确率, 使得标引工作在目前日益增加的专利申请量面前更是难以满足需要。中国发明专利 CN181890。

11、6A 提供了一种专利文献的标引方法, 该方法通过建立技术分类和关键词对应, 并 且提供通过修正来提高准确率, 但是该方法还是依赖于人工, 没有实现完全自动, 并且该方 法处理的数据较大, 难以实用。 发明内容 0005 为克服现有技术的上述缺陷, 本发明提出一种专利文献关键短语自动提取方法。 0006 根据本发明的一个方面, 提出了一种专利文献关键短语自动提取方法, 包括 : 步骤 1 : 文本的预处理 ; 步骤 2 : 识别专利发明的主题类型 ; 步骤 3 : 提取候选关键短语并进行短 语过滤 ; 步骤 4 : 对候选关键短语进行权重计算并选出关键短语。 0007 本发明通过选取 3000 。

12、篇专利文献为训练集对上述方法构建的实验系统进行训 练, 另选取 100 篇专利文献为测试集, 根据上述本发明涉及的方法, 对每篇专利文档提取 15 个关键短语。同时, 使用现有的基于统计的方法提取相同数量关键短语作为对比。同时, 人 工对同样的 100 篇专利文献提取关键短语, 人工提取的关键短语作为判定提取的关键短语 是否正确的标准。使用上述数据计算方法的准确率, 使用公式如下 : 0008 测试方法提取的关键短语的数量 100% 0009 人工提取的关键短语的数量 100% 0010 实验结果如下 : 使用本发明涉及的方法的准确率为 95.24%, 使用传统方法的准确 说 明 书 CN 1。

13、03885934 A 4 2/13 页 5 率为 81.61%。使用本发明涉及的方法的召回率为 85.5%, 使用传统方法的召回率为 84.2%。 可见, 使用本发明涉及的方法, 明显提高了关键短语的抽取准确率, 召回率也略有提高, 对 专利文献的关键短语提取显示了较好的效果。 附图说明 0011 图 1 为根据本发明的专利文献自动抽取关键短语方法的流程图 ; 0012 图2为根据本发明的专利文献自动抽取关键短语方法提取出的关键短语-文本域 关联的示意图。 0013 为了能明确实现本发明的实施例的结构, 在图中标注了特定的尺寸、 结构和器件, 但这仅为示意需要, 并非意图将本发明限定在该特定尺。

14、寸、 结构、 器件和环境中, 根据具体 需要, 本领域的普通技术人员可以将这些器件和环境进行调整或者修改, 所进行的调整或 者修改仍然包括在后附的权利要求的范围中。 具体实施方式 0014 下面结合附图和具体实施例对本发明提供的一种专利文献关键短语自动提取方 法进行详细描述。 0015 在以下的描述中, 将描述本发明的多个不同的方面, 然而, 对于本领域内的普通技 术人员而言, 可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释 的明确性而言, 阐述了特定的数目、 配置和顺序, 但是很明显, 在没有这些特定细节的情况 下也可以实施本发明。 在其他情况下, 为了不混淆本发明, 对。

15、于一些众所周知的特征将不再 进行详细阐述。 0016 在本说明书中使用的术语仅用于更好的理解本发明的实施方案的目的, 不用于限 制本发明。本说明书中使用的 “一个” 、“一种” 、“该” 也可以包括复数形式, 除非上下文明确 指出。 0017 术语 “短语” , 是指包括由一个及以上单词构成的名词性短语、 以及嵌套了短语的 名词性结构, 本发明的 “短语” 最小单位是单个词, 是广义的短语概念。 0018 图 1 示出根据本发明的一种专利文献关键短语自动提取方法的流程图, 如图 1 所 示, 该方法包括 : 步骤 1 : 文本的预处理, 包括文本域标注、 分句、 分词、 词性标注等 ; 步骤 。

16、2 : 识别专利发明的主题类型 ; 步骤 3 : 提取候选关键短语并进行短语过滤 ; 步骤 4 : 权重计算 并选出关键短语。 0019 其中, 步骤 1 用于文本域的识别和分句、 词性标注等预处理。进一步, 步骤 1 包括 : 步骤 11、 识别专利文献各文本域 ; 步骤 12、 对专利全文进行分句, 根据需要进行分词处理, 分词后进行词性标注 ; 步骤 13、 对于文本特殊位置进行识别。 0020 其中, 步骤 11 中, 识别专利文献各文本域, 包括识别权利要求书、 说明书、 说明书 摘要、 附图说明、 发明内容等文本域 ; 优选的, 各文本域可以进一步细分识别, 例如发明内 容进而可以。

17、分为所要解决的技术问题、 技术方案和有益效果。识别后以标签标注, 例如, 。 0021 其中, 步骤1中, 识别文本域的方法可以包括 : 对于XML格式存储的专利文档, 使用 专利文档原有的 XML 标签进行分析 ; 对纯文本格式存储的专利文档, 对全文进行内容的识 说 明 书 CN 103885934 A 5 3/13 页 6 别, 通过识别各文本域标题来识别, 识别方法可以是模板规则等常用方法。 0022 其中, 步骤 12 中, 对专利全文进行分句, 根据需要进行分词处理, 例如中文、 日语 等没有明显分词标志的语种。分词后进行词性标注。上述处理均可以采用本领域常用的现 有工具。 002。

18、3 其中, 步骤 13 中, 对于各文本域中的特殊位置的识别, 例如独立权利要求、 从属权 利要求、 权利要求主题名称、 附图说明、 独立权利要求前序、 特征部分, 从属权利要求引用、 限定部分进行进一步的识别处理。其中, 识别方法可以包括 XML 标签加规则匹配或模板匹 配的方法。 0024 例如, 0025 2. 根据权利要求 1 所述的保温壶, 其特征在于, 所述保温壶具有一个带密封垫圈 的盖子。 0026 通过模板匹配, 得出 “根据权利要求 1 所述的保温壶” 为引用部分,“所述保温壶具 有一个带密封垫圈的盖子” 为限定部分。 0027 其中, 步骤 2 中, 识别专利发明的主题类型。

19、, 专利按技术主题类型分为产品发明、 方法发明。 根据发明类型的不同, 抽取关键词应当有不同的侧重点, 经过对专利文献的深入 分析, 本申请设置了以下具有关键短语提取侧重点的主要类型 : 一、 方法类型 : 1. 制备方法 (有机物、 组合物、 食品等的制备) ; 2. 加工方法 (成形、 纺织等) ; 3. 建筑方法 ; 4. 使用方法 ; 5. 信息的处理和传输方法 ; 二、 产品类型 : 1. 制造的物品 ; 2. 织物 ; 3. 建筑物 ; 三、 设备类 型 : 1.工艺设备 ; 2.机器 ; 3.工具 ; 4.操作仪器 ; 四、 材料 : 1.化合物、 组合物、 微生物 ; 2.生 。

20、活用品材料 ; 3. 建筑、 工程材料 ; 五、 应用类型 : 已知产品新用途、 转用发明等。 0028 步骤 2 主要用于对待提取关键短语的专利文献进行技术主题类型分析, 其中包 括 : 步骤 21、 对于技术主题类型的分析训练 ; 步骤 22、 获取发明名称、 分词、 词性标注信息、 核心词 ; 步骤 23、 基于经过训练后的分类器, 通过特征词表、 核心词概率和核心词文档概率 以及核心词本身作为特征, 标注技术主题类型。 0029 其中, 步骤 21 的技术主题类型分析方法的训练步骤包括 : 0030 步骤 211、 选取 1 万篇以上专利文档作为训练语料, 从著录项目中获取发明名称和 。

21、独立权利要求的主题名称及其分词、 词性标注信息。其中, 独立权利要求的主题名称, 可通 过现有技术识别出独立权利要求, 再通过模板等常用方法获取其主题名称。 例如, 一种音频 特征提取方法, 其特征在于 : , 则获取主题名称为 “音频特征提取方法” 。 0031 步骤212、 获取核心词。 其中, 如果发明名称是两个或多个并列短语, 分别获取每个 短语的核心词。例如 : 一种音频特征提取方法和系统, 应分别获取 “方法” 、“系统” 两个核心 词。获取独立权利要求的主题名称核心词, 例如 : 音频特征提取方法, 应获取 “方法” 。核心 词获取采用常用的工具。 0032 步骤 213、 对上。

22、述训练人工标注其技术主题类型, 标注为前述划分的 5 种类型。 0033 步骤214、 根据步骤213的标注结果, 分别建立上述5种技术主题类型的特征词表。 即, 根据每篇文档被人工标注的技术主题类型, 将其核心词存入相应技术主题类型的特征 词表中。同时, 计算核心词概率, 即该核心词在每种类型中出现的概率 ; 以及核心词文档概 率 , 即出现该核心词的文档在上述选取的作为训练语料的专利文档集中出现的概率。将上 述概率存储并与对应核心词关联。 说 明 书 CN 103885934 A 6 4/13 页 7 0034 步骤 215、 使用常用的自动分类方法作为技术类型分类方法, 对待分类的专利文。

23、档 主题名称进行分类。其中自动分类方法包括条件随机场方法, k 近邻法、 决策树、 朴素贝叶 斯、 贝叶斯网络或者支持向量机 (SVM) 等。使用上述步骤 211- 步骤 214 收集的训练语料对 分类器进行训练。 0035 步骤 22 中, 对新专利文档进行技术主题分类的步骤包括 : 使用步骤 211 和步骤 212 的方法获取发明名称、 分词、 词性标注信息、 核心词。 0036 步骤 23 包括以经过步骤 215 训练后的分类器, 使用步骤 214 中获得的特征词表、 核心词概率和核心词文档概率以及核心词本身作为特征, 标注技术主题类型, 然后将标注 的技术主题类型进行存储。 0037 。

24、步骤 2 的方法比人工添加规则的方法适应性好, 对于一些发明名称和权利要求主 题名称比较模糊的情况也能很好的进行分类。由于专利的发明名称和权利要求主题名称 撰写方式繁多, 例如,“用于中药煎煮锅的防烫型倒药架” 、“一种棋盘和棋子自动定位识别 棋” 、“一种 Asia1 型口蹄疫病毒抗原” , 如果使用模板或规则的方法要全面覆盖这样各异的 名称, 就需要针对大量产品名称撰写规则模板, 造成规则、 模板的数量过多。 同时, 如果为了 提高模板的匹配效率, 将模板撰写得比较宽泛, 例如 : 名词短语 + 棋, 又容易带入一些噪 声。 0038 其中, 步骤 3 中, 提取候选关键短语并进行短语过滤。

25、。其中, 步骤 3 的方法包括 : 步 骤 31、 提取候选的关键短语 ; 步骤 32、 提取后对停用短语和低信息度短语进行过滤。 0039 候选短语是作为关键短语的候选, 以便进一步对其进行权重计算等处理的短语。 其中, 步骤 31 中获取候选短语的方法有词表法、 规则方法、 模板方法和前后指示词方法。 0040 其中, 词表法中, 词表是预先人工编撰或用统计方法收集的专利关键短语。短语 按照短语词长度降序排列, 以首词为索引进行编撰。在待抽取关键短语的专利经过分词之 后, 对分词的结果的每个词, 均在上述词表中进行搜索, 当索引中含有相同词时, 从该词位 置起, 按照长度由长至短依次进行匹。

26、配。匹配成功则将候选短语储存留用。重复该步骤直 到搜索完待抽取关键短语的专利中每个词。 0041 其中, 规则方法中, 先使用 n-gram 法对分词后的词语进行组合, 以便从中筛选候 选短语, 选取 1-n 长度的所有组合作为候选的短语。n 可以根据经验选择, n 优选 5。利用 词性标注的结果和根据语法现象预先设定的规则进行提取, 例如, 提取名词 + 名词、 形容词 + 名词、 形容词 + 名词 + 名词, 具体规则可以为下表 1 例子中所示。下表 1 仅作为示例不用 于限制本发明, 所述规则可以是1-m个词的组合, 优选m=4。 根据以下规则保留的n-gram短 语作为候选短语等待进一。

27、步处理。 0042 表 1 0043 n a+n a+a+n 说 明 书 CN 103885934 A 7 5/13 页 8 a+a+a+n 0044 其中, n 名词, a 形容词。 0045 其中, 模板结合正则表达式法中, 根据专利文献的特点, 预先分析出常见的关键词 的出现模式, 撰写提取候选短语的模板, 再根据专利的撰写特点, 使用正则表达式对模板进 行泛化处理, 提高模板的命中率, 减少人工撰写模板的工作量。 0046 例如, 模板 1 : 0047 文本域 : 权利要求 / 摘要 0048 STR 一种 +KPPOS:NP+POS: 标点 +STR 其特征在于 / 特征是 / 其。

28、特征是 / 它 包括 / 包括 。 0049 模板 2 : 0050 文本域 : 发明名称 / 摘要 / 权利要求 0051 STR 一种 +KP(POS:NP)+STR( 方法 / 装置 / 发明 / 系统 / 产品 / 工艺 )。 0052 模板 1 中, 当某短语词性标注为名词 / 形容词 + 名词, 且其前词为 “一种” , 后词为 “其特征在于 / 特征是 / 其特征是 / 它包括 / 包括” 等时, 提取该短语为候选短语。 0053 其中, 前后指示词法中, 前指示词表示其后面出现的短语是可能的关键短语, 后指 示词表示其前面出现的短语是可能的关键短语。例如,“本发明所述的” 、“。

29、本发明的技术方 案中涉及的” 为前指示词 ;“其特征在于” 为后指示词。可以利用预先撰写的前后指示词提 取候选短语。 0054 本发明的候选短语获取方法可以是上述 3 种方法一种或多种的结合, 但是本发明 的候选短语获取方法可以使用现有的常用方法, 不限于上述方法。 0055 其中, 步骤 32 中, 在上述步骤 31 获取候选短语之后, 对上述方法获取的候选短语 进行噪声过滤处理。 因为利用在提取关键短语时会同时将一些对检索没有意义的词提取出 来, 所以必须进行过滤处理, 以提高准确率。 0056 例如 “一种基于情境搜索提取搜索价值词的装置, 其特征在于, 包括 : 候选搜索词 集生成模块。

30、、 泛词过滤模块、 主题相关性计算模块、” , 使用模板法提取出候选短语为 “基 于情境搜索” 、“搜索价值词的” 、“搜索词集生成模块” 、“泛词过滤模块” 、“主题相关性计算 模块” 。对上述提取的候选短语块利用头尾词过滤, 提取出过滤后的候选短语 “情境搜索” 、 “搜索价值词” 、“搜索词生成” 、“泛词过滤” 、“主题相关性计算” 。头尾词过滤的方法主要采 取模板法和停用头尾词法。模板法是使用人工预先设定的模板对头尾词进行过滤的方法。 例如 : 模板 “介词 +KP” 、“KP+ 的” 、“KP+ 模块” 应用到本例中可以成功过滤不需要的 词尾。停用头尾词法是指利用预先建立的停用头尾。

31、词表进行头尾词过滤的方法, 该词表是 利用统计方法获取的通用头尾词表。如果短语头尾词出现停用头尾词表中头尾词, 则从短 语中删除该头尾词, 并将删除头尾词后的短语更新为候选短语。例如,“* 模块” 、“第一 *” 是机械领域常见的头尾词。可以预先使用统计方法总结并存储在停用头尾词表中。 0057 其中, 步骤 32 还包括经过噪声过滤处理之后, 再对候选短语进行短语过滤处理。 短语过滤处理分为停用短语过滤和过滤信息度不高、 不能有效表述本发明主题的词汇。 0058 其中, 步骤 32 中, 过滤信息度不高、 不能有效表述本发明主题的词汇。包括但不限 说 明 书 CN 103885934 A 8。

32、 6/13 页 9 于 : 对于形容词、 量词、 数次、 感叹词、 助词、 副词、 介词等, 可以利用词性标注结果进行过滤。 部分作者为了叙述方便而造出的词汇, 例如 “第一设备” “第二螺纹” 等, 这些词汇不能清楚 的表述明确的技术含义, 可以利用预先设定的模板进行过滤。 0059 例如, 0060 STR : 第 +NUM:1-9+STR&POS : N 0061 STR: 第 +STR : 一 / 二 / 三 / 四 / 五 +STR&POS : N 0062 其中 STR 表示字符串,“ : ” 后面内容表示具体的字符串。NUM 表示数字。1-9 表 示数字 1-9。 “STR&PO。

33、S : N” 表示, 该部分为字符串, 且词性标注为名词。 0063 其中, 步骤 32 中, 停用短语过滤是使用预先通过一定规模专利文档库训练得出的 停用短语列表。列出使用频率最高的 n 个通用高频短语, 这些高频短语在所述专利文档库 中出现频率较高。然而在当前专利文献中不具有足够的信息度。例如 “本发明” 、“附图 1” 。 所述一定规模的专利文档库可以是包含各技术领域的通用专利文档库或者某个特定领域 的主题专利文档库。所含有的专利文献的数量不小于 k 篇 ; k 优选 5000 以上。 0064 其中, 步骤 4 中, 对候选关键短语进行权重计算并选出关键短语。其中, 权重计算 可以包括。

34、频率权重、 IPC 权重。进一步, 步骤 4 还包括计算权重的修正因子。该修正因子包 括位置因子、 文本域因子。其中, 权重计算方法如公式 (1) 所示 : 0065 0066 其中, 步骤 4 中, 计算频率权重包括统计与短语频率等统计信息相关的权重, 计算 方法包括 TF-IDF、 TFC、 ITC、 TF-IWF 等方法。 0067 其中, TF-IDF 法中, 如公式 (2) 所示 : 0068 0069 其中, NP为短语的权重, fNP为短语在当前专利文献中的频率即当前短语的出现 次数和总词数的比值, nNP在专利文档库中出现的该短语的专利文档数, N 为专利文档库中 总文档数。 。

35、0070 其中, TFC 法如公式 (3) 所示 : 0071 0072 其中, NP为短语的权重, fNP为短语在当前专利文献中的频率, nNP在专利文档库 中出现的该短语的专利文献数, N 为专利文档库中总文档数, NP表示对全篇专利文献中所 有短语求和。 0073 其中, ITC 法如公式 (4) 所示 : 0074 0075 其中, NP为短语的权重, fNP为短语在当前专利文献中的频率, nNP在专利文档库 说 明 书 CN 103885934 A 9 7/13 页 10 中出现的该短语的专利文献数, N 为专利文档库中总文档数, NP表示对当前专利文献中所 有短语求和。 0076 。

36、其中, TF-IWF 法如公式 (5) 所示 : 0077 0078 其中, NP为短语的权重, fNP为短语在当前专利文献中的频率, cNP为短语在当前 专利文献中出现的次数, NP表示对当前专利文献中所有短语求和。 0079 其中, 步骤 4 中, 包括计算 IPC 权重。其中, IPC 分类体系是国际通用的专利分类 体系, 每篇专利文档都必然有一个或一个以上 IPC 分类号。因此可以利用 IPC 分类号增加 关键词提取的准确性。 IPC权重是利用当前文档的主IPC分类号, 在IPC权重值表中查找当 前文档中短语的相应 IPC 权重值。 0080 IPC 权重值表, 是利用预先收集的专利文。

37、档库得到的。具体的方法为 : 在一定规模 的专利文档库中, 先选取词频最高的 n 个短语, 排除停用短语, 优选 n 为不小于 500 的任意 整数, 更加优选 n 不小于 5000 ; 然后, 计算选出的短语在某个分类号下所有文档中的权重的 均值, 计算方法如公式 (6) 所示 ; 其中, 所述专利文档库所包含的专利不小于 5000 篇。 0081 0082 其中,为短语的对应第i个IPC权重值,为该短语在文档dj中的权重值。 0083 上述计算方法还可以变化为, 对于第 i 个 IPC 选取 m 篇文档, m 为不小于 1000 的 任意整数 ; 先选取词频最高的 n 个短语, 排除停用短。

38、语, n 为不小于 500 的任意整数, 更加优 选 n 不小于 5000 ; 计算选出的短语在某个分类号下所有文档中的权重的均值, 计算方法如 公式 (7) 所示 : 0084 0085 其中,为短语的对应第 i 个 IPC 权重值,为短语在文档 dj 中的权重值。 0086 步骤 4 还包括计算权重的修正因子。其中, 位置因子是短语首次出现的位置带来 的权重影响, 位置因子分为文本位置因子和专利位置因子。文本位置因子是指因关键短语 出现在文档的不同位置, 例如段首, 对其权重的影响。文本位置因子计算如表 2 所示 : 0087 表 2 0088 0089 具体计算时, 如果一个短语既为句子。

39、主语又为段首, 取最高值进行计算。 0090 专利位置因子是指由于专利特殊撰写格式带来的对权重的影响。具体计算如表 3 所示 : 0091 表 3 0092 说 明 书 CN 103885934 A 10 8/13 页 11 0093 具体计算时, 对于符合多个条件的短语, 取最高值进行计算。 判断从属权利要求限 定部分作为主语、 独立权利要求特征部分作为主语和附图标记所标注的短语时, 使用浅层 句法分析加规则的方法。 0094 规则可以为例如, 在主语成分中如果出现 : 所述的 +NP=NP 为作为主语的短语。 0095 在具体实施方式部分如果出现 : NP+ 附图标记 =NP 为附图标记标。

40、注的短语。 0096 技术主题类型位置因子是指对于步骤 2 中确定的技术主题类型, 应重点提取不同 的关键词。例如, 产品类型, 应重点形状、 构造、 连接关系等 ; 方法类型, 应重点提取工艺、 步 骤等 ; 设备类型, 应重点抽取, 部件、 连接关系、 该设备的用途等 ; 应用类型要重点提取关于 用途信息的关键短语 ; 材料类型, 应提取组成材料的各组分, 材料的用途等。 0097 技术主题类型位置因子主要采用启发式方法。预先分别对每种类型制作触发词 表, 当待标注的文档中某位置出现对应技术主题类型的触发词表中的触发词时, 对于在预 先设定的窗口范围内出现的短语, 将其技术主题类型位置因子。

41、设为 1.1 ; 其他位置主题类 型位置因子设为 1。预先设定的窗口范围优选为 30 个字符。 0098 上述步骤计算完毕后, 按照公式 (8) 计算出位置因子 : 0099 位置因子 = 文本位置因子 * 专利位置因子 * 技术主题类型位置因子 (8) 。 0100 步骤 4 还包括计算权重的修正因子。其中, 文本域因子是指短语位于专利文献不 同文本域对其权重的影响, 具体计算方法如表 4 所示, 0101 表 4 0102 文本域权重因子 发明名称1.62 权利要求1.44 摘要0.72 附图说明1.08 技术领域0.9 所要解决的技术问题0.9 背景技术0.36 有益效果0.9 具体实施。

42、方式0.36 发明内容技术方案部分1.08 对单个文本域提取时1 0103 具体计算时, 对于符合多个条件的短语, 取最高值进行计算 ; 对于单个文本域提取 说 明 书 CN 103885934 A 11 9/13 页 12 关键短语时, 公式1中文本域因子为1。 根据上述方法, 对于某个短语, 其权重值可以根据公 式 (1) 进行计算。将上述经过去重的短语按权重值降序排列, 选出前 t 个短语作为关键短 语。t 为正整数, 优选 t 为 10-20。 0104 其中, 步骤4还包括提取出关键词后, 将关键词-文本域信息进行关联显示。 其中, 对于每个关键词, 同时显示其所属的文本域, 则查询。

43、者可以根据关键短语所属的文本域, 判 断该关键短语的重要程度或与对专利文档的技术主题的代表程度。 例如, 关键词 “音频特征 提取方法” 出现的文本域为标题、 权利要求、 发明内容, 则可以判断该关键词与专利文档的 技术主题的密切相关, 如图 2 所示。 0105 进一步, 步骤 4 还可以包括 : 提取出关键短语后, 还可以根据所述技术领域 - 近义 词表, 显示与提取出来的关键短语相似的技术术语, 作为近似检索词推荐给查询者。 所述技 术领域 - 近义词表是预先利用一定规模的专利文档库的专利文档进行分词、 停用词去除处 理后, 使用人工方法加工的根据 IPC 技术领域分类的短语表, 并且将。

44、含义相同或相近的短 语关联起来。 0106 利用上述方法提取出关键词后, 如果其中有一个或多个关键词具有 2 个或 2 个以 上词义。利用上述技术领域 - 近义词表确定词义, 具体做法为, 先根据待标引文档的 IPC 分 类号, 定位到所属技术领域 - 近义词表的相关技术领域, 如果该技术领域中仅存在 1 个词 义, 则同时显示出该关键词的相关技术领域共使用者参考。 如果存在多个词义, 则根据现有 方法使用技术领域 - 近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链, 计算词的集聚特征值, 计算如公式 (9) 所示 : 0107 co=span+len+wcount+sim (9)。

45、 0108 其中, span表示词汇链的词汇中短语最早出现的位置和最晚出现位置的距离, len表示词汇链含有的短语数目, wcount表示含有词汇链任意元素的句子数目, sim词汇 链中短语间的相关度, 计算后取集聚特征值最大的词义。 0109 上述方法与现有技术的区别在于, 现有技术中一般使用知网等现有资源构建词汇 链, 仅能以词为元素构建词汇链。而本发明中使用预先利用专利文档库建立的技术领域近 义词表, 该词表是以短语为元素, 因而可以以短语为元素进行词汇链构建, 从而可以用于关 键短语的提取。 0110 进一步, 利用上述方法提取出关键短语后, 还可以将关键短语分类为主题信息、 技 术方。

46、案信息、 其他对检索有用的信息。主题信息, 是指揭示了发明技术主题的信息。技术方 案信息, 是表示技术方案内容的关键信息。 其他对检索有用的信息, 是指直接揭示了发明有 益效果、 用途、 所要解决的技术问题的技术信息。 0111 例如,“一种用于垂直轴盘式电机的磁悬浮支撑结构” , 使用模板 0112 STR: 一种 +STR:PP+STR: 的 +STR:NP 0113 提取出介词短语 PP“用于垂直轴盘式电机” 和名词短语 NP“磁悬浮支撑结构” , 经 过本发明上述方法提取出关键短语 “垂直轴盘式电机” 和 “磁悬浮支撑结构” , 其中,“垂直轴 盘式电机” 属于其他对检索有用的信息,“。

47、磁悬浮支撑结构” 为主题信息。 0114 利用上述方法提取出关键短语后, 还可以将关键短语与其他知识信息相关联, 例 如带提取关键词的专利文档的分类号信息、 技术领域信息, 与提取的关键短语一起进行显 示。 说 明 书 CN 103885934 A 12 10/13 页 13 0115 例 1 0116 以下以一个具体的专利文献的片段为例, 说明本发明涉及的方法, 但是以下实施 例仅为说明本发明, 而不用于限定本发明。 0117 【例】 0118 发明名称 : 时分双工系统中随机接入信道的发送方法 0119 主分类号 : H04L1/18 0120 摘要 : 本发明提供了一种时分双工系统中随机。

48、接入信道的发送方法, 包括以下步 骤 : 确定时分双工系统的内的的数目 ; 0121 权利要求 : 0122 1. 一种时分双工系统中随机接入信道 RACH 的发送方法, 其特征在于, 0123 技术领域 : 本发明涉及通信领域, 具体而言, 涉及一种时分双工系统中随机接入信 道的发送方法。 0124 背 景 技 术 : LTE(Long Term Evolution, 长 期 演 进 ) 系 统 TDD(Time Division Duplex, 时分双工 ) 模式的帧结构, 如图 1 所示。 0125 发明内容 : 本发明旨在提供一种时分双工系统中随机接入信道的发送方法, 能够 解决在 UpPTS 中发送 RACH 时, RACH 在频域位置不当导致减弱 RACH 间分集效果的问题。 0126 附图说明 : 0127 此处所说明的附图用来提供对本发明的进一步理解, 0128 具体实施方式 : 0129 下面将参考附图并结合实施例, 来详细说明本发明。 0130 0131 首先, 从专利文档中读取上述文本。标注文本域, 例如 : 在摘要起始位置和结束为 止标注 和 , 权利要求书起始位置标注 和 等。 标注文本域的方法可以通过读取其已有 XML 标签或者使用模板匹配等现有方法实现。经。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1