一种跨语言科技文献检索方法及系统.pdf

上传人:Y948****062 文档编号:1304546 上传时间:2018-04-14 格式:PDF 页数:7 大小:466.63KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611261604.7

申请日:

2016.12.30

公开号:

CN106682209A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161230|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

吉林大学

发明人:

徐昊

地址:

130000 吉林省长春市前进大街2699号

优先权:

专利代理机构:

北京细软智谷知识产权代理有限责任公司 11471

代理人:

王淑玲

PDF下载: PDF下载
内容摘要

本发明具体涉及一种跨语言科技文献检索方法及系统,包括:建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词相匹配的同类关键词所对应的科技文献信息本体链接;通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。通过本发明提供的技术方案,可提高科技文献检索的精确度。

权利要求书

1.一种跨语言科技文献检索方法,其特征在于,包括:
步骤S1、建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键词、同类
关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索
引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述源科技文献为同
类关键词中各中文关键词和英文关键词所源自的科技文献集合;
步骤S2、读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词相匹配
的同类关键词所对应的科技文献信息本体链接;
步骤S3、通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接
指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。
2.根据权利要求1所述的跨语言科技文献检索方法,其特征在于,所述步骤S1具体为:
对收录到数据库中的每一篇科技文献,执行以下步骤:
步骤S11、提取科技文献中的中文关键词和英文关键词;
步骤S12、将相同的中文关键词或英文关键词进行合并,同义或近义的中文关键词和英
文关键词归为一类;
步骤S13、对每一类关键词,建立一个科技文献信息本体链接,同时,建立一个该科技文
献信息本体链接指向源科技文献的索引;
步骤S14、集合步骤S13中的科技文献信息本体链接及该科技文献信息本体链接指向源
科技文献的索引,形成科技文献本体库;
其中,所述科技文献信息包括:科技文献的题目、作者、摘要、关键词、出版时间、科技文
献的背景部分、问题部分和解决方案部分。
3.根据权利要求2所述的跨语言科技文献检索方法,其特征在于,所述步骤S11具体为:
对科技文献进行语义分析,以提取文关键词和英文关键词。
4.根据权利要求1所述的跨语言科技文献检索方法,其特征在于,所述预设排序为:按
检索词与科技文献本体库中同类关键词的匹配程度,从高到低以列表形式排列。
5.根据权利要求1~4任一项所述的跨语言科技文献检索方法,其特征在于,采用Jena
和SparQL语言实现科技文献本体库中本体的解析和查询。
6.一种跨语言科技文献检索系统,其特征在于,包括:
本体库模块,用于建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键
词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文
献的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述源科技文
献为同类关键词中各中文关键词和英文关键词所源自的科技文献集合;
检索模块,用于读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词
相匹配的同类关键词所对应的科技文献信息本体链接;
显示模块,用于通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本
体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

说明书

一种跨语言科技文献检索方法及系统

技术领域

本发明涉及计算机检索技术领域,具体涉及一种跨语言科技文献检索方法及系
统。

背景技术

随着信息技术的发展,人们越来越普遍地利用检索电子文档的方式来获取知识。
但是用户所需的知识可能存在不同语言的文档中,而用户更愿意用母语进行检索,这就产
生了跨语言知识检索和抽取的需求。

跨语言检索指用户使用某种自然语言(源语言)的检索词汇去检索另一种自然语
言(目标语言)表达的文档。但现有的知识库在中英文的跨语言检索时,都是先将关键词翻
译为英文,再参照英文翻译在数据库中进行检索。由于中英文之间常常存在一词多译的情
况,这就导致在跨语言检索时,检索精确度大大降低。

发明内容

有鉴于此,本发明的目的在于克服现有技术的不足,提供一种跨语言科技文献检
索方法及系统,提高科技文献检索的精确度。

为实现以上目的,本发明采用如下技术方案:

一种跨语言科技文献检索方法,包括:

步骤S1、建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键词、
同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献
的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述源科技文献
为同类关键词中各中文关键词和英文关键词所源自的科技文献集合;

步骤S2、读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词相
匹配的同类关键词所对应的科技文献信息本体链接;

步骤S3、通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体
链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

优选地,所述步骤S1具体为:对收录到数据库中的每一篇科技文献,执行以下步
骤:

步骤S11、提取科技文献中的中文关键词和英文关键词;

步骤S12、将相同的中文关键词或英文关键词进行合并,同义或近义的中文关键词
和英文关键词归为一类;

步骤S13、对每一类关键词,建立一个科技文献信息本体链接,同时,建立一个该科
技文献信息本体链接指向源科技文献的索引;

步骤S14、集合步骤S13中的科技文献信息本体链接及该科技文献信息本体链接指
向源科技文献的索引,形成科技文献本体库;

其中,所述科技文献信息包括:科技文献的题目、作者、摘要、关键词、出版时间、科
技文献的背景部分、问题部分和解决方案部分。

优选地,所述步骤S11具体为:对科技文献进行语义分析,以提取文关键词和英文
关键词。

优选地,所述预设排序为:按检索词与科技文献本体库中同类关键词的匹配程度,
从高到低以列表形式排列。

优选地,采用Jena和SparQL语言实现科技文献本体库中本体的解析和查询。

一种跨语言科技文献检索系统,包括:

本体库模块,用于建立科技文献本体库,其中,所述科技文献本体库中存储有同类
关键词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科
技文献的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述源科
技文献为同类关键词中各中文关键词和英文关键词所源自的科技文献集合;

检索模块,用于读取用户输入的检索词,并在所述科技文献本体库中查找与该检
索词相匹配的同类关键词所对应的科技文献信息本体链接;

显示模块,用于通过同类关键词所对应的科技文献信息本体链接及该科技文献信
息本体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

本发明采用以上技术方案,至少具备以下有益效果:

由上述技术方案可知,本发明提供的这种跨语言科技文献检索方法及系统,由于
建立有科技文献本体库,科技文献本体库中存储有同类关键词、同类关键词所对应的科技
文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,所述同类关键词为
同义或近义的中文关键词和英文关键词集合,使得用户输入检索词后,只需在科技文献本
体库中查找该检索词相匹配的同类关键词所对应的科技文献信息本体链接,通过同类关键
词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,查
找出相关文献,并按预设排序显示给用户,即可实现检索,相比现有技术,省去了检索过程
中的源语言到目标语言的翻译过程,能提高科技文献检索的精确度。

附图说明

图1为本发明一实施例提供的一种跨语言科技文献检索方法的流程示意图;

图2为本发明一实施例提供的一种跨语言科技文献检索系统的示意框图。

具体实施方式

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

参见图1,本发明一实施例提供的一种跨语言科技文献检索方法,包括:

步骤S1、建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键词、
同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献
的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述源科技文献
为同类关键词中各中文关键词和英文关键词所源自的科技文献集合;

步骤S2、读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词相
匹配的同类关键词所对应的科技文献信息本体链接;

步骤S3、通过同类关键词所对应的科技文献信息本体链接及该科技文献信息本体
链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

需要说明的是,所述科技文献包括科技论文、科技期刊和会议记录等。

为了便于理解,具体介绍本发明提供的这种跨语言科技文献检索方法如下:

首先、根据科技论文的语义模式,将一篇科技论文划分为背景分析、提出问题、解
决方案三个部分,将这三个概念作为科技论文类的子类。同时,论文的发表形式包括期刊和
会议,同样作为父子关系。此外,每篇论文都有许多关键词,我们将每一个关键词都作为学
科领域的实例。

其次,将各领域的关键词实例、论文关键词、论文、期刊、作者等信息关联起来,建
立一个个科技文献信息本体链接,再将各科技文献信息本体链接关联起来,形成科技文献
本体库。由于本体具有属性推导的功能,系统不断地利用Jena进行运算和推导,进而不断建
立新的链接关系,使得科技文献本体库不断完善。例如:软件复用是论文A的关键词,虽然论
文A只有软件复用这一个关键词,但是,软件重用、软件复用和software architecture这三
个同义词会被归为同类关键词。经过本体推理后,论文A不只拥有软件复用这个关键词,还
拥有软件重用以及software architecture这两个它的同义词。所以,当用户使用基于本发
明提供的这种跨语言科技文献检索方法时,无论他们输入的查找关键词是software
architecture,还是软件复用、软件重用,都可以检索到论文A,这样就实现了跨语言科技论
文管理。

由上述技术方案可知,本发明提供的这种跨语言科技文献检索方法,由于建立有
科技文献本体库,科技文献本体库中存储有同类关键词、同类关键词所对应的科技文献信
息本体链接及该科技文献信息本体链接指向源科技文献的索引,所述同类关键词为同义或
近义的中文关键词和英文关键词集合,使得用户输入检索词后,只需在科技文献本体库中
查找该检索词相匹配的同类关键词所对应的科技文献信息本体链接,通过同类关键词所对
应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引,查找出相
关文献,并按预设排序显示给用户,即可实现检索,相比现有技术,省去了检索过程中的源
语言到目标语言的翻译过程,能提高科技文献检索的精确度。

优选地,所述步骤S1具体为:对收录到数据库中的每一篇科技文献,执行以下步
骤:

步骤S11、提取科技文献中的中文关键词和英文关键词;

步骤S12、将相同的中文关键词或英文关键词进行合并,同义或近义的中文关键词
和英文关键词归为一类;

步骤S13、对每一类关键词,建立一个科技文献信息本体链接,同时,建立一个该科
技文献信息本体链接指向源科技文献的索引;

步骤S14、集合步骤S13中的科技文献信息本体链接及该科技文献信息本体链接指
向源科技文献的索引,形成科技文献本体库;

其中,所述科技文献信息包括:科技文献的题目、作者、摘要、关键词、出版时间、科
技文献的背景部分、问题部分和解决方案部分。

优选地,所述步骤S11具体为:对科技文献进行语义分析,以提取文关键词和英文
关键词。

优选地,所述预设排序为:按检索词与科技文献本体库中同类关键词的匹配程度,
从高到低以列表形式排列。

例如,比如关键词X在论文A的摘要部分出现,关键词X在论文B的背景部分出现,关
键词X在论文C的问题部分出现,关键词X在论文D的解决方案部分出现,则按论文D、论文C、
论文B、论文A的排序显示给用户。

优选地,采用Jena和SparQL语言实现科技文献本体库中本体的解析和查询。

参见图2,一种跨语言科技文献检索系统100,包括:

本体库模块101,用于建立科技文献本体库,其中,所述科技文献本体库中存储有
同类关键词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向
源科技文献的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;所述
源科技文献为同类关键词中各中文关键词和英文关键词所源自的科技文献集合。

检索模块102,用于读取用户输入的检索词,并在所述科技文献本体库中查找与该
检索词相匹配的同类关键词所对应的科技文献信息本体链接;

显示模块103,用于通过同类关键词所对应的科技文献信息本体链接及该科技文
献信息本体链接指向源科技文献的索引,查找出相关文献,并按预设排序显示给用户。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步
详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含
在本发明的保护范围之内。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示
相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

一种跨语言科技文献检索方法及系统.pdf_第1页
第1页 / 共7页
一种跨语言科技文献检索方法及系统.pdf_第2页
第2页 / 共7页
一种跨语言科技文献检索方法及系统.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种跨语言科技文献检索方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种跨语言科技文献检索方法及系统.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明具体涉及一种跨语言科技文献检索方法及系统,包括:建立科技文献本体库,其中,所述科技文献本体库中存储有同类关键词、同类关键词所对应的科技文献信息本体链接及该科技文献信息本体链接指向源科技文献的索引;所述同类关键词为同义或近义的中文关键词和英文关键词集合;读取用户输入的检索词,并在所述科技文献本体库中查找与该检索词相匹配的同类关键词所对应的科技文献信息本体链接;通过同类关键词所对应的科技文献信息。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1