检索辅助装置、方法本申请以日本专利申请2014-188230(申请日期:2014年9月16日)为基础,根据
该申请而享受优先权。本申请通过参考该申请而包含该申请的全部内容。
技术领域
本发明的实施方式涉及一种检索辅助装置、方法及程序。
背景技术
随着英特网的普及和个人电脑、智能手机及平板电脑终端等设备的多样化及商品化,
容易通过Web文件获取信息。因此,实现了如下方法及应用程序:在Web文件等电子化文
件中,实现相当于在作为纸质媒体的报纸或杂志中进行的“剪报”的操作。尤其是智能手
机及平板电脑终端的普及,使得文件中句子的选择及移动操作变得简单,因此可容易地进
行剪报。
在从以剪报形式存储的文件中检索与某一文件相关的相关文件时,在由系统提示相关
文件的情况下,由于显示空间有限,通常而言,进行页面经过缩小的缩略显示的情况较多。
但仅靠缩略显示的话,难以了解相关文件的内容,因此存在如下情况:提示文件的标题、
创建时间及收集时间等属性信息,或者添加用户明确赋予的标记信息等来作为用户了解相
关文件的概要的线索。此外,有这样一种技术:根据在所收集的多个剪报文件之间同时出
现的关键词来提示相关文件。
发明内容
但即便提示在文件之间同时出现的关键词,所提示的关键词也未必有助于用户判断相
关性,只有提取同时出现的关键词,才能提示相关文件。
本公开是为了解决上述问题而成,其目的在于提供一种可对扩展用户兴趣的关键词的
提示进行辅助的检索辅助装置、方法及程序。
本实施方式的检索辅助装置包括第1解析部、第1获取部、测定部、提取部及存储部。
第1解析部对作为经剪报而成的文件的剪报文件进行解析,获取表示作为该剪报文件的来
源的原文件的位置的位置信息。第1获取部参考所述位置信息,在所述原文件有更新的情
况下,获取作为已更新的所述原文件的更新文件。测定部测定所述原文件的第1更新频率。
提取部从所述剪报文件中提取1个以上的第1关键词,并使用根据所述第1更新频率而设
定的关键词提取方式从所述更新文件中提取1个以上的第2关键词。存储部对所述剪报文
件分别关联所述1个以上的第1关键词、所述更新文件及所述1个以上的第2关键词并加
以存储。
通过上述构成的检索辅助装置,可对扩展用户兴趣的关键词的提示进行辅助。
附图说明
图1为表示本实施方式的检索辅助装置的方块图。
图2为表示文件数据的更新处理的流程图。
图3为表示文件数据存储部中所存储的文件数据的一例之图。
图4为表示相关文件提示处理的流程图。
图5为表示关键词提取部的关键词提取处理的流程图。
图6为表示更新模式与关键词提取方式的关系的一例之图。
图7为表示相关文件检索部的相关文件判定处理的流程图。
图8为表示提示部中的相关文件及关键词的提示例之图。
具体实施方式
下面,一边参考附图,一边对本实施方式的检索辅助装置、方法及程序进行详细说明。
再者,在以下的实施方式中,将标注同一参考符号的部分视为进行同样动作的部分,并酌
情省略重复的说明。
参考图1的方块图,对本实施方式的检索辅助装置进行说明。
本实施方式的检索辅助装置100包括文件数据存储部101、剪报文件解析部102、更
新文件获取部103、链接信息解析部104、链接目的地文件获取部105、更新频率测定部
106、关键词提取部107、属性更新部108、查询文件解析部109、相关文件检索部110及
提示部111。
文件数据存储部101存储与1个以上的剪报文件相关的文件数据。剪报文件是表示经
电子化的整个文件或部分区域的经用户剪报(剪切出来)的范围的文件。例如,若为触控
面板式显示画面,则用户可利用触控笔或手指等通过画圈动作来指定文件中的区域,由此
对指定的部分区域进行剪报,生成剪报文件。此外,也可通过在文件中画下划线或标记,
或者对首行做标签等对文件附加注解的操作来进行剪报而生成剪报文件。关于文件数据存
储部101,将参考图3而在后文中叙述。
剪报文件解析部102从文件数据存储部101接收剪报文件并对剪报文件进行解析,获
取表示作为获取剪报文件时的原始文件的原文件的位置的位置信息。作为位置信息,例如
可列举URL或IP地址。
更新文件获取部103从剪报文件解析部102接收原文件的位置信息,并且参考位置信
息而检索WEB150,从而判定在获取到文件数据存储部101中所存储的剪报文件的时间点
之后原文件是否有更新。在原文件有更新的情况下,获取作为已更新的原文件的更新文件。
链接信息解析部104分别从剪报文件解析部102接收剪报文件、从更新文件获取部103
接收更新文件,并对剪报文件及更新文件进行解析,获取剪报文件及更新文件中所包含的
链接信息。链接信息是表示存在于文件中的超链接等通向其他文件的链接的信息。
链接目的地文件获取部105从链接信息解析部104接收链接信息,并从WEB150中检
索并获取作为链接目的地的文件的链接目的地文件。
更新频率测定部106分别从链接信息解析部104接收剪报文件及更新文件、从链接目
的地文件获取部105接收链接目的地文件,并测定原文件的更新频率以及链接目的地文件
的更新频率。
关键词提取部107从更新频率测定部106接收剪报文件、更新文件及链接目的地文件。
关键词提取部107从剪报文件中提取1个以上的关键词,并使用与更新频率相符的关键词
提取方式从更新文件及链接目的地文件中提取1个以上的关键词。关键词提取方式表示在
提取关键词时以何种基准及何种算法进行提取。关于关键词提取部107的详情,将参考图
5而在后文中叙述。
属性更新部108从关键词提取部107接收1个以上的关键词,并对文件数据存储部101
中所存储的剪报文件的文件数据分别关联更新文件、链接目的地文件及1个以上的关键词,
由此进行更新处理。
查询文件解析部109获取作为成为检索查询的文件的查询文件,并对查询文件进行解
析而获取单词特征量。查询文件可通过用户指定剪报文件来确定,也可通过用户输入新文
件来确定。
相关文件检索部110从查询文件解析部109接收查询文件及单词特征量,并以相关文
件的形式从文件数据存储部101中检索并获取与查询文件的单词特征量的类似度为阈值以
上的剪报文件。
提示部111例如为显示器,从相关文件检索部110接收并提示查询文件、相关文件以
及与相关文件关联的更新文件、链接目的地文件及关键词。
接着,参考图2的流程图,对文件数据存储部101中所存储的剪报文件的文件数据的
更新处理进行说明。
又,在本实施方式中,是假设将剪报文件未经处理地预先存储在文件数据存储部101
中的情况,但也可为剪报文件解析部102在生成剪报文件的时间点获取剪报文件,并进行
后续处理。
在步骤S201中,剪报文件解析部102从文件数据存储部101获取剪报文件。
在步骤S202中,剪报文件解析部102对剪报文件进行解析,获取原文件的位置信息。
在步骤S203中,剪报文件解析部102判定原文件是否有更新。关于更新的判定,若
剪报文件解析部102中所存储的剪报文件与存在于位置信息所表示的位置的原文件之间存
在差异,则只要判定原文件有更新即可。在原文件有更新的情况下,进入至步骤S204,在
无更新的情况下,进入至步骤S205。
在步骤S204中,更新文件获取部103获取更新文件。再者,在判定更新时原文件已
更新多次的情况下,也可获取多个更新文件。
在步骤S205中,链接信息解析部104对剪报文件及更新文件的链接信息进行解析。
在步骤S206中,链接信息解析部104判定链接信息所指向的位置是否存在链接目的
地文件。若存在链接目的地文件,则进入至步骤S207,若不存在链接目的地文件,则进入
至步骤S208。
在步骤S207中,链接目的地文件获取部105获取链接目的地文件。
在步骤S208中,关键词提取部107从剪报文件、更新文件及链接目的地文件中提取
关键词。
在步骤S209中,属性更新部108对文件数据存储部101中所存储的剪报文件的文件
数据进行更新。以上,对剪报文件的文件数据的更新处理进行了参考并结束。
接着,参考图3,对文件数据存储部101中所存储的文件数据的一例进行说明。
图3所示的文件数据存储部101中所存储的表格300包含文件ID301、剪报时刻302、
最后更新时刻303、链接信息304、文件本体305、原始关键词306及扩展关键词307。
文件ID301是用以识别文件的标识符。剪报时刻302是对原文件进行剪报处理的时
刻。最后更新时刻303表示原文件有更新的情况下的原文件的最新更新时间。若原文件无
更新,则可将与剪报时刻相同之值作为最后更新时刻303之值,也可为空。
链接信息304是表示链接目的地文件的位置的URL等地址。
文件本体305是剪报文件、更新文件及链接目的地文件的数据本体,例如HTML
(HypertextMarkupLanguage)形式的数据。再者,在剪报文件为被剪报的文件的部分
区域的情况下,对进行剪报的时间点的整个文件的数据也加以存储。
原始关键词306是从剪报文件中提取出来的关键词。又,在剪报文件为被剪报的文件
的部分区域的情况下,也可从被剪报的整个文件中提取关键词。
扩展关键词307是从更新文件及链接目的地文件中获取的关键词。
在图3之例中,例如,文件ID301“001”上分别关联有剪报时刻302“2014-01-23
13:32:13”、最后更新时刻303“2014-02-2215:13:40”、链接信息304“http://www…”、
文件本体305“<HTML>…”、原始关键词306“节能、气体”、扩展关键词307“节能支持
展、Smart-UPS”。
接着,参考图4的流程图,对相关文件提示处理进行说明。
在步骤S401中,查询文件解析部109获取查询文件。
在步骤S402中,查询文件解析部109对查询文件进行解析,提取查询文件的单词特
征量。
在步骤S403中,相关文件检索部110以查询文件为起点,从文件数据存储部101中
检索相关文件。
在步骤S404中,相关文件检索部110判定是否存在相关文件。存在相关文件时,进
入至步骤S405,不存在相关文件时,结束处理。
在步骤S405中,相关文件检索部110获取相关文件以及与相关文件关联的更新文件、
链接目的地文件及关键词(包括原始关键词及扩展关键词)。
在步骤S406中,提示部111提示查询文件、相关文件、更新文件、链接目的地文件
以及与它们分别关联的关键词。以上,相关文件提示处理结束。
接着,参考图5的流程图,对关键词提取部107的关键词提取处理进行说明。
在步骤S501中,设定更新频率的时间宽度。更新频率的时间宽度表示以多长的时间
间隔进行更新,此处,假设3天、5小时等指定值。再者,也可根据用户所收集的剪报文
件组的原文件的更新频率情况来动态地设定时间宽度,并不限于指定值。
在步骤S502中,根据更新频率的时间宽度判定原文件的更新模式。更新模式是用以
根据更新的频率及规则性对剪报文件进行分类的模式。例如,在将更新频率的时间宽度设
定为3小时的情况下,若3小时内有4次以上更新,则分组为更新频率较高的文件,若有
1次以上3次以下的更新,则分组为周期性更新的文件,一次更新也没有时,则分组为静
态文件。再者,更新模式也可不固定,可根据更新情况对剪报文件进行适当的分组,针对
经分组的剪报文件组的每一特征来动态地进行分类。
在步骤S503中,根据更新频率的时间宽度判定链接目的地文件的更新模式。对于链
接目的地文件,也是只要利用与步骤S502同样的方法判定更新模式即可。
在步骤S504中,根据经判定的更新模式进行关键词提取方式的加权。此处,所谓加
权,除了包括对同一关键词提取方式变更权重的参数以外,还包括关键词的提取算法本身
的变更。作为加权,例如,只要确定与更新文件的布局以及链接目的地文件的布局相关的
逻辑要素、以及从字段中的哪一区域中提取关键词即可。
在步骤S505中,按照关键词提取方式提取关键词。以上,关键词提取处理结束。
接着,参考图6,对更新模式与关键词提取方式的关系的一例进行说明。
图6所示的表格600中,更新模式包括高频率更新601、周期性更新602及无更新603,
并对这些更新模式分别按每一类别604设定关键词提取方式的权重。
类别604包括算法、文件中的属性及参数,但并不限定于此,也可包含其他要素。
例如,就算法而言,在周期性更新602中运用未知单词提取方式,在无更新603中运
用固有表达提取方式,若为像高频率更新601那样更新频率较高的页面,由于仅主动提取
新出现的关键词,因此运用新单词提取方式即可。
就文件中的属性而言,在周期性更新602中,将被赋予“value”属性的关键词的权
重设为1.5倍。在无更新603中,由于文件未被更新,因此标题较为重要的可能性较高,
所以将被赋予“title”属性的关键词的权重设为1.5倍。在高频率更新601中,例如假
设价格等被频繁更新,因此将被赋予“price”属性的关键词的权重设为1.2倍。
此外,在算法中的作为针对单词的权重的“W”和作为文件中的单词的出现位置的“L”
可变的情况下,对它们分别进行不同的加权。
接着,参考图7,对相关文件检索部110的相关文件判定处理进行说明。
在步骤S701中,对查询文件进行文章结构解析,提取逻辑要素。具体而言,是检测
何种要素及属性中包含何种字符串及短语。
在步骤S702中,对查询文件进行词素解析,提取关键词。关键词可为由词素解析所
得结果、名词及名词的连接范围、未知单词与名词的组合(连接)等构成的字符串,也能
在出现这些字符串的统计信息的基础上使用C-Value等来检测适当的连接范围。
在步骤S703中,对作为关键词的出现单词及短语计算文件数据存储部101中所存储
的剪报文件的TF/IDF(TermFrequency-InverseDocumentFrequency)值,并且生成
根据文件的逻辑要素(出现位置)而变更权重后的文件矢量。
在步骤S704中,计算查询文件的文件矢量与文件数据存储部101中所存储的剪报文
件的文件矢量的余弦距离。
在步骤S705中,判定余弦距离为阈值以下、即类似度为阈值以上的剪报文件为与查
询文件类似的相关文件,并从具有类似度较高的文件矢量的剪报文件中以相关文件的形式
依序获取。以上,相关文件检索处理结束。
接着,参考图8,对提示部111中的相关文件及关键词的提示的一例进行说明。
在图8之例中,提示查询文件801,并且提示相关文件802。在相关文件802中,除
了提示剪报文件以外,还以沿纵深方向排成1列的状态提示更新文件、链接目的地文件。
此外,相关文件802是按高频率更新803、周期性更新804、无更新805这每一类别进行
显示,并且在各个类别中将检测到的关键词806也合并提示。
再者,在关键词806中,也可对自剪报文件获取的原始关键词、自更新文件获取的关
键词、以及自链接目的地文件获取的扩展关键词分别区分字体及颜色而加以提示。
通过以上所示的本实施方式,可通过不仅获取剪报文件,还获取与剪报文件相关的更
新文件、链接目的地文件,并以与更新频率相符的关键词提取方式获取这些文件的关键词,
来提示与用户的意图及兴趣相符的关键词。此外,通过从更新文件及链接目的地文件中也
获取关键词,除了可从类似度所决定的一个维度的观点获取关键词以外,还可从不同的多
个观点获取关键词,从而提示与用户未阅览的文件也相关的关键词,扩展用户的兴趣范围、
探索范围。
上述实施方式中所展示的处理步骤所示的指示可基于作为软件的程序来执行。也可为
通用的计算机系统预先存储该程序,通过读入该程序来获取与利用上述检索辅助装置而达
到的效果同样的效果。上述实施方式中所记述的指示以可使电脑执行的程序的形式记录在
磁盘(软盘、硬盘等)、光碟(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、蓝
光(注册商标)光碟等)、半导体存储器或者与此类似的记录介质中。只要是电脑或嵌入
式系统可读取的记录介质,则其存储形式可为任一种形态。只要电脑从该记录介质中读入
程序,并根据该程序而利用CPU执行程序中所记述的指示,就可实现与上述实施方式的检
索辅助装置同样的动作。当然,电脑在获取或读入程序时,也可通过网络来获取或读入。
此外,也可为在电脑上运行的OS(操作系统)或者数据库管理软件、网络等MW(中
间件)等按照从记录介质安装至电脑或嵌入式系统中的程序的指示,来执行用以实现本实
施方式的各处理中的一部分。
进而,本实施方式中的记录介质并不限于独立于电脑或嵌入式系统的介质,还包括下
载并存储或暂时存储有通过LAN或英特网等进行传输的程序的记录介质。
此外,记录介质并不限于1个,在从多个介质执行本实施方式中的处理的情况下,也
可包含在本实施方式中的记录介质中,而介质的构成可为任何构成。
再者,本实施方式中的电脑或嵌入式系统用以根据记录介质中所存储的程序来执行本
实施方式中的各处理,可为由个人电脑、微型计算机等1个装置构成的装置、以及多个装
置经网络连接而成的系统等任一种构成。
此外,本实施方式中的所谓电脑,并不限于个人电脑,还包括信息处理设备中所包含
的运算处理装置、微型计算机等,统称为可通过程序来实现本实施方式中的功能的设备、
装置。
虽然对本发明的几种实施方式进行了说明,但这些实施方式是作为示例而提出的,并
非意欲限定发明的范围。这些新颖的实施方式可通过其他各种方式加以实施,并且可在不
脱离发明主旨的范围内进行各种省略、替换、变更。这些实施方式或其变化包含在发明的
范围或主旨内,并且包含在权利要求书中所记载的发明及其均等的范围内。