一种基于用户计算机终端的桌面信息采集系统及采集方法技术领域
本发明涉及一种基于用户计算机终端的桌面信息采集系统及采
集方法。
背景技术
随着信息化应用的不断扩展和互联网服务的不断普及,用户通过
个人计算机终端所能接触和处理的信息内容也越来越丰富。从本地文
档到互联网网页,从文字到图片乃至多媒体资源,海量而又庞杂的信
息内容给用户对自己所感兴趣内容进行收集、保存、展现和再利用带
来了很多困难。
当前,用户通过个人计算机终端对自己感兴趣的信息内容进行收
集的方式主要包括:
1、直接保存整个网页页面;
2、直接拷贝整个文档文件;
3、复制文档、网页或其它数字内容载体中的内容(包括文字片
段、图、表、超链接等)并保存到某个电子文档或电子文件中;
4、通过屏幕截图工具对信息内容进行截取并保存为图片。
上述这些常用的用户个人计算机终端桌面信息采集方式都存在
着一些问题。对于第1种和第2种采集方式,用户需要保存整个内容
的全文信息,而用户感兴趣的往往只是其中的某一部分内容甚至只是
某些文字片段。这样保存下来的全文信息会带来过多的信息干扰,无
法体现直接有效地信息内容;对于第3种方式,虽然用户可以选择自
己感兴趣的内容进行保存,但无法直接保存内容来源信息,用户无法
通过已保存内容去追溯原文从而获得更多信息,而如果要对内容来源
信息进行保存,则在操作会比较复杂耗时;对于第4种方式,将内容
截取为图片进行保存,则在后续的内容利用(如文字拷贝、检索等)
等方面带来很多不便,同时也存在着第3种方式的不足。
发明内容
本发明需要解决的技术问题就在于克服现有技术的缺陷,提供一
种基于用户计算机终端的桌面信息采集系统及采集方法,它能够很好
地实现用户在浏览网页或文档过程中方便快捷地对自己所感兴趣的
信息进行采集,并对采集内容提供统一存储格式和文件。本发明对用
户进行个人知识收藏、管理和利用提供很好地帮助。
为解决上述问题,本发明采用如下技术方案:
本发明提供了一种基于用户计算机终端的桌面信息采集系统,所
述桌面信息采集系统由鼠标右键内容摘抄功能菜单、内容摘抄模块、
内容存储模块、以及保存在本地目录中的XML文件四部分构成,其
中:
鼠标右键内容摘抄功能菜单提供用户执行内容摘抄功能的菜单
项;
内容摘抄模块负责对选取内容及其来源信息进行读取;
内容存储模块将内容摘抄模块所读取到的内容和来源信息存储
到本地XML文件中;
最终得到一个记录了该用户全部摘抄信息的XML文件,方便用
户检索、查看和更好地利用自己的摘抄信息。
鼠标右键内容摘抄功能菜单为用户提供了执行内容摘抄功能的
菜单项,当用户在网页或文档中用鼠标选中的内容,包括文字片段、
图片、表格、超链接,点击鼠标右键,在弹出的右键菜单中找到“内
容摘抄”菜单项,通过点击该菜单项,就可以执行内容摘抄方法。
鼠标右键内容摘抄功能菜单针对网页内容和Microsoft Office文
档内容采用不同的实现方式:
(1)对于网页内容摘抄,右键功能项是通过设置Windows注册
表,为IE浏览器右键菜单添加一个跟内容摘抄相关的菜单项,使用
户可以对选中内容执行摘抄动作,该菜单项是通过访问Windows注
册表进行添加;
(2)对于Microsoft Office文档内容摘抄,右键功能项是通过vba
脚本语言,在Microsoft Office文档中增加右键菜单项,该菜单项与
(1)中所述的右键菜单项实现相同效果。
针对不同的内容载体类型,内容摘抄模块分为网页内容摘抄子模
块、Microsoft Office文档内容摘抄子模块二个部分,针对不同的内容
载体类型,提供了相应的内容摘抄功能。
网页内容摘抄子模块,具体实现方式包括:
(i)设置一个用户本地的HTML文件,此文件定义了从网页上
接收摘抄请求的javascript方法,该javascript方法能够读取到正在浏
览网页中的相关内容,包括用户在页面中用鼠标选中的内容,包括文
字片段、图片、表格、超链接、该网页标题以及该网页URL地址,
同时通过该javascript方法还可以取得当前系统时间信息;
(ii)用户通过鼠标右键内容摘抄功能菜单,可以执行(i)中所
述的javascript方法,将需要的内容进行读取,然后通过该方法将这
些内容提交给内容存储模块;
对Microsoft Office文档内容摘抄子模块,具体实现方式包括:
(i)定义vba脚本语言方法,该vba脚本语言方法能够取得
Microsoft Office文档中用鼠标选中的内容,包括文字片段、图片、表
格、超链接,同时读取该内容所在文档的标题和文件路径,并将取得
的内容发送到下述(ii)中定义的HTML文件;
(ii)设置一个用户本地的HTML文件,此文件定义了接收(i)
中vba脚本所发送内容的javascript方法,同时通过该javascript方法
还可以取得当前系统时间信息;
(iii)用户通过1中所描述的鼠标右键内容摘抄功能菜单,可以
执行(i)中所述的vba脚本语言方法,将需要的内容进行读取,读
取完毕后,将触发(ii)中所述的javascript方法,接收vba脚本所发
送内容,并读取当前系统时间信息,最后通过该javascript方法将这
些内容提交给内容存储模块。
内容存储模块接收内容摘抄模块发送过来的全部内容信息,并将
这些信息根据固定的格式写入一个XML文件中,写入完毕后,对该
文件进行保存,该XML文件用于保存该用户所有的摘抄信息;
内容存储模块包括两个子模块:XML文件创建子模块和XML
文件写入子模块;
(1)XML文件创建子模块:用户在第一次使用内容摘抄功能时,
本子模块为会用户创建一个新的XML文件,该XML文件的文件名
和存储路径由系统进行预定义;
(2)XML文件写入子模块:XML文件创建完成后或该XML
已经存在的情况下,XML文件写入子模块将接收到的全部内容信息
以固定格式写入该XML文件中,写入完毕后,保存该XML文件;
本方法使如下格式写入XML文件:
上述<Digest></Digest>之间表示一篇摘抄内容,其中:
(i)id表示该摘抄内容的辨识代码,通过对执行摘抄动作时读
取的系统时间进行编码自动生成一串数字;因此,该id还可以记录
摘抄时间,用户在查看该摘抄内容时,通过id可以转换成时间格式
进行显示;
(ii)<url></url>之间写入该摘抄内容所在网页的URL地址或者
该摘抄内容所在文档的文件路径和文件名称;
(iii)<title></title>之间写入该摘抄内容所在网页标题和网站名
称或者该摘抄内容所在文档标题;
(iv)<content></content>之间写入具体摘抄内容;
更多地摘抄内容则重复<Digest></Digest>格式要求,按id号在
XML文件中顺序往下写。
通过内容存储模块,得到了一个记录了该用户全部摘抄内容的
XML文件,这个文件的文件名和保存路径是由系统进行预定义,保
存用户摘抄内容的XML文件,用户可以使用这个XML文件对摘抄
内容进行查看、管理、检索、共享和更多的利用服务。
本发明同时提供了一种基于用户计算机终端的桌面信息采集方
法,所述方法包括下列步骤:
1)、用户在计算机终端进行网页或文档阅读时,发现其感兴趣的
内容信息(包括文字片段、图片、表格、超链接)后,用鼠标选中该
内容;
2)、用户对选中的内容执行内容摘抄操作;
3)、用户执行内容摘抄操作后,触发内容摘抄功能,该功能分为
两部分:
(1)执行对用户选中内容的读取,该功能将用户从网页、文档
中选中的文字片段、图片、表格、超链接等信息进行读取;
(2)执行对内容来源信息的读取,该功能将用户选中的内容来
源信息进行读取;
4)、接收内容信息,将已读取完毕的用户摘抄内容信息,包括内
容来源信息发送给内容存储模块,内容存储模块接收这些内容信息,
触发内容存储功能;
触发内容存储功能时,需要对是否已存在保存该用户摘抄内容的
XML文件进行判断,如果不存在这个XML文件,则触发XML文件
创建功能,即根据预定义的文件名和文件路径创建一个新的XML文
件;
5)、执行XML文件写入,将接收到内容信息按照固定格式写入
指定文件名和文件路径的XML文件中,该XML文件用于保存该用
户所有的摘抄内容信息;
6)、保存XML文件,内容信息写入XML文件完毕后,执行保
存操作,完成该XML文件的保存,用户可以通过支持XML标准的
程序来读取这个XML文件并进行内容查看、管理和检索等操作。
内容来源信息的读取步骤,
(i)针对网页内容,内容来源信息包括:内容来源的网站、内
容所在的页面标题、URL地址以及内容摘抄时间。
(ii)针对文档内容,内容来源信息包括:内容来源的文件名、
存储路径标题、所在文档页码数以及内容摘抄时间。
本发明是针对目前用户通过个人计算机终端桌面进行信息采集
时出现的上述问题而提出的一种信息采集的软件方法以及根据本方
法开发的一个软件系统。它能够很好地实现用户在浏览网页或文档过
程中方便快捷对自己所感兴趣的信息进行采集,并对采集内容提供统
一存储格式和文件。本发明对用户进行个人知识收藏、管理和利用提
供很好地帮助。
通过本发明,用户可以采集互联网网页、电子文档等用户通过计
算机终端桌面访问的信息内容,包括文档或网页内的文字片段、图、
表、超链接等。在把内容摘抄下来的同时,还将记录内容的来源信息,
包括:
1、对网页信息采集,记录内容来源的网站、内容所在的页面标
题、URL地址以及内容摘抄的时间;
2、对于文档内容采集,记录内容来源的文件名、存储路径标题、
内容所在文档标题、所在文档页码数以及内容摘抄时间。
摘抄下来的内容和相关信息统一存储在一个XML文件中,用户
可以利用XML文件的跨平台特性,灵活便利地进行检索和查看。
本发明提供了一种简单易用、方便快捷地对用户通过计算机终端
桌面浏览的内容进行采集和保存的软件方法和系统。基于此方法,用
户通过简单的鼠标操作,即鼠标左键选取内容,鼠标右键打开功能菜
单,并选择其中的摘抄选项,即可以完成对此段内容以及来源信息的
采集和保存。
本发明的有益效果体现在:
1、简化了传统意义上用户桌面信息采集所具有的繁琐操作;
2、直接采集并保存用户感兴趣的内容(包括文字片段、图片、
表格、超链接),同时采集和保存内容来源信息(来源网站/文件名、
来源网页标题/文档标题、来源网页URL/文档页码、摘抄时间),极
大地提高了采集信息的有效性和可利用性;
3、摘抄下来的内容使用统一格式保存进同一个XML文件中,
提高了摘抄内容的可读性;
4、摘抄下来的内容使用统一格式保存进同一个XML文件中,
提高了摘抄内容的可扩展性和移植性。
附图说明
图1是本发明所述的桌面信息采集系统的一个实例模块结构图。
图2是本发明所述的桌面信息采集方法流程图。
具体实施方式
本发明为解决传统桌面采集方法和工具带来的弊端,通过以下具
体实施例进一步阐述本发明所述的一种基于用户计算机终端的桌面
信息采集方法和系统。以下对具体实施方法进行描述,但不作为对本
发明的限定。
图1描述了一种基于用户计算机终端的桌面信息采集系统。以此
为例,进行具体描述。
本例中的系统主要实现对用户通过个人计算机终端桌面进行访
问的互联网网页和Microsoft Office文档的内容进行摘抄功能。
本例中的Microsoft Office文档包括Microsoft Word、Microsoft
PowerPoint、Microsoft Excel格式文档,支持的软件版本包括Microsoft
Office 2000、Microsoft Office 2003、Microsoft Office 2007以及
Microsoft Office 2010。
如图1所示,本例中的桌面信息采集系统,主要包括:鼠标右键
内容摘抄功能菜单、内容摘抄模块、内容存储模块以及保存在本地目
录中的XML文件四部分。
其中:鼠标右键内容摘抄功能菜单提供用户执行内容摘抄功能的
菜单项;内容摘抄模块负责对选取内容及其来源信息进行读取;内容
存储模块将内容摘抄模块所读取到的内容和来源信息存储到本地
XML文件中;最终得到一个记录了该用户全部摘抄信息的XML文
件,方便用户检索、查看和更好地利用自己的摘抄信息。
1、鼠标右键内容摘抄功能菜单:鼠标右键内容摘抄功能菜单为
用户提供了执行内容摘抄功能的菜单项。当用户在网页或文档中用鼠
标选中的内容(包括文字片段、图片、表格、超链接)后,点击鼠标
右键,在弹出的右键菜单中找到“内容摘抄”菜单项。通过点击该菜单
项,就可以执行本发明中定义的内容摘抄方法。
进一步的,对于本例系统鼠标右键内容摘抄功能菜单的实现,针
对网页内容和Microsoft Office文档内容采用不同的实现方式。
(1)对于网页内容摘抄,右键功能项是通过设置Windows注册
表,为IE浏览器右键菜单添加一个跟内容摘抄相关的菜单项,使用
户可以对选中内容执行摘抄动作。该菜单项是通过访问Windows注
册表进行添加。
(2)对于Microsoft Office文档内容摘抄,右键功能项是通过vba
脚本语言,在Microsoft Office文档中增加右键菜单项。该菜单项与
(1)中所述的右键菜单项实现相同效果。
2、内容摘抄模块:针对不同的内容载体类型,内容摘抄模块分
为网页内容摘抄子模块、Microsoft Office文档内容摘抄子模块二个部
分。针对不同的内容载体类型,提供了相应的内容摘抄功能。
(1)网页内容摘抄子模块,具体实现方式包括:
(i)设置一个用户本地的HTML文件,此文件定义了从网页上
接收摘抄请求的javascript方法。该javascript方法能够读取到正在浏
览网页中的相关内容,包括用户在页面中用鼠标选中的内容(包括文
字片段、图片、表格、超链接)、该网页标题以及该网页URL地址,
同时通过该javascript方法还可以取得当前系统时间信息。
(ii)用户通过1中所描述的鼠标右键内容摘抄功能菜单,可以
执行(i)中所述的javascript方法,将需要的内容进行读取,然后通
过该方法将这些内容提交给内容存储模块。
(2)对Microsoft Office文档内容摘抄子模块,具体实现方式包
括:
(i)定义vba脚本语言方法,该vba脚本语言方法能够取得
Microsoft Office文档中用鼠标选中的内容(包括文字片段、图片、表
格、超链接),同时读取该内容所在文档的标题和文件路径,并将取
得的内容发送到下述(ii)中定义的HTML文件。
(ii)设置一个用户本地的HTML文件,此文件定义了接收(i)
中vba脚本所发送内容的javascript方法,同时通过该javascript方法
还可以取得当前系统时间信息。
(iii)用户通过1中所描述的鼠标右键内容摘抄功能菜单,可以
执行(i)中所述的vba脚本语言方法,将需要的内容进行读取。读
取完毕后,将触发(ii)中所述的javascript方法,接收vba脚本所发
送内容,并读取当前系统时间信息。最后通过该javascript方法将这
些内容提交给内容存储模块。
3、内容存储模块:本模块接收内容摘抄模块发送过来的全部内
容信息,并将这些信息根据固定的格式写入一个XML文件中,写入
完毕后,对该文件进行保存。该XML文件用于保存该用户所有的摘
抄信息。
内容存储模块包括两个子模块:XML文件创建子模块和XML
文件写入子模块。
(1)XML文件创建子模块:用户在第一次使用内容摘抄功能时,
本子模块为会用户创建一个新的XML文件。该XML文件的文件名
和存储路径由系统进行预定义。
(2)XML文件写入子模块:XML文件创建完成后或该XML
已经存在的情况下,XML文件写入子模块将接收到的全部内容信息
以固定格式写入该XML文件中。写入完毕后,保存该XML文件。
本方法使如下格式写入XML文件。
上述<Digest></Digest>之间表示一篇摘抄内容。其中,
(i)id表示该摘抄内容的辨识代码,通过对执行摘抄动作时读
取的系统时间进行编码自动生成一串数字。因此,该id还可以记录
摘抄时间。用户在查看该摘抄内容时,通过id可以转换成时间格式
进行显示。
(ii)<url></url>之间写入该摘抄内容所在网页的URL地址或者
该摘抄内容所在文档的文件路径和文件名称;
(iii)<title></title>之间写入该摘抄内容所在网页标题和网站名
称或者该摘抄内容所在文档标题;
(iv)<content></content>之间写入具体摘抄内容。
更多地摘抄内容则重复<Digest></Digest>格式要求,按id号在
XML文件中顺序往下写。
4、保存用户摘抄内容的XML文件:通过3中所描述的内容存
储模块,我们得到了一个记录了该用户全部摘抄内容的XML文件。
这个文件的文件名和保存路径是由系统进行预定义。用户可以使用这
个XML文件对摘抄内容进行查看、管理、检索、共享和更多的利用
服务。
本发明同时提供了一种基于用户计算机终端的桌面信息采集方
法,如图2所示,所述方法包括下列步骤:
1)、用户在计算机终端进行网页或文档阅读时,发现其感兴趣的
内容信息(包括文字片段、图片、表格、超链接)后,用鼠标选中该
内容;
2)、用户对选中的内容执行内容摘抄操作;
3)、用户执行内容摘抄操作后,触发内容摘抄功能,该功能分为
两部分:
(1)执行对用户选中内容的读取,该功能将用户从网页、文档
中选中的文字片段、图片、表格、超链接等信息进行读取;
(2)执行对内容来源信息的读取,该功能将用户选中的内容来
源信息进行读取;
4)、接收内容信息,将已读取完毕的用户摘抄内容信息,包括内
容来源信息发送给内容存储模块,内容存储模块接收这些内容信息,
触发内容存储功能;
触发内容存储功能时,需要对是否已存在保存该用户摘抄内容的
XML文件进行判断,如果不存在这个XML文件,则触发XML文件
创建功能,即根据预定义的文件名和文件路径创建一个新的XML文
件;
5)、执行XML文件写入,将接收到内容信息按照固定格式写入
指定文件名和文件路径的XML文件中,该XML文件用于保存该用
户所有的摘抄内容信息;
6)、保存XML文件,内容信息写入XML文件完毕后,执行保
存操作,完成该XML文件的保存,用户可以通过支持XML标准的
程序来读取这个XML文件并进行内容查看、管理和检索等操作。
内容来源信息的读取步骤,
(i)针对网页内容,内容来源信息包括:内容来源的网站、内
容所在的页面标题、URL地址以及内容摘抄时间。
(ii)针对文档内容,内容来源信息包括:内容来源的文件名、
存储路径标题、所在文档页码数以及内容摘抄时间。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明
所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人
员来说,在上述说明的基础上还可以做出其它不同形式的变化或变
动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的
显而易见的变化或变动仍处于本发明的保护范围之中。