基于宽度优先搜索策略更新图书信息的方法.pdf

上传人:b*** 文档编号:1574590 上传时间:2018-06-25 格式:PDF 页数:6 大小:357.71KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310538980.6

申请日:

2013.10.31

公开号:

CN104598496A

公开日:

2015.05.06

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20150506|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

大连易维立方技术有限公司

发明人:

张宇

地址:

116000辽宁省大连市沙河口区兴工南五街1号1-25-5-2

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明公开了一种基于宽度优先搜索策略更新图书信息的方法,包括如下步骤:图书信息收索服务器通过有线或无线的方式连接到各图书网站上;图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。

权利要求书

权利要求书
1.  一种基于宽度优先搜索策略更新图书信息的方法,其特征在于包括如下 步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收 索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图 书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收 索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源 服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据 的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源 文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根 据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元 数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相 似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提 取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长 句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决 策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚 类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔 除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。

2.  根据权利要求1所述的一种基于宽度优先搜索策略更新图书信息的方法, 其特征在于步骤3)中:
所述图书下载方式为通过宽度优先搜索策略边搜索边下载。

说明书

说明书基于宽度优先搜索策略更新图书信息的方法
技术领域
本发明涉及一种基于宽度优先搜索策略更新图书信息的方法。
背景技术
随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文 字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、 图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。 代表人们所阅读的数字化出版物,从而区别于以纸张为载体的传统出版物,通 过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、 复制、传输。因其具有方便性,可搜寻内容,改变字体大小及字型,还可随身 携带。容量大,随时可网络下载,不受地域限制,省去大量时间。因而被人们 广泛接受。目前很多电子书都是章节性更新,因为版权意识加强,很多书籍都 只在一些特定网站上进行更新;及时人为手动更新,对于网站上下载下来的图 书信息进行图书内容提取也是非常繁琐的。这就为手机推送图书服务带来了很 大困难。
宽度优先搜索策略,在宽度优先搜索中,先搜索完一个Web页面中所有的 超级链接,然后再继续搜索下一层,直到底层为止。例如,一个HTML文件中有 三个超链,选择其中之一并处理相应的HTML文件,然后不再选择第二个HTML文 件中的任何超链,而是返回并选择第二个超链,处理相应的HTML文件,再返回, 选择第三个超链并处理相应的HTML文件。一旦一层上的所有超链都己被选择过, 就可以开始在刚才处理过的HIML文件中搜索其余的超链。这就保证了对浅层的 首先处理。当遇到一个无穷尽的深层分支时,不会导致陷进WWW中的深层文档 中出现出不来的情况发生。宽度优先搜索策略还有一个优点,即它能在两个HTML 文件之间找到最短路径。宽度优先搜索策略通常是实现爬虫的最佳策略,因为它 容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者 深层嵌套的HTML文件集,用宽度优先搜索策略则需要花费比较长的时间才能到 达深层的HTML文件。综合考虑以上几种策略和国内信息导航系统搜索信息的特 点,国内一般采用以宽度优先搜索策略为主、线性搜索策略为辅的搜索策略。 对于某些不被引用的或很少被引用的HTML文件,宽度优先搜索策略可能会遗漏 这些孤立的信息源,可以用线性搜索策略作为它的补充。
web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构 性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较 为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题, 不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处 理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结 构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为 多样性的数据建立一种统一标准的元数据。本为为web数据中的文本数据建立 了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化。Web 文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源 文件直接得到。为解决上述问题提供了技术支持。
发明内容
本发明针对以上问题的提出,而研制基于宽度优先搜索策略更新图书信息 的方法。本发明采用的技术方案如下:
一种基于宽度优先搜索策略更新图书信息的方法,其特征在于包括如下步 骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收 索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图 书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收 索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源 服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据 的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源 文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根 据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元 数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相 似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提 取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长 句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决 策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚 类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔 除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
步骤3)中:所述图书下载方式为通过宽度优先搜索策略边搜索边下载。
由于采用了上述技术方案,本发明提供的方法具有:使用方便、处理速度、 技术实现容易等特点。另外,该方法基于计算机系统的实现,只需将该方法编 译成相应的程序即可实现对现有计算机的升级,因此其成本非常低廉适于广泛 推广。
附图说明
图1为本发明所述系统的结构框图;
图2为本发明的实现流程图。
具体实施方式
如图1和图2所示一种基于宽度优先搜索策略更新图书信息的方法包括如 下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收 索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图 书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收 索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源 服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据 的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源 文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根 据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元 数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相 似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提 取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长 句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决 策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚 类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔 除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
步骤3)中:所述图书下载方式为通过宽度优先搜索策略边搜索边下载。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本 发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护 范围之内。

基于宽度优先搜索策略更新图书信息的方法.pdf_第1页
第1页 / 共6页
基于宽度优先搜索策略更新图书信息的方法.pdf_第2页
第2页 / 共6页
基于宽度优先搜索策略更新图书信息的方法.pdf_第3页
第3页 / 共6页
点击查看更多>>
资源描述

《基于宽度优先搜索策略更新图书信息的方法.pdf》由会员分享,可在线阅读,更多相关《基于宽度优先搜索策略更新图书信息的方法.pdf(6页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于宽度优先搜索策略更新图书信息的方法,包括如下步骤:图书信息收索服务器通过有线或无线的方式连接到各图书网站上;图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1