基于视频网站的主题类视频自动采集方法.pdf

上传人:000****221 文档编号:4262005 上传时间:2018-09-12 格式:PDF 页数:10 大小:1.68MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210332522.2

申请日:

2012.09.10

公开号:

CN102880674A

公开日:

2013.01.16

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20130116|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120910|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

杭州电子科技大学

发明人:

姜明; 陈婵; 沈幸峰; 王兴起; 张旻; 汤景凡; 胡宏宇

地址:

310018 浙江省杭州市下沙高教园区2号大街

优先权:

专利代理机构:

杭州求是专利事务所有限公司 33200

代理人:

杜军

PDF下载: PDF下载
内容摘要

本发明涉及一种基于视频网站的主题类视频自动采集方法。现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。本发明首先提取视频网站主题框架。然后选定主题及采集相应主题的视频播放URL。其次视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列。最后根据视频下载URL下载视频并存储。由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户需要下载的类别,提高下载的准确性。

权利要求书

权利要求书基于视频网站的主题类视频自动采集方法,通过对视频网站主题类的选取,并进行准确下载该主题视频,其特征在于包括如下步骤:
(1)提取视频网站主题框架;
(2)选定主题及采集相应主题的视频播放URL;
(3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列;
(4)根据视频下载URL下载视频并存储。
根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:提取视频网站主题框架,包括如下步骤:
A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level这5个字段,其中Id为主键;
B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree;
C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D);
D)根据WebsiteTree表中的信息构建视频网站主题框架。
根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:选定主题及采集相应主题的视频播放URL,包括如下步骤:
E)用户从主题框架中选择主题;
F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。
根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤:
G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息;
H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http://www.flvcd.com/parse.php?kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址;
I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃;
J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。
根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:根据视频下载URL下载视频并存储,包括如下步骤:
K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键;
L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令;
M)线程接受视频下载URL,截取下载URL字符串中最后一个’/’之后的字符串作为文件名,并新建下载,将视频存储于磁盘;
N)将视频的详细信息存储于数据库表VideoInf表中;
O)当视频下载完成,线程释放,等待下一个视频下载的命令。

说明书

说明书基于视频网站的主题类视频自动采集方法
技术领域
本发明涉及一种主题类视频自动采集方法,具体是一种基于视频网站的主题类视频自动采集方法。
背景技术
现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。随着多媒体技术的飞速发展、网络通信能力的极大提高和计算机处理速度的不断增长,Internet上的信息除了文本之外,还有大量的图像、视频、音频、动画和图形等,对这些媒体类型的信息进行快速准确的检索已经成为人们的迫切需要。尤其是在Blog、TAG、SNS、RSS、Wiki等社会软件应用为代表的Web2.0出现以后,网络视频大量出现,各大新闻网站纷纷建立在线新闻频道,如CNTV;大量视频网站的出现,如优酷、酷6等。
每天大量的视频被网友、新闻媒体上传,用户只能从视频网站中去搜索查看,但是如果想要收藏某一类的视频,那么如果只是人为的去操作下载,就会有很大的阻碍。
发明内容
本发明针对现有技术的不足,提供一种基于文本分析的面向视频网站的互联网视频搜索方法。
本发明方法具体包括以下步骤:
(1)提取视频网站主题框架。
(2)选定主题及采集相应主题的视频播放URL。
(3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列。
(4)根据视频下载URL下载视频并存储。
所述的提取视频网站主题框架,包括如下步骤:
A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level这5个字段,其中Id为主键。
B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree。
C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D)。
D)根据WebsiteTree表中的信息构建视频网站主题框架。
所述的选定主题及采集相应主题的视频播放URL,包括如下步骤:
E)用户从主题框架中选择主题。
F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。
所述的视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤:
G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息。
H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http://www.flvcd.com/parse.php?kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址。
I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃。
J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。
所述的根据视频下载URL下载视频并存储,包括如下步骤:
K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键。
L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令。
M)线程接受视频下载URL,截取下载URL字符串中最后一个’/’之后的字符串作为文件名,并新建下载,将视频存储于磁盘。
N)将视频的详细信息存储于数据库表VideoInf表中。
O)当视频下载完成,线程释放,等待下一个视频下载的命令。
本发明的有益效果:
第一,由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户需要下载的类别,提高下载的准确性。
第二,由于本发明设计了多线程分析视频播放URL转化为视频下载URL并将视频进行下载,所以能更容易解决多个视频同时下载的问题。
第三,由于本发明设计了获取视频下载URL后自动新建下载,不需要调用其他下载器进行人为的干预,所以能更容易解决自动下载视频的技术问题。
附图说明
图1为视频采集流程图;
图2为多线程视频下载流程图;
图3为视频信息数据库记录图;
图4为优酷网站中一部分主题框架图。
具体实施方式
以下结合附图对本发明作进一步说明。
下面结合附图,对本发明实现用户按所选主题下载视频所采取的技术方案做进一步说明:
1、在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level这5个字段,用于保存视频网站的主题框架。其中Id(int)代表主题的编号并且是该表的主键,Url(varchar)代表主题的Url地址,WebsiteName(varchar)代表主题名,ParentId(int)代表该主题上一级主题的编号,Level(tinyint)代表该主题是哪一级主题。在数据库中建立一张新表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount、FileSize这10个字段,用于保存视频的详细信息。其中Id(int)代表下载视频的编号并且是该表的主键,Url(varchar)代表视频的Url地址,Title(varchar)代表视频的标题,Tag(varchar)代表视频的标签,Comments(varchar)代表视频的评论、UploadUser(varchar)代表视频的上传用户、UploadTime(datetime)代表视频的上传时间、Clickrate(int)代表视频的点击量、CommentCount(int)代表视频的评论数、FileSize(int)代表视频的文件大小。
2、下面以优酷为例,获取优酷视频网站的一部分主题框架(如表1和图4所示)。根据首页URL页面源码,通过正则表达式可以获取导航栏信息,并将导航栏中的主题名、对应的URL,以及ParentId设为1,Level设为1,存储到WebsiteTree表中。再将这些Level为1的主题Url的页面重新分析,获取他们相应的子导航栏信息,并将Level进行加1操作,分析页面的URL的Id作为ParentId,存储到WebsiteTree表中。分析每一个主题URL页面,直到该URL页面是最后一级主题结束。
表1优酷网站一部分主题信息表
1http://www.youku.com/优酷002http://news.youku.com/资讯113http://paike.youku.com/拍客114http://jilupian.youku.com/纪录片115http://sports.youku.com/体育116http://auto.youku.com/汽车117http://tech.youku.com/科技118http://finance.youku.com/财经119http://news.youku.com/focus/home今日聚焦2210http://news.youku.com/hotnews/all绝对热点2211http://news.youku.com/paike/index我在现场2212http://news.youku.com/society/society冷暖人间2213http://news.youku.com/jiankong/index监控纪实2214http://news.youku.com/world/all缤纷世界2215http://news.youku.com/shenghuo/index生活话题2216http://news.youku.com/yulu/all语录2217http://news.youku.com/zt/index深度2218http://news.youku.com/zt/top热榜2219http://paike.youku.com/xianchang/index我在现场3220http://paike.youku.com/miankong/index牛人擂台3221http://paike.youku.com/jingcai/index生活秀场3222http://paike.youku.com/jiepai/index时尚街拍3223http://paike.youku.com/yule/index娱乐视线3224http://paike.youku.com/jiangshu/index视频评论3225http://paike.youku.com/zhengji/index主题征集3226http://jilupian.youku.com/index/junshi军事4227http://jilupian.youku.com/index/mituanzhuizong探秘4228http://jilupian.youku.com/index/ziran自然4229http://jilupian.youku.com/index/shenghuoxiezhen社会4430http://jilupian.youku.com/index/renwen人文4231http://jilupian.youku.com/index/lishi历史4232http://jilupian.youku.com/BBC/indexBBC4233http://jilupian.youku.com/nationalgeographic/寰宇地理4234http://jilupian.youku.com/historychannel/新视界4235http://jilupian.youku.com/top/全部排行4236http://jilupian.youku.com/search/全部纪录片4237http://sports.youku.com/london2012伦敦奥运5238http://sports.youku.com/jiaodian/jiaodian体坛焦点5239http://sports.youku.com/index/meili魅力运动5240http://sports.youku.com/index/jiaoxue体育教学5241http://sports.youku.com/index/chupin体育出品5242http://sports.youku.com/index/lanqiuzuqiu篮球·足球5243http://sports.youku.com/index/funny奇趣·性感5244http://sports.youku.com/index/niuren体育牛人5245http://sports.youku.com/olympics国际奥委会视频官网5246http://sports.youku.com/together一起奥林匹克5247http://sports.youku.com/euro2012欧洲杯5248http://auto.youku.com/newcar新车上市6249http://auto.youku.com/news业界动态6250http://auto.youku.com/racing赛事风云6251http://auto.youku.com/test试驾评测6252http://auto.youku.com/showcar香车美女6253http://auto.youku.com/ad创意广告6254http://auto.youku.com/use用车常识6255http://auto.youku.com/mod玩车改装6256http://auto.youku.com/traffic交通警示6257http://tech.youku.com/daren达人原创7258http://tech.youku.com/tansuo科学新发现7259http://tech.youku.com/smartphone智能手机7260http://tech.youku.com/internet互联网7261http://tech.youku.com/itIT业界7262http://tech.youku.com/ydhl移动互联7263http://tech.youku.com/pads平板电脑7264http://tech.youku.com/notebook笔记本7265http://tech.youku.com/digital相机7266http://tech.youku.com/pcPC硬件7267http://tech.youku.com/jd数字家电7268http://tech.youku.com/game游戏机7269http://finance.youku.com/jujiaotoutiao/index聚焦头条8270http://finance.youku.com/caijingkuaixun/index财经快讯8271http://finance.youku.com/zhengquanfenxi/index证券要闻8272http://finance.youku.com/chuangye/index创业非常道 8273http://finance.youku.com/zhoukantuijian/index群英会8274http://finance.youku.com/jiemujijin/index大周刊8275http://finance.youku.com/zhuanti/index财经专题8276http://finance.youku.com/zbj财经直播间8277http://sports.youku.com/index/lanqiu篮球42378http://sports.youku.com/index/zuqiu足球443
3、根据图1所示,用户提供视频网站某个主题的种子URL,视频爬虫采集深度K,抓取网页源代码分析页面,按照正则表达式提取URL(普通页面URL、视频播放页面URL)存储到URL库。
4、从URL库中提取URL,若是视频播放URL则将其插入视频播放URL队列,若是普通页面URL则将deep+1,重复步骤3操作。
5、根据图2所示,线程从视频播放URL队列中获取视频播放URL,通过FLVCD.COM网站转化为视频下载URL,获取视频下载URL的正则表达式为<a href=\"(http://\\S*/flv/\\S*)\",利用下载URL的最后‘/’后面的字符串作为文件名,新建下载。
6、对于步骤3中建立的URL库而创建了过滤功能,对于重复的URL不执行操作,直接将其丢弃。将视频详细信息记录在数据库表VideoInf中(如图3所示),方便用户查看下载视频具体信息。

基于视频网站的主题类视频自动采集方法.pdf_第1页
第1页 / 共10页
基于视频网站的主题类视频自动采集方法.pdf_第2页
第2页 / 共10页
基于视频网站的主题类视频自动采集方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《基于视频网站的主题类视频自动采集方法.pdf》由会员分享,可在线阅读,更多相关《基于视频网站的主题类视频自动采集方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102880674 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 6 7 4 A *CN102880674A* (21)申请号 201210332522.2 (22)申请日 2012.09.10 G06F 17/30(2006.01) (71)申请人杭州电子科技大学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人姜明 陈婵 沈幸峰 王兴起 张旻 汤景凡 胡宏宇 (74)专利代理机构杭州求是专利事务所有限公 司 33200 代理人杜军 (54) 发明名称 基于视频网站的主题类视频自动采集方法 (57) 摘要 本发明。

2、涉及一种基于视频网站的主题类视频 自动采集方法。现行的搜索引擎都是基于用户输 入的关键字进行信息查询的文本搜索引擎。本发 明首先提取视频网站主题框架。然后选定主题及 采集相应主题的视频播放URL。其次视频播放URL 转化为视频下载URL,普通页面URL分析获取URL, 将其放入队列。最后根据视频下载URL下载视频 并存储。由于本发明设计了视频网站的主题类提 取及框架显示,所以能更容易解决用户需要下载 的类别,提高下载的准确性。 (51)Int.Cl. 权利要求书1页 说明书6页 附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 6 页 附图 2 。

3、页 1/1页 2 1. 基于视频网站的主题类视频自动采集方法,通过对视频网站主题类的选取,并进行 准确下载该主题视频,其特征在于包括如下步骤: (1)提取视频网站主题框架; (2)选定主题及采集相应主题的视频播放URL; (3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列; (4)根据视频下载URL下载视频并存储。 2.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:提取 视频网站主题框架,包括如下步骤: A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level 这5个字段,其中。

4、Id为主键; B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该 主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree; C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没 有,则执行步骤D); D)根据WebsiteTree表中的信息构建视频网站主题框架。 3.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:选定 主题及采集相应主题的视频播放URL,包括如下步骤: E)用户从主题框架中选择主题; F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入 URL队列。

5、;队列的特点是先进先出,对于先放入队列的URL先进行分析。 4.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:视频 播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤: G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息; H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http:/www. 代码中获取该播放URL的下载地址; I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取 过,则放入URL队列,否则将其丢弃; J)当H)中所获取的URL页面。

6、分析完成,线程自动释放,并再次从URL队列中获取一个 URL进行重复H)、I)操作,直到URL队列分析完成停止。 5.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:根据 视频下载URL下载视频并存储,包括如下步骤: K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、 UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键; L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令; M)线程接受视频下载URL,截取下载URL字符串中最。

7、后一个 /之后的字符串作为文 件名,并新建下载,将视频存储于磁盘; N)将视频的详细信息存储于数据库表VideoInf表中; O)当视频下载完成,线程释放,等待下一个视频下载的命令。 权 利 要 求 书CN 102880674 A 1/6页 3 基于视频网站的主题类视频自动采集方法 技术领域 0001 本发明涉及一种主题类视频自动采集方法,具体是一种基于视频网站的主题类视 频自动采集方法。 背景技术 0002 现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。 随着多媒体技术的飞速发展、网络通信能力的极大提高和计算机处理速度的不断增长, Internet上的信息除了文本之外,还。

8、有大量的图像、视频、音频、动画和图形等,对这些媒体 类型的信息进行快速准确的检索已经成为人们的迫切需要。尤其是在Blog、TAG、SNS、RSS、 Wiki等社会软件应用为代表的Web2.0出现以后,网络视频大量出现,各大新闻网站纷纷建 立在线新闻频道,如CNTV;大量视频网站的出现,如优酷、酷6等。 0003 每天大量的视频被网友、新闻媒体上传,用户只能从视频网站中去搜索查看,但是 如果想要收藏某一类的视频,那么如果只是人为的去操作下载,就会有很大的阻碍。 发明内容 0004 本发明针对现有技术的不足,提供一种基于文本分析的面向视频网站的互联网视 频搜索方法。 0005 本发明方法具体包括以。

9、下步骤: (1)提取视频网站主题框架。 0006 (2)选定主题及采集相应主题的视频播放URL。 0007 (3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队 列。 0008 (4)根据视频下载URL下载视频并存储。 0009 所述的提取视频网站主题框架,包括如下步骤: A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level 这5个字段,其中Id为主键。 0010 B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记 录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库。

10、表WebsiteTree。 0011 C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若 没有,则执行步骤D)。 0012 D)根据WebsiteTree表中的信息构建视频网站主题框架。 0013 所述的选定主题及采集相应主题的视频播放URL,包括如下步骤: E)用户从主题框架中选择主题。 0014 F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL, 放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。 0015 所述的视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入 说 明 书CN 10288。

11、0674 A 2/6页 4 队列,包括如下步骤: G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息。 0016 H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http:/ 该源代码中获取该播放URL的下载地址。 0017 I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提 取过,则放入URL队列,否则将其丢弃。 0018 J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取 一个URL进行重复H)、I)操作,直到URL队列分析完成停止。 0019 所述的根据视频下载URL下载视。

12、频并存储,包括如下步骤: K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、 UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键。 0020 L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令。 0021 M)线程接受视频下载URL,截取下载URL字符串中最后一个 /之后的字符串作 为文件名,并新建下载,将视频存储于磁盘。 0022 N)将视频的详细信息存储于数据库表VideoInf表中。 0023 O)当视频下载完成,线程释放,等待下一个视频下。

13、载的命令。 0024 本发明的有益效果: 第一,由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户 需要下载的类别,提高下载的准确性。 0025 第二,由于本发明设计了多线程分析视频播放URL转化为视频下载URL并将视频 进行下载,所以能更容易解决多个视频同时下载的问题。 0026 第三,由于本发明设计了获取视频下载URL后自动新建下载,不需要调用其他下 载器进行人为的干预,所以能更容易解决自动下载视频的技术问题。 附图说明 0027 图1为视频采集流程图; 图2为多线程视频下载流程图; 图3为视频信息数据库记录图; 图4为优酷网站中一部分主题框架图。 具体实施方式 0028。

14、 以下结合附图对本发明作进一步说明。 0029 下面结合附图,对本发明实现用户按所选主题下载视频所采取的技术方案做进一 步说明: 1、在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、 Level这5个字段,用于保存视频网站的主题框架。其中Id(int)代表主题的编号并且是 该表的主键,Url(varchar)代表主题的Url地址,WebsiteName(varchar)代表主题名, ParentId(int)代表该主题上一级主题的编号,Level(tinyint)代表该主题是哪一级主 说 明 书CN 102880674 A 3/6页 5 。

15、题。在数据库中建立一张新表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、 UploadTime、Clickrate、CommentCount、FileSize这10个字段,用于保存视频的详细信息。 其中Id(int)代表下载视频的编号并且是该表的主键,Url(varchar)代表视频的Url地址, Title(varchar)代表视频的标题,Tag(varchar)代表视频的标签,Comments(varchar)代 表视频的评论、UploadUser(varchar)代表视频的上传用户、UploadTime(datetime)代表 视频的上传。

16、时间、Clickrate(int)代表视频的点击量、CommentCount(int)代表视频的评 论数、FileSize(int)代表视频的文件大小。 0030 2、下面以优酷为例,获取优酷视频网站的一部分主题框架(如表1和图4所示)。根 据首页URL页面源码,通过正则表达式可以获取导航栏信息,并将导航栏中的主题名、对应 的URL,以及ParentId设为1,Level设为1,存储到WebsiteTree表中。再将这些Level为 1的主题Url的页面重新分析,获取他们相应的子导航栏信息,并将Level进行加1操作,分 析页面的URL的Id作为ParentId,存储到WebsiteTree表。

17、中。分析每一个主题URL页面, 直到该URL页面是最后一级主题结束。 0031 表1优酷网站一部分主题信息表 说 明 书CN 102880674 A 4/6页 6 1 h t t p : / / w w w . y o u k u . c o m / 优酷 0 0 2 h t t p : / / n e w s . y o u k u . c o m / 资讯 1 1 3 h t t p : / / p a i k e . y o u k u . c o m / 拍客 1 1 4 h t t p : / / j i l u p i a n . y o u k u . c o m / 纪录片 1。

18、 1 5 h t t p : / / s p o r t s . y o u k u . c o m / 体育 1 1 6 h t t p : / / a u t o . y o u k u . c o m / 汽车 1 1 7 h t t p : / / t e c h . y o u k u . c o m / 科技 1 1 8 h t t p : / / f i n a n c e . y o u k u . c o m / 财经 1 1 9 h t t p : / / n e w s . y o u k u . c o m / f o c u s / h o m e 今日聚焦 2 2 。

19、1 0 h t t p : / / n e w s . y o u k u . c o m / h o t n e w s / a l l 绝对热点 2 2 1 1 h t t p : / / n e w s . y o u k u . c o m / p a i k e / i n d e x 我在现场 2 2 1 2 h t t p : / / n e w s . y o u k u . c o m / s o c i e t y / s o c i e t y 冷暖人间 2 2 1 3 h t t p : / / n e w s . y o u k u . c o m / j i a n。

20、 k o n g / i n d e x 监控纪实 2 2 1 4 h t t p : / / n e w s . y o u k u . c o m / w o r l d / a l l 缤纷世界 2 2 1 5 h t t p : / / n e w s . y o u k u . c o m / s h e n g h u o / i n d e x 生活话题 2 2 1 6 h t t p : / / n e w s . y o u k u . c o m / y u l u / a l l 语录 2 2 1 7 h t t p : / / n e w s . y o u k u .。

21、 c o m / z t / i n d e x 深度 2 2 1 8 h t t p : / / n e w s . y o u k u . c o m / z t / t o p 热榜 2 2 1 9 h t t p : / / p a i k e . y o u k u . c o m / x i a n c h a n g / i n d e x 我在现场 3 2 2 0 h t t p : / / p a i k e . y o u k u . c o m / m i a n k o n g / i n d e x 牛人擂台 3 2 2 1 h t t p : / / p a i k。

22、 e . y o u k u . c o m / j i n g c a i / i n d e x 生活秀场 3 2 2 2 h t t p : / / p a i k e . y o u k u . c o m / j i e p a i / i n d e x 时尚街 拍 3 2 2 3 h t t p : / / p a i k e . y o u k u . c o m / y u l e / i n d e x 娱乐视线 3 2 2 4 h t t p : / / p a i k e . y o u k u . c o m / j i a n g s h u / i n d e x。

23、 视频评论 3 2 2 5 h t t p : / / p a i k e . y o u k u . c o m / z h e n g j i / i n d e x 主题征集 3 2 2 6 h t t p : / / j i l u p i a n . y o u k u . c o m / i n d e x / j u n s h i 军事 4 2 2 7 h t t p : / / j i l u p i a n . y o u k u . c o m / i n d e x / m i t u a n z h u i z o n g 探秘 4 2 2 8 h t t p : /。

24、 / j i l u p i a n . y o u k u . c o m / i n d e x / z i r a n 自然 4 2 2 9 h t t p : / / j i l u p i a n . y o u k u . c o m / i n d e x / s h e n g h u o x i e z h e n 社会 4 4 3 0 h t t p : / / j i l u p i a n . y o u k u . c o m / i n d e x / r e n w e n 人文 4 2 3 1 h t t p : / / j i l u p i a n . y 。

25、o u k u . c o m / i n d e x / l i s h i 历史 4 2 3 2 h t t p : / / j i l u p i a n . y o u k u . c o m / B B C / i n d e x B B C 4 2 3 3 h t t p : / / j i l u p i a n . y o u k u . c o m / n a t i o n a l g e o g r a p h i c / 寰宇地理 4 2 3 4 h t t p : / / j i l u p i a n . y o u k u . c o m / h i s t o 。

26、r y c h a n n e l / 新视界 4 2 3 5 h t t p : / / j i l u p i a n . y o u k u . c o m / t o p / 全部排行 4 2 3 6 h t t p : / / j i l u p i a n . y o u k u . c o m / s e a r c h / 全部纪录片 4 2 3 7 h t t p : / / s p o r t s . y o u k u . c o m / l o n d o n 2 0 1 2 伦敦奥运 5 2 3 8 h t t p : / / s p o r t s . y o u 。

27、k u . c o m / j i a o d i a n / j i a o d i a n 体坛焦点 5 2 3 9 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / m e i l i 魅力运动 5 2 4 0 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / j i a o x u e 体育教学 5 2 4 1 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / c h u p i。

28、 n 体育出品 5 2 4 2 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / l a n q i u z u q i u 篮球 足球 5 2 4 3 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / f u n n y 奇趣 性感 5 2 4 4 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / n i u r e n 体育牛人 5 2 4 5 h t t p : / / s p o。

29、 r t s . y o u k u . c o m / o l y m p i c s 国际奥委会视频官网 5 2 4 6 h t t p : / / s p o r t s . y o u k u . c o m / t o g e t h e r 一起奥林匹克 5 2 4 7 h t t p : / / s p o r t s . y o u k u . c o m / e u r o 2 0 1 2 欧洲杯 5 2 4 8 h t t p : / / a u t o . y o u k u . c o m / n e w c a r 新车上市 6 2 4 9 h t t p : / /。

30、 a u t o . y o u k u . c o m / n e w s 业界动态 6 2 5 0 h t t p : / / a u t o . y o u k u . c o m / r a c i n g 赛事风云 6 2 5 1 h t t p : / / a u t o . y o u k u . c o m / t e s t 试驾评测 6 2 说 明 书CN 102880674 A 5/6页 7 5 2 h t t p : / / a u t o . y o u k u . c o m / s h o w c a r 香车美女 6 2 5 3 h t t p : / / a 。

31、u t o . y o u k u . c o m / a d 创意广告 6 2 5 4 h t t p : / / a u t o . y o u k u . c o m / u s e 用车常识 6 2 5 5 h t t p : / / a u t o . y o u k u . c o m / m o d 玩车改装 6 2 5 6 h t t p : / / a u t o . y o u k u . c o m / t r a f f i c 交通警示 6 2 5 7 h t t p : / / t e c h . y o u k u . c o m / d a r e n 达人原创。

32、 7 2 5 8 h t t p : / / t e c h . y o u k u . c o m / t a n s u o 科学新发现 7 2 5 9 h t t p : / / t e c h . y o u k u . c o m / s m a r t p h o n e 智能手机 7 2 6 0 h t t p : / / t e c h . y o u k u . c o m / i n t e r n e t 互联网 7 2 6 1 h t t p : / / t e c h . y o u k u . c o m / i t I T 业界 7 2 6 2 h t t p :。

33、 / / t e c h . y o u k u . c o m / y d h l 移动互联 7 2 6 3 h t t p : / / t e c h . y o u k u . c o m / p a d s 平板电脑 7 2 6 4 h t t p : / / t e c h . y o u k u . c o m / n o t e b o o k 笔记本 7 2 6 5 h t t p : / / t e c h . y o u k u . c o m / d i g i t a l 相机 7 2 6 6 h t t p : / / t e c h . y o u k u . c 。

34、o m / p c P C 硬件 7 2 6 7 h t t p : / / t e c h . y o u k u . c o m / j d 数字家电 7 2 6 8 h t t p : / / t e c h . y o u k u . c o m / g a m e 游戏机 7 2 6 9 h t t p : / / f i n a n c e . y o u k u . c o m / j u j i a o t o u t i a o / i n d e x 聚焦头条 8 2 7 0 h t t p : / / f i n a n c e . y o u k u . c o m /。

35、 c a i j i n g k u a i x u n / i n d e x 财经快讯 8 2 7 1 h t t p : / / f i n a n c e . y o u k u . c o m / z h e n g q u a n f e n x i / i n d e x 证券要闻 8 2 7 2 h t t p : / / f i n a n c e . y o u k u . c o m / c h u a n g y e / i n d e x 创业非常道 8 2 7 3 h t t p : / / f i n a n c e . y o u k u . c o m / z。

36、 h o u k a n t u i j i a n / i n d e x 群英会 8 2 7 4 h t t p : / / f i n a n c e . y o u k u . c o m / j i e m u j i j i n / i n d e x 大周刊 8 2 7 5 h t t p : / / f i n a n c e . y o u k u . c o m / z h u a n t i / i n d e x 财经专题 8 2 7 6 h t t p : / / f i n a n c e . y o u k u . c o m / z b j 财经直播间 8 2 。

37、7 7 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / l a n q i u 篮球 4 2 3 7 8 h t t p : / / s p o r t s . y o u k u . c o m / i n d e x / z u q i u 足球 4 4 3 3、根据图1所示,用户提供视频网站某个主题的种子URL,视频爬虫采集深度K,抓取 网页源代码分析页面,按照正则表达式提取URL(普通页面URL、视频播放页面URL)存储到 URL库。 0032 4、从URL库中提取URL,若是视频播放URL则将其插入视频播放URL。

38、队列,若是普 通页面URL则将deep+1,重复步骤3操作。 0033 5、根据图2所示,线程从视频播放URL队列中获取视频播放URL,通过FLVCD.COM 说 明 书CN 102880674 A 6/6页 8 网站转化为视频下载URL,获取视频下载URL的正则表达式为a href=“(http:/S*/ flv/S*)“,利用下载URL的最后/后面的字符串作为文件名,新建下载。 0034 6、对于步骤3中建立的URL库而创建了过滤功能,对于重复的URL不执行操作,直 接将其丢弃。将视频详细信息记录在数据库表VideoInf中(如图3所示),方便用户查看 下载视频具体信息。 说 明 书CN 102880674 A 1/2页 9 图1 图2 说 明 书 附 图CN 102880674 A 2/2页 10 图3 图4 说 明 书 附 图CN 102880674 A 10 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1