微博首页数据自动推荐方法.pdf

上传人:a2 文档编号:1639112 上传时间:2018-06-30 格式:PDF 页数:8 大小:415.78KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510059763.8

申请日:

2015.02.04

公开号:

CN104657444A

公开日:

2015.05.27

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06F 17/30登记生效日:20170427变更事项:申请人变更前权利人:北京中搜网络技术股份有限公司变更后权利人:北京中搜云商网络技术有限公司变更事项:地址变更前权利人:100191 北京市海淀区学院路51号首亨科技大厦0902室变更后权利人:100086 北京市海淀区北三环西路43号院2号楼5层08-09号|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150204|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京中搜网络技术股份有限公司

发明人:

尹柳

地址:

100191北京市海淀区学院路51号首亨科技大厦0902室

优先权:

专利代理机构:

北京安博达知识产权代理有限公司11271

代理人:

徐国文

PDF下载: PDF下载
内容摘要

本发明涉及一种微博首页数据自动推荐方法,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。本发明自动向首页推荐最新最热的博文图片和概要,来满足用户需求。采用自动统计筛选的方法填充首页数据,提高了数据的新鲜度、广度和更新周期,节省了人力和成本。经人工检测,图片筛选裁剪的质量达到99.9%,微博概要的推荐的准确率达到98%以上。

权利要求书

权利要求书
1.  一种微博首页数据自动推荐方法,其特征在于,所述方法包括
(1)从海量微博中筛选出微博榜;
(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;
(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。

2.  如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(1)包括根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集;依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。

3.  如权利要求2所述的一种微博首页数据自动推荐方法,其特征在于,每篇微博包括一个节点存储,其节点内容包括博文、图片、博文发布时间和博文转发数。

4.  如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(2)包括从微博榜中依次循环,取出节点中的博文,提取博文的主题句。

5.  如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(2)包括
(2.1)对博文进行预处理;
(2.2)切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;
(2.3)计算句子长度,记为len,len>wordi,则对s截句;wordi为主题i的长度;
(2.4)判断的主题句是否有意义;
(2.5)选取下一个节点,重复步骤(2.1)-(2.4);
(2.6)结束。

6.  如权利要求5所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(2.3)包括根据标点符号的断句进行截取,标点符号的优先等级为:
(a)“。”
(b)“!”、“?”
(c)“;”
(d)“:”
(e)“,”
保证成对出现的符号的完整性,出现半边符号,则截去。

7.  如权利要求5所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤 (2.4)包括所述判断的主题句是否有意义,采取的方法为字数判断、中英文判断和语气词判断,无意义,则丢弃。

8.  如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(3)包括根据步骤(2)得到的数据集,取出节点中的图片,放入自动筛选器,符合要求,则按照模板中的尺寸进行自动裁剪,否则取下一张图片继续筛选。

9.  如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(3)包括
(3.1)计算图片的尺寸,记为size;
(3.2)判断符合模板图片i的数量是否已经达到最大数量maxNumi,没有达到,进行步骤(3.3),达到,遍历下一个模板图片,循环步骤(3.2);若所有模板图片的最大数量都已满足,则跳到步骤(3.6);
(3.3)计算size与模板图片i的尺寸的匹配度,记为d;
(3.4)判断匹配度d是否符合要求;当T1<d<T2,则进行自动裁剪,对符合模板图片i的数量加1,跳到步骤(3.6);否则不符合要求,重复步骤(3.2)和(3.3),直到与模板中的所有种类的图片都比较完毕;不符合要求,则继续步骤(3.5),其中,T1、T2为阈值;
(3.5)取下一张图片,进行步骤(3.1)到(3.4)。
(3.6)结束。

说明书

说明书微博首页数据自动推荐方法
技术领域
本发明涉及一种推荐方法,具体讲涉及一种微博首页数据自动推荐方法。
背景技术
微博(Microblog)是近年来新兴的一种网络服务,它是一个基于用户关系的信息分享、传播以及获取平台。用户可以通过网络、手机以及各种智能联网的客户端发送文字,并实现即时分享。微博具有使用简单便捷、支持开放多平台接入方式、消息更新传播速度快等特点,短短5年内吸引了全球上亿用户,截止2011年上半年,中国的微博用户已经达到1.95亿。微博比传统的社交网络具有更强的信息传播能力和成员组织能力,这一独特优势使其迅速成为当前主要社会媒体之一,作为一种非常重要的消息来源和传播途径,在越来越多的社会事件中起到关键作用。
各式各样的整合微博内容的垂直服务如雨后春笋般冒起来。首页的好坏取决于首页数据的质量。一个好的首页,可以提升整个服务的品质,展示整个微博直垂服务的内容取向,引导、激发用户兴趣,提高网页点击率,因此一个好的首页必不可少。目前的首页数据推荐方法,主要依靠人工推荐,通过人工阅读来发现最新最热点的数据,手工挑选或制作符合首页设计的图片和文字。
人工推荐的方法,不足之处就是成本高,时效性差,更新速度慢,内容范畴窄。通过人工发现最新最热数据,投入人工的数量、阅读的广度和速度,决定了发现的速度和质量,因此要最新、更好、缩短更新周期的首页数据,就要投入大量的人力,这便增加了成本。
发明内容
针对现有技术的不足,本发明提出一种自动推荐微博首页数据的方法。根据微博特点以及用户需求,分析统计数据,自动轮番推荐给首页不同尺寸不同频道的图片和微博概要。节省人力和维护成本。
本发明的目的是采用下述技术方案实现的:
一种微博首页数据自动推荐方法,其改进之处在于,所述方法包括
(1)从海量微博中筛选出微博榜;
(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;
(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。
优选的,所述步骤(1)包括根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集;依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。
进一步地,每篇微博包括一个节点存储,其节点内容包括博文、图片、博文发布时间和博文转发数。
优选的,所述步骤(2)包括从微博榜中依次循环,取出节点中的博文,提取博文的主题句。
优选的,所述步骤(2)包括
(2.1)对博文进行预处理;
(2.2)切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;
(2.3)计算句子长度,记为len,len>wordi,则对s截句;wordi为主题i的长度;
(2.4)判断的主题句是否有意义;
(2.5)选取下一个节点,重复步骤(2.1)-(2.4);
(2.6)结束。
进一步地,所述步骤(2.3)包括根据标点符号的断句进行截取,标点符号的优先等级为:
(a)“。”
(b)“!”、“?”
(c)“;”
(d)“:”
(e)“,”
保证成对出现的符号的完整性,出现半边符号,则截去。
进一步地,所述步骤(2.4)包括所述判断的主题句是否有意义,采取的方法为字数判断、中英文判断和语气词判断,无意义,则丢弃。
优选的,所述步骤(3)包括根据步骤(2)得到的数据集,取出节点中的图片,放入自动筛选器,符合要求,则按照模板中的尺寸进行自动裁剪,否则取下一张图片继续筛选。
优选的,所述步骤(3)包括
(3.1)计算图片的尺寸,记为size;
(3.2)判断符合模板图片i的数量是否已经达到最大数量maxNumi,没有达到,进行步骤(3.3),达到,遍历下一个模板图片,循环步骤(3.2);若所有模板图片的最大数量都已满足,则跳到步骤(3.6);
(3.3)计算size与模板图片i的尺寸的匹配度,记为d;
(3.4)判断匹配度d是否符合要求;当T1<d<T2,则进行自动裁剪,对符合模板图片i的数量加1,跳到步骤(3.6);否则不符合要求,重复步骤(3.2)和(3.3),直到与模板中的所有种类的图片都比较完毕;不符合要求,则继续步骤(3.5),其中,T1、T2为阈值;
(3.5)取下一张图片,进行步骤(3.1)到(3.4)。
(3.6)结束。
与现有技术比,本发明的有益效果为:
本发明自动向首页推荐最新最热的博文图片和概要,来满足用户需求。采用自动统计筛选的方法填充首页数据,提高了数据的新鲜度、广度和更新周期,节省了人力和成本。经人工检测,图片筛选裁剪的质量达到99.9%,微博概要的推荐的准确率达到98%以上。具体体现在以下几点
1、设计几种不同的尺寸,以适应各式各样长宽不一致的图片规格;
2、灵活配置数据量颗粒和外径的,提高了每个频道都有图片和概要推荐的概率。
3、综合多种策略提取博文概要,配合图片,自动推荐给首页。
4、设计图片自动筛选器,压缩裁剪出重点突出、图像清晰的高质量图片;
附图说明
图1为本发明提供的一种微博首页数据自动推荐方法流程图。
图2为本发明提供的本发明单条数据操作流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。(发明内容尽量多补充详细些,技术手段,技术方案,流程,达到公开充分)
本发明的结构图如图1所示,主要分三大模块。第一个模块,从海量微博中筛选出前几名,得到最新最热的微博榜(TopN);第二个模块,提取微博主题句,根据图片大小提取相应长度的博文主题句(因为主题句是镶嵌在图片里显示,所以图片的大小决定了主题句的长短);第三个模块,图片自动筛选器,选出与目标图片尺寸最接近的图片进行自动裁剪。单条数据操作流程图如图2所示。实施步骤如下:
配置模板:
zdpCfg---下载器初始化文件的路径
Haarcascades---图片自动裁剪类初始化文件路径
IntervalSec---系统轮番推荐间隔时间
DisRptH---不重复数据的时间窗
urlbak---url的索引文件
tweetbak---博文的索引文件
DBLoop---数据量的外径
DBCount---数据量的颗粒度
OutPath---生成首页静态页的存放路径
PicType---图片种类个数
Widthi---某种图片i的宽度(i表示某类图片编号,从1开始,依次累加,最大值为图片种类个数,下同)
Heighti---图片i的高度
wordi---主题i的长度
maxNumi---图片i的最大个数
模块一:
计算最新最热的微博榜。根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集。每篇微博由一个节点存储,节点内容包括博文、图片、博文发布时间、博文转发数等。依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。
模块二:
从微博榜中依次循环,取出节点中的博文,提取博文的主题句。根据重要性选主题句。具体步骤如下:
1、对博文进行预处理,处理的具体内容如下:
(1)对一些html标签转码,如“&lt”等;
(2)去噪声,如“@李小明”、表情、多空格等;
(3)双字节标点符号转成单字节标点符号,句号例外;
2、切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;
3、计算句子长度,记为len,若len>wordi,对s截句。根据标点符号的断句进行截取,标点符号的优先等级如下:
(1)“。”
(2)“!”、“?”
(3)“;”
(4)“:”
(5)“,”
并尽量保证成对出现的符号的完整性,比如“()”、“《》”等,如出现半边符号,则截去
4、判断的主题句是否有意义,可以采取的方法如字数判断、中英文判断、语气词判断等,若无意义,则丢弃
5、选取下一个节点,重复步骤1-4
6、结束
模块三:
设计自动筛选器,从模块二中得到的数据集,取出节点中的图片,放入自动筛选器,如果符合要求,则按照模板中图片的尺寸进行自动裁剪,否则取下一张图片继续筛选。一个节点筛选图片的具体步骤如下:
1、计算图片的尺寸,记为size
2、判断符合模板图片i的数量是否已经达到最大数量maxNumi,若没有达到,进行步骤3,若达到,遍历下一个模板图片,循环步骤2,若所有模板图片的最大数量都已 满足,则跳到步骤6
3、计算size与模板图片i的尺寸的匹配度,记为d
4、判断匹配度d是否符合要求。当T1<d<T2(T1、T2为阈值),则进行自动裁剪,对符合模板图片i的数量加1,跳到步骤6;否则不符合要求,重复步骤2、3,直到与模板中的所有种类的图片都比较完毕;如果还是不符合要求,则继续第5步骤。
5、取下一张图片,进行步骤1到4。
6、结束
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

微博首页数据自动推荐方法.pdf_第1页
第1页 / 共8页
微博首页数据自动推荐方法.pdf_第2页
第2页 / 共8页
微博首页数据自动推荐方法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《微博首页数据自动推荐方法.pdf》由会员分享,可在线阅读,更多相关《微博首页数据自动推荐方法.pdf(8页珍藏版)》请在专利查询网上搜索。

本发明涉及一种微博首页数据自动推荐方法,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。本发明自动向首页推荐最新最热的博文图片和概要,来满足用户需求。采用自动统计筛选的方法填充首页数据,提高了数据的新鲜度、广度和更新周期,节省了人力和成本。经人工检测,图片筛选裁剪的质量达到99.9,微博概。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1