商品标识标签的方法、装置及商品导航的方法.pdf

上传人:v**** 文档编号:6180280 上传时间:2019-05-17 格式:PDF 页数:16 大小:1.42MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210326456.8

申请日:

2012.09.05

公开号:

CN103678335A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120905|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

孙常龙; 曾安祥

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京亿腾知识产权代理事务所 11309

代理人:

陈霁

PDF下载: PDF下载
内容摘要

本发明涉及一种商品标识标签的方法、装置及商品导航的方法。该商品标识标签的方法,包括以下步骤:提取商品的描述信息;将所述商品的描述信息聚合生成文本;使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。利用本发明可以为商品标识用户维度属性的标签,以便用户更直观快捷的找到自己需要的商品。

权利要求书

权利要求书
1.  一种商品标识标签的方法,其特征在于:
提取商品的描述信息;
将所述商品的描述信息聚合生成文本;
使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。

2.  根据权利要求1所述的商品标识标签的方法,其特征在于,所述提取商品的描述信息的步骤之前还包括对商品进行分类;
所述提取商品的描述信息的步骤进一步包括提取同一类目下商品的描述信息,聚合生成文本的商品的描述信息为同一类目下的商品的描述信息。

3.  根据权利要求1所述的商品标识标签的方法,其特征在于,将所述商品的描述信息聚合生成文本的步骤进一步包括:
将属于同一款商品的各商品的描述信息聚合形成第一文本;
对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及
将各种不同款的商品的第一文本聚合形成第二文本;
其中,对所述文本进行主题分析中所使用的文本为所述第二文本。

4.  根据权利要求3所述的商品标识标签的方法,其特征在于,所述使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题的步骤,进一步包括:
设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析;
获得与设定主题数相同数目的子集;及
每一个子集对应一个主题;
其中,根据商品的描述信息中的词所在的子集,将该商品的描述信息与该子集对应的主题关联。

5.  根据权利要求1所述的商品标识标签的方法,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。

6.  根据权利要求1所述的商品标识标签的方法,其特征在于,所述主题模型为概率潜在语义模型或潜在狄利克雷分配模型。

7.  根据权利要求5所述的商品标识标签的方法,其特征在于,所述方法还包括:
确定商品的所述标题信息中是否包含所述商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取所述商品的标签的同时,获取所述附加标签,并进行标识。

8.  根据权利要求6所述的商品标识标签的方法,其特征在于,所述预先建立的附加标签库是通过以下步骤建立的:
根据同一类目下记录的商品的日志,提取所述类目下查询次数高的查询词;
对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词;
将所述关键词作为附加标签,建立所述类目的附加标签库。

9.  一种商品导航的方法,其特征在于,所述方法包括以下步骤:
提取商品的描述信息;
将所述商品的描述信息聚合生成文本;
使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题;
将所述商品分别与所述主题关联;
将所述商品按每一商品关联的主题分类导航。

10.  根据权利要求9所述的商品导航的方法,其特征在于,所述提取商品的描述信息的步骤之前还包括对商品进行分类;
所述提取商品的描述信息的步骤进一步包括提取同一类目下商品的描述 信息,聚合生成文本的商品的描述信息为同一类目下的商品的描述信息。

11.  根据权利要求9所述的商品导航的方法,其特征在于,将所述商品的描述信息聚合生成文本的步骤进一步包括:
将属于同一款商品的各商品的描述信息聚合形成第一文本;
对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及
将各种不同款的商品的第一文本聚合形成第二文本;
其中,对所述文本进行主题分析所使用的文本为所述第二文本。

12.  根据权利要求11所述的商品导航的方法,其特征在于,所述使用基于主题模型的文本分析方法对所述文本进行主题分析的步骤,进一步包括:
设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析;
获得与设定主题数相同数目的子集;及
每一个子集对应一个主题;
其中,根据商品的描述信息中的词所在的子集,将该商品与该子集对应的主题关联。

13.  根据权利要求9所述的商品导航的方法,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。

14.  根据权利要求9所述的商品导航的方法,其特征在于,所述将所述商品相关联的主题分类导航时,分类导航中主题的显示顺序由该主题对应的商品的点击量决定。

15.  一种商品标识标签的装置,其特征在于,所述装置包括:
提取模块,用于提取商品的描述信息;
生成模块,用于将所述商品的描述信息聚合生成文本;
分析模块,用于使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
第一标识模块,用于将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。

16.  根据权利要求15所述的商品标识标签的装置,其特征在于,所述装置还包括分类模块,该分类模块对商品进行分类;
所述提取模块进一步用于提取同一类目下的商品的描述信息;
所述生成模块进一步用于对同一类目下的商品的描述信息聚合生成文本。

17.  根据权利要求15所述的商品标识标签的装置,其特征在于,所述生成模块进一步用于将属于同一款商品的各商品的描述信息聚合形成第一文本,对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词,及将各种不同款的商品的第一文本聚合形成第二文本;
其中,所述分析模块使用所述第二文本进行主题分析。

18.  根据权利要求17所述的商品标识标签的装置,其特征在于,所述分析模块进一步用于设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析,获得与设定主题数相同数目的子集,每一个子集对应一个主题,根据商品的描述信息中的词所在的子集,将该商品的描述信息与该子集对应的主题关联。

19.  根据权利要求13所述的商品标识标签的装置,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。

20.  根据权利要求13所述的商品标识标签的装置,其特征在于,所述主题模型为概率潜在语义模型或潜在狄利克雷分配模型。

21.  根据权利要求19所述的商品标识标签的装置,其特征在于,所述装置还包括:
第二标识模块,用于确定商品的标题信息中是否包含所述商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取所述商品的标签的同时,获取所述附加标签,并进行标识。

22.  根据权利要求20所述的商品标识标签的装置,其特征在于,所述装置还包括:
建立模块,用于根据同一类目下记录的商品的日志,提取所述类目下查询次数高的查询词,对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词,将所述关键词作为附加标签,建立所述类目的附加标签库。

说明书

说明书商品标识标签的方法、装置及商品导航的方法
技术领域
本发明涉及电子商务网站导航领域,尤其涉及一种商品标识标签的方法、装置及商品导航的方法。
背景技术
目前,电子商务网站基本上都采用类目导航和属性导航为用户提供导航信息。
类目导航大多采用树状结构表示,用户通过点击类目导航中的内容缩小查找范围,然后利用属性导航精确的查找用户所需的商品。
属性导航相较于其它类型的导航更加多元化,能够更好的吸引用户。但是无论是大众化的属性导航还是个性化的属性导航,现有的属性导航中显示的标签都是商品的固有属性,并且将这些标签标识在商品上,以便用户通过导航进行查找商品。这些标签是在卖家用户上传商品时提供的信息,然后经过人工审核,再将这些标签直接标识在商品上。并且属性导航中显示的内容也是这些对商品固有属性描述的标签。例如,服装类商品,在现有的属性导航中仅能显示出品牌,材质,尺寸,基本样式等对服装固有属性的描述。
上述方案中,对商品标识的标签的形式过于单一,不能给商品标识便于用户挑选的标签,并且导航中显示的内容仅是对商品固有属性的描述的标签,有些标签对用户来说不够通俗易懂,不能直接反映用户的心理需求。现在,用户对商品关注的角度越来越多,相应地,商品种类、数量越来越多,每一件商品中的信息量也越来越大,对这些商品信息按照用户关注的角度对这些大量的商品信息进行分类处理也是亟需解决的问题。
发明内容
本发明的目的是,提供一种商品标识标签的方法、装置及商品导航的方法,便于用户查找商品。
为实现上述目的,本发明提供了一种商品标识标签的方法,该方法包括以下步骤:
提取商品的描述信息;
将所述的商品的描述信息聚合生成文本;
使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。
另外,本发明还提供了一种商品导航的方法,该方法包括以下步骤:
提取商品的描述信息;
将所述商品的描述信息聚合生成文本;
使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题;
将所述商品分别与所述主题关联;
将所述商品按每一商品关联的主题分类导航。
相应的,本发明提供了一种商品标识标签的装置,该装置包括:
提取模块,用于提取商品的描述信息;
生成模块,用于将所述商品的描述信息聚合生成文本;
分析模块,用于使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
第一标识模块,用于将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。
因此,本发明实施例通过对商品的描述信息的聚合文本进行分析,得到 用于对商品进行标识的用户维度的标签,可以区别于传统的类目导航,便于对商品信息的分类及导航,能提高向用户提供商品信息的准确性和效率。通过上述方式建立的导航或对商品标识的标签更加多样化和智能化,能够使得用户更快更方便的找到自己喜欢的商品。
附图说明
图1为本申请实施例的商品标识标签的方法所涉及的系统架构示意图;
图2为本申请实施例的商品标识标签的方法的流程图;
图3为本申请实施例的商品导航的方法的流程图;
图4为本申请实施例的商品标识标签的装置的结构示意图;
图5为本申请实施例的另一种商品标识标签的装置的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本申请实施例提供一种商品标识标签的方法。该方法包括以下步骤:提取商品的描述信息,再将该商品的描述信息聚合生成文本,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称,最后将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
首先,如图1所示,简单介绍本申请实施例的商品标识标签的方法所涉及的系统架构。该系统包括终端1和服务器2。终端1和服务器2通过互联网或者无线网络与服务器2进行通信。其中,终端1包括买家终端11和卖家终端12。当卖家通过卖家终端12进行商品上架时,服务器2通过互联网接收到卖家提供的上架商品的描述信息,描述信息包括:标题信息、属性信息(属性信息包括:商品的固有属性和用户维度属性)。例如,卖家上架的商品为一双女士皮鞋,卖家在上架皮鞋时,同时会上传该女士皮鞋的标题信息及其属性信息,如材质,样式,鞋跟高低等信息。服务器2提取商品的卖家上传 的描述信息和/或数据库中原本保存的商品的描述信息,然后把商品的描述信息聚合生成文本,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称,最后将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
需要说明是,其中定义的主题名称是根据商品的用户维度属性定义的。商品的用户维度属性是从用户的角度来描述一个商品。因此,将这些具有用户维度属性的主题名称作为标签为商品进行标识,更加贴近用户挑选商品的习惯,从而使得用户可以直观明确的查找到需要的商品。
如图2所示,其为本申请实施例的商品标识标签的方法的流程图。其中,执行主体可以为服务器、软件或两者的结合。本申请实施例的商品标识标签的方法包括步骤201-204。
步骤201,提取商品的描述信息。
需要说明是,提取的商品的描述信息包括卖家在上传时提供的商品描述信息,还包括数据库中原本记录的商品描述信息。
步骤202,将商品的描述信息聚合成文本。
具体的,首先,根据商品图片相似或相同的程度,把同一款的商品聚合,然后把同款的商品的描述信息叠加,并对叠加后的描述信息进行分词,同时去除一些叠加后的商品描述信息中词频超过预设的第一阈值的词和低于预设的第二阈值的词(也即将描述信息中词频过高和过低的词去除),作为该同款商品的统一描述文本。其中,第一阈值大于第二阈值。因为商品的描述信息,尤其是商品的标题信息,一般由卖家根据用户的挑选习惯定义的,通过剔除商品描述信息题中词频过高和过低的词,可以剔除掉商品中的常用的类目词,同时也剔除了一些与商品固有属性相关的词。所以再经过上述处理所得到的统一描述文本包含了若干具有用户维度属性的词。
例如,在女装类目下,共有将近9千万的商品数,可根据商品的相同或相似的图片把统一款式的商品聚合。因为不同的卖家对商品标题的叙述会有 所不同,所以把这些同款商品的标题进行叠加,形成一个对商品全面描述的文本。叠加后的描述文本非常复杂且繁长,所以进行分词处理和除去词频过高和过低的搜索词的处理。例如,同一款女装叠加后的描述文本为“2012中长款女装优雅淑女弹力大码雪纺衫短袖上衣宽松蝙蝠T恤”,经过上述处理后,将其中“2012”,“女装”。“短袖上衣”,“T恤”等使用频率高的搜索词删除,则该款式的女装的统一描述文本为“中长款优雅淑女弹力大码雪纺衫宽松蝙蝠”。按照以上方法,分别获得其他各种款式的女装的统一描述文本。对各种款式的女装的统一描述文本聚合形成新的文本。
步骤203,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称。
利用基于主题模型的文本分析方法对聚合的文本进行分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(Latent Dirichlet Allocation)潜在狄利克雷分配法进行分析。
具体的,设置训练模型的主题个数,根据主题个数,利用基于主题模型的文本分析方法会把各种商品的统一描述文本聚合后,作为一个新的文本,通过对新文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的统一描述文本中的词集合根据设定的主题个数划分为相应数目的子集合。每一子集合可以是基于语义相近或相似度而聚合成的词的集合,每个子集合中的词具有相同或相近的语义,每个子集合对应一个主题。基于每个子集合的聚合特征或共性,定义该子集合对应的主题名称。因为用于分析的文本本身就是具有用户维度属性的词的集合,因此定义的主题名称也一定具有用户维度属性。
例如,利用基于主题模型的文本分析方法对女装聚合的文本进行分析。首先设置训练模型的主题个数,将各个款式女装的统一描述文本聚合,基于 主题模型的文本分析方法会得出若干子集,如第一主题下聚合了“透视”,“豹纹”等词,则可以将第一主题定义为性感。第二主题聚合了“拼接”,“波点”等词,则可以将第二主题定义为非主流。同样的,其他主题根据该子集合中的词语共有的特征作为该主题的名称。
需要说明的是,其中,设定的主题个数会影响到每个子集合中的词的特征的准确性。为选择一个较优的主题个数,可以预先按一定幅度逐渐加大所述主题模型的主题个数,通过在各个主题个数下计算每个主题里面的词语分布和计算训练的文本中的主题分布,反复计算直到收敛或达到某一个阈值才会停止,此时对应的主题个数为所述主题模型在进行文本分析时所设定的主题数。
步骤204,将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
具体的,确定商品的描述信息中的词是否包含在各个主题对应的子集合中,如果包含,则该商品的描述信息与该子集合对应的主题名称相关联,将相关联的主题名称作为标签给商品打标。
用户对不同类目下的商品关注的维度差异可能非常大,不同类目下用户会有特定的关注维度;而同一类目下商品的描述信息具有更多的内在联系或相关性,更容易通过主题分析得到用户关注的维度。
优选地,为提升基于主题模型的主题分析对商品标识标签的准确性,本申请实施例的主题分析使用的文本为同一类目下商品的描述信息。
因此,本申请实施例的商品标识标签的方法在步骤201之前还包括对商品进行分类的步骤。在步骤201中提取商品的描述信息进一步为提取同一类目下的商品的描述信息。步骤202中将商品的描述信息聚合成文本进一步为将同一类目下的商品的描述信息聚合成文本。
可以理解的,根据对商品分类聚合的精确度要求,对同一类目下商品的 描述信息的聚合也可以是同一类目下部分商品的描述信息的聚合。
需要说明的是,对商品的分类可以采用一般的分类方式,现有线上商品一般已具有各自对应的主类目信息及子类目信息,因此,本申请实施例可以通过提取商品已有的主类目信息和/或子类目信息确定商品所属的类目。
例如,卖家用户上架的商品为女士T恤,确定该商品属于女装这一类目,其标题为“加肥加大印花短袖T恤”。对女装类目下各款商品的标题信息聚合后进行主题分析,可以得到包括大码、加大、特大、超大、胖子、加肥加大、胖哥、大号等词的子集合,将该子集合对应的主题定义为“大码”。因为本例中的女士T恤的标题信息中包含有“加肥加大”一词,因此,该女士T恤及其的描述信息与“大码”这一主题就可以相关联。因此,“大码”可以作为描述信息包含了“大码、加大、特大、超大、胖子、加肥加大、胖哥、大号”中至少一个词的商品的标签。本例中的该上架女装的标题信息中包含加肥加大一词,所以为商品标识“大码”的标签。
同样的,每个类目都采用相同的方法为每个类目下的商品进行标签标识。
需要说明的是,类目分为标类类目和非标类类目。其中,通过几个关键的商品固有属性聚合成一个节点,利用这个节点能准确找到相同性质的商品的类目为标类类目。例如,在手机类目下的商品,通过品牌+型号的形式便能够在手机类目下将符合该节点的商品聚合起来,因此手机类目为标类类目。而非标类类目是相对于标类类目而言的,通过几个关键的商品固有属性不能准确聚合成一个节点,不能准确查找到所需的商品,不易于把相同性质的商品归一化的类目为非标类类目。例如,在女装类目下的商品,并不能仅通过商品的两三个关键的固有属性就能准确的找到用户所需要的服装,女装类目为非标类类目。
因此,根据非标类类目下商品属性的特点和标类类目下商品属性的特点,相较于标类类目下的商品,本实施例提供的商品标识标签的方法更适合用于为非标类类目下的商品标识标签。而标类类目下的商品除利用本实施例提供 的商品标识标签方法之外,还可以采用其他方法进行标签标识。
另外,利用商品的描述信息中的标题信息还可以为商品标识附加标签。
具体的,确定商品的标题信息中是否包含商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取待标识标签的商品的标签的同时,获取该附加标签,并进行标识。
需要说明的是,附加标签库中的附加标签是根据热门商品进行定义的,能够让用户更方便的查找到最近热门商品。
例如,女士T恤的标题信息为“加肥加大印花短袖T恤”。在女装类目下的附加标签库中查找是否有标题信息中包括的内容,通过查找发现标题信息中包含附加标签库中印花这一标签,则该上架的女装获取印花这一附加标签,并为该女士T恤标识“印花”标签。
需要说明的是,附加标签库是预先建立的,具体的建立方法步骤为根据一个月内同一类目下的商品的日志文件(例如,商品的点击查看量)提取查询量高的查询词。将提取出的查询词进行分词,去除类目词和停用词的处理,将进过处理后的剩余的词作为关键词。获取这些关键词作为热门标签,即附加标签,从而建立每个类目下的附加标签库。其中,查询词可以是各种各样的词语,所以附加标签对词语没有限制。如,对商品外观描述的词,人名,电视剧名等,都可以作为附加标签。
例如,女装类目下,一个月内查询量高的查询词有“透视装”“透视短袖”等,经过分词和去除类目词、停用词的处理后,得到的关键词为“透视”,则将透视一词作为女装类目下附加标签库中的附加标签。再如,近期某个明星比较火,搜索某某明星同款女装的人很多,则便可将某某明星的名字作为女装类目下附加标签库中的附加标签。
此外,本申请实施例还提供一种商品导航的方法。如图3所示,其为本申请实施例的商品导航方法。该商品导航的方法包括步骤301-304。
步骤301,提取商品的描述信息,将商品的描述信息聚合生成文本。
商品的描述信息包括商品的标题信息和/或属性信息。一般来说,商品的标题会从用户关注的角度对商品进行描述,因此,标题中包含了很多可以引起用户兴趣的词语或词语组合。此外,在商品的详情介绍部分对该商品属性的具体描述也可能包含用户关注角度的描述。将商品的描述信息聚合生成文本也就是将对商品的描述词汇集到同一文本中。
步骤302,使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题。
使用主题模型的文本分析方法对所述文本进行主题分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(Latent Dirichlet Allocation)潜在狄利克雷分配法进行模型训练。
具体的,设置主题模型的主题个数,根据主题个数,所述主题模型的文本分析的方法会把商品的描述信息聚合后的文本,通过对所述文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的文本中的词集合根据设定的主题个数划分为相应个数的子集合。每一子集合可以是基于语义相近或相似度而聚合的词的集合,每个子集合中的词具有相近的语义或具有相近的应用语境,每个子集合对应一个主题。基于每个子集合的聚合特征,可以定义该子集合对应的主题。根据每个子集合中词的共同特征可以进一步定义每个子集合对应的主题的名称,也可以将主题名称作为该类目下商品的标签。
步骤303,将商品与主题关联。
根据每一商品的描述信息中的词在所述子集中的分布可以建立每一商品与子集合的映射,进而可以建立该商品与主题的映射,即将商品与主题关联。
步骤304,将商品的描述信息相关联的主题分类导航。
不同的商品可以分别与不同主题进行关联,因此,在用户浏览商品上可以将商品按各自对应的主题分别展示,用户通过选择主题对应的链接或标签 便可以得到该主题关联的商品,也即将商品按各自对应的主题分类导航。主题对应的名称或标签作为分类导航中显示的内容。当用户点击标签时,便会显示该主题关联的商品。其中,分类导航中主题对应的名称或标签的显示顺序由该主题下的商品的点击量决定。在分类导航中可以不显示全部主题对应的名称或标签,可根据不同情况,设置显示的主题对应的名称或标签个数和顺序。
当选择分类导航中的任一主题时,在用户界面上显示该主题关联的商品。当同时选择分类导航中的多个主题时,在用户界面上显示同时与该多个主题关联的商品。
在本实施例提供的商品的导航的方法中,为了剔除一些描述信息中出现的类目词或者剔除一些与商品属性无关的词语以减小干扰,步骤301中还可以进一步包括:将属于同一款商品的各商品的描述信息聚合形成第一文本;对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及将该各种款的商品的第一文本聚合形成第二文本。如此,在步骤302使用主题模型的文本分析方法进行主题分析中的文本为第二本文。
步骤302进一步还可以包括:设定主题模型的主题数,使用该主题模型对该第二文本进行主题分析;获得设定主题数的子集;定义每一子集的主题;根据描述信息中的词所在的子集,将该类目下的商品与该子集对应的主题关联。定义每一子集的主题时,根据子集中词的共有词义或共有属性作为该主题的名称。
进一步地,本申请实施例的主题分析使用的文本为同一类目下商品的描述信息。本申请实施例的商品标识标签的方法还可以包括对商品进行分类的步骤;在步骤301中提取商品的描述信息进一步为提取同一类目下的商品的描述信息,步骤302中将商品的描述信息聚合成文本进一步为将同一类目下的商品的描述信息聚合成文本。
可以理解的,根据对商品分类聚合的精确度要求,对同一类目下商品的描述信息的聚合也可以是同一类目下部分商品描述信息的聚合。
相应地,本申请实施例还提供一种商品标识标签的装置。如图4所示,其为本申请实施例的商品标识标签的装置的结构示意图,该装置包括:分类模块410、提取模块420、生成模块430、分析模块440及第一标识模块450。
分类模块410,用于对商品进行分类。
类目是根据记录的商品数据进行划分的。例如,手机、相机、女装、男装、书籍等类目。
具体的,分类模块410根据商品的描述信息或者卖家在上传商品时选择的类目,在划分好的类目中确定商品是属于哪个类目下的商品。
提取模块420,用于提取商品的描述信息。
提取模块420可以提取同一类目下商品的描述信息,描述信息包括卖家在上传时提供的商品描述信息,还包括该类目下数据库中记录的商品描述信息。
生成模块430,用于将商品的描述信息聚合生成文本。
具体的,生成模块430根据商品图片相似或相同的程度,把同一分类类目下的同一款的商品聚合,然后把同款的商品的描述信息叠加,并对叠加后的描述信息进行分词,同时去除一些叠加后的商品描述信息中词频超过预设的第一阈值的词和低于预设的第二阈值的词(也即将描述信息中词频过高和过低的词去除),作为该同款商品的统一描述文本。其中,第一阈值大于第二阈值。因为商品的描述信息,尤其是商品的标题信息,一般由卖家根据用户的挑选习惯定义的,通过剔除商品描述信息题中词频过高和过低的词,可以剔除掉商品中的常用的类目词,同时也剔除了一些与商品固有属性相关的词。所以再经过上述处理所得到的统一描述文本包含了若干具有用户维度属性的词。
分析模块440,用于使用基于主题模型的文本分析方法对该文本进行主题 分析,得到若干主题,并定义主题名称。其中分析的文本为第二文本。
分析模块440利用基于主题模型的文本分析方法对聚合的文本进行分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(Latent Dirichlet Allocation)潜在狄利克雷分配法进行分析。
具体的,分析模块440设置训练模型的主题个数,根据主题个数,利用基于主题模型的文本分析方法会把同一类目下各种款商品的统一描述文本聚合后,作为一个新的文本,通过对新文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的统一描述文本中的词集合根据设定的主题个数划分为相应数目的子集合。每一子集合可以是基于语义相近或相似度而聚合成的词的集合,每个子集合中的词具有相同或相近的语义,每个子集合对应一个主题。基于每个子集合的聚合特征或共性,定义该子集合对应的主题名称。因为用于分析的文本本身就是具有用户维度属性的词的集合,因此定义的主题名称也一定具有用户维度属性。
第一标识模块450,用于将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
第一标识模块450确定商品的描述信息中的词是否包含在其所属类目下的子集合中,如果包含,则该商品的描述信息与该子集合对应的主题名称相关联,将相关联的主题名称作为标签给商品打标。
另外,本实施例提供的商品标识标签的装置还包括:第二标识模块460和建立模块470。如图5所示,其为另一种商品标识标签的装置的结构示意图。
第二标识模块460用于确定商品的标题信息中是否包含商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取待标识标签的商品的标签的同时,获取该附加标签,并进行标识。
建立模块470用于预先建立附加标签库。
建立模块470根据同一类目下记录的商品的日志,提取该类目下查询次数高的查询词,对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词,将该关键词作为附加标签,建立该类目的附加标签库。
利用本申请提供的商品标识标签的方法、装置及商品导航的方法,可以为商品标识用户维度属性的标签,并且建立分类导航对商品进行导航,以便用户更直观快捷的找到自己需要的商品。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

商品标识标签的方法、装置及商品导航的方法.pdf_第1页
第1页 / 共16页
商品标识标签的方法、装置及商品导航的方法.pdf_第2页
第2页 / 共16页
商品标识标签的方法、装置及商品导航的方法.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《商品标识标签的方法、装置及商品导航的方法.pdf》由会员分享,可在线阅读,更多相关《商品标识标签的方法、装置及商品导航的方法.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103678335 A (43)申请公布日 2014.03.26 CN 103678335 A (21)申请号 201210326456.8 (22)申请日 2012.09.05 G06F 17/30(2006.01) (71)申请人 阿里巴巴集团控股有限公司 地址 英属开曼群岛大开曼资本大厦一座四 层 847 号邮箱 (72)发明人 孙常龙 曾安祥 (74)专利代理机构 北京亿腾知识产权代理事务 所 11309 代理人 陈霁 (54) 发明名称 商品标识标签的方法、 装置及商品导航的方 法 (57) 摘要 本发明涉及一种商品标识标签的方法、 装置 及商品导航的方法。。

2、 该商品标识标签的方法, 包括 以下步骤 : 提取商品的描述信息 ; 将所述商品的 描述信息聚合生成文本 ; 使用基于主题模型的文 本分析方法对所述文本进行主题分析, 得到若干 主题, 并定义主题名称 ; 将与所述商品的描述信 息相关联的主题名称作为所述商品的标签对所述 商品进行标识。利用本发明可以为商品标识用户 维度属性的标签, 以便用户更直观快捷的找到自 己需要的商品。 (51)Int.Cl. 权利要求书 3 页 说明书 8 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书8页 附图4页 (10)申请公布号 CN 103678335 A 。

3、CN 103678335 A 1/3 页 2 1. 一种商品标识标签的方法, 其特征在于 : 提取商品的描述信息 ; 将所述商品的描述信息聚合生成文本 ; 使用基于主题模型的文本分析方法对所述文本进行主题分析, 得到若干主题, 并定义 主题名称 ; 将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标 识。 2. 根据权利要求 1 所述的商品标识标签的方法, 其特征在于, 所述提取商品的描述信 息的步骤之前还包括对商品进行分类 ; 所述提取商品的描述信息的步骤进一步包括提取同一类目下商品的描述信息, 聚合生 成文本的商品的描述信息为同一类目下的商品的描述信息。 3. 根据权。

4、利要求 1 所述的商品标识标签的方法, 其特征在于, 将所述商品的描述信息 聚合生成文本的步骤进一步包括 : 将属于同一款商品的各商品的描述信息聚合形成第一文本 ; 对该第一文本进行分词, 剔除该第一文本中词频高于第一设定阈值的词和词频低于第 二设定阈值的词 ; 及 将各种不同款的商品的第一文本聚合形成第二文本 ; 其中, 对所述文本进行主题分析中所使用的文本为所述第二文本。 4. 根据权利要求 3 所述的商品标识标签的方法, 其特征在于, 所述使用基于主题模型 的文本分析方法对所述文本进行主题分析, 得到若干主题的步骤, 进一步包括 : 设定主题模型的主题数, 使用基于该主题模型的文本分析方。

5、法对所述第二文本进行主 题分析 ; 获得与设定主题数相同数目的子集 ; 及 每一个子集对应一个主题 ; 其中, 根据商品的描述信息中的词所在的子集, 将该商品的描述信息与该子集对应的 主题关联。 5. 根据权利要求 1 所述的商品标识标签的方法, 其特征在于, 所述描述信息包括标题 信息和 / 或商品的属性信息。 6. 根据权利要求 1 所述的商品标识标签的方法, 其特征在于, 所述主题模型为概率潜 在语义模型或潜在狄利克雷分配模型。 7. 根据权利要求 5 所述的商品标识标签的方法, 其特征在于, 所述方法还包括 : 确定商品的所述标题信息中是否包含所述商品所属类目的预先建立的附加标签库中 。

6、的附加标签, 如果包含, 则在获取所述商品的标签的同时, 获取所述附加标签, 并进行标识。 8. 根据权利要求 6 所述的商品标识标签的方法, 其特征在于, 所述预先建立的附加标 签库是通过以下步骤建立的 : 根据同一类目下记录的商品的日志, 提取所述类目下查询次数高的查询词 ; 对提取出的查询词进行分词, 去除类目词和停用词的处理, 获取关键词 ; 将所述关键词作为附加标签, 建立所述类目的附加标签库。 9. 一种商品导航的方法, 其特征在于, 所述方法包括以下步骤 : 权 利 要 求 书 CN 103678335 A 2 2/3 页 3 提取商品的描述信息 ; 将所述商品的描述信息聚合生成。

7、文本 ; 使用主题模型的文本分析方法对所述文本进行主题分析, 得到若干主题 ; 将所述商品分别与所述主题关联 ; 将所述商品按每一商品关联的主题分类导航。 10. 根据权利要求 9 所述的商品导航的方法, 其特征在于, 所述提取商品的描述信息的 步骤之前还包括对商品进行分类 ; 所述提取商品的描述信息的步骤进一步包括提取同一类目下商品的描述信息, 聚合生 成文本的商品的描述信息为同一类目下的商品的描述信息。 11. 根据权利要求 9 所述的商品导航的方法, 其特征在于, 将所述商品的描述信息聚合 生成文本的步骤进一步包括 : 将属于同一款商品的各商品的描述信息聚合形成第一文本 ; 对该第一文本。

8、进行分词, 剔除该第一文本中词频高于第一设定阈值的词和词频低于第 二设定阈值的词 ; 及 将各种不同款的商品的第一文本聚合形成第二文本 ; 其中, 对所述文本进行主题分析所使用的文本为所述第二文本。 12. 根据权利要求 11 所述的商品导航的方法, 其特征在于, 所述使用基于主题模型的 文本分析方法对所述文本进行主题分析的步骤, 进一步包括 : 设定主题模型的主题数, 使用基于该主题模型的文本分析方法对所述第二文本进行主 题分析 ; 获得与设定主题数相同数目的子集 ; 及 每一个子集对应一个主题 ; 其中, 根据商品的描述信息中的词所在的子集, 将该商品与该子集对应的主题关联。 13. 根据。

9、权利要求 9 所述的商品导航的方法, 其特征在于, 所述描述信息包括标题信息 和 / 或商品的属性信息。 14. 根据权利要求 9 所述的商品导航的方法, 其特征在于, 所述将所述商品相关联的主 题分类导航时, 分类导航中主题的显示顺序由该主题对应的商品的点击量决定。 15. 一种商品标识标签的装置, 其特征在于, 所述装置包括 : 提取模块, 用于提取商品的描述信息 ; 生成模块, 用于将所述商品的描述信息聚合生成文本 ; 分析模块, 用于使用基于主题模型的文本分析方法对所述文本进行主题分析, 得到若 干主题, 并定义主题名称 ; 第一标识模块, 用于将与所述商品的描述信息相关联的主题名称作。

10、为所述商品的标签 对所述商品进行标识。 16. 根据权利要求 15 所述的商品标识标签的装置, 其特征在于, 所述装置还包括分类 模块, 该分类模块对商品进行分类 ; 所述提取模块进一步用于提取同一类目下的商品的描述信息 ; 所述生成模块进一步用于对同一类目下的商品的描述信息聚合生成文本。 17. 根据权利要求 15 所述的商品标识标签的装置, 其特征在于, 所述生成模块进一步 权 利 要 求 书 CN 103678335 A 3 3/3 页 4 用于将属于同一款商品的各商品的描述信息聚合形成第一文本, 对该第一文本进行分词, 剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词。

11、, 及将各种不 同款的商品的第一文本聚合形成第二文本 ; 其中, 所述分析模块使用所述第二文本进行主题分析。 18. 根据权利要求 17 所述的商品标识标签的装置, 其特征在于, 所述分析模块进一步 用于设定主题模型的主题数, 使用基于该主题模型的文本分析方法对所述第二文本进行主 题分析, 获得与设定主题数相同数目的子集, 每一个子集对应一个主题, 根据商品的描述信 息中的词所在的子集, 将该商品的描述信息与该子集对应的主题关联。 19. 根据权利要求 13 所述的商品标识标签的装置, 其特征在于, 所述描述信息包括标 题信息和 / 或商品的属性信息。 20. 根据权利要求 13 所述的商品标。

12、识标签的装置, 其特征在于, 所述主题模型为概率 潜在语义模型或潜在狄利克雷分配模型。 21. 根据权利要求 19 所述的商品标识标签的装置, 其特征在于, 所述装置还包括 : 第二标识模块, 用于确定商品的标题信息中是否包含所述商品所属类目的预先建立 的附加标签库中的附加标签, 如果包含, 则在获取所述商品的标签的同时, 获取所述附加标 签, 并进行标识。 22. 根据权利要求 20 所述的商品标识标签的装置, 其特征在于, 所述装置还包括 : 建立模块, 用于根据同一类目下记录的商品的日志, 提取所述类目下查询次数高的查 询词, 对提取出的查询词进行分词, 去除类目词和停用词的处理, 获取。

13、关键词, 将所述关键 词作为附加标签, 建立所述类目的附加标签库。 权 利 要 求 书 CN 103678335 A 4 1/8 页 5 商品标识标签的方法、 装置及商品导航的方法 技术领域 0001 本发明涉及电子商务网站导航领域, 尤其涉及一种商品标识标签的方法、 装置及 商品导航的方法。 背景技术 0002 目前, 电子商务网站基本上都采用类目导航和属性导航为用户提供导航信息。 0003 类目导航大多采用树状结构表示, 用户通过点击类目导航中的内容缩小查找范 围, 然后利用属性导航精确的查找用户所需的商品。 0004 属性导航相较于其它类型的导航更加多元化, 能够更好的吸引用户。但是无论。

14、是 大众化的属性导航还是个性化的属性导航, 现有的属性导航中显示的标签都是商品的固有 属性, 并且将这些标签标识在商品上, 以便用户通过导航进行查找商品。 这些标签是在卖家 用户上传商品时提供的信息, 然后经过人工审核, 再将这些标签直接标识在商品上。 并且属 性导航中显示的内容也是这些对商品固有属性描述的标签。 例如, 服装类商品, 在现有的属 性导航中仅能显示出品牌, 材质, 尺寸, 基本样式等对服装固有属性的描述。 0005 上述方案中, 对商品标识的标签的形式过于单一, 不能给商品标识便于用户挑选 的标签, 并且导航中显示的内容仅是对商品固有属性的描述的标签, 有些标签对用户来说 不够。

15、通俗易懂, 不能直接反映用户的心理需求。现在, 用户对商品关注的角度越来越多, 相 应地, 商品种类、 数量越来越多, 每一件商品中的信息量也越来越大, 对这些商品信息按照 用户关注的角度对这些大量的商品信息进行分类处理也是亟需解决的问题。 发明内容 0006 本发明的目的是, 提供一种商品标识标签的方法、 装置及商品导航的方法, 便于用 户查找商品。 0007 为实现上述目的, 本发明提供了一种商品标识标签的方法, 该方法包括以下步 骤 : 0008 提取商品的描述信息 ; 0009 将所述的商品的描述信息聚合生成文本 ; 0010 使用基于主题模型的文本分析方法对所述文本进行主题分析, 得。

16、到若干主题, 并 定义主题名称 ; 0011 将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进 行标识。 0012 另外, 本发明还提供了一种商品导航的方法, 该方法包括以下步骤 : 0013 提取商品的描述信息 ; 0014 将所述商品的描述信息聚合生成文本 ; 0015 使用主题模型的文本分析方法对所述文本进行主题分析, 得到若干主题 ; 0016 将所述商品分别与所述主题关联 ; 说 明 书 CN 103678335 A 5 2/8 页 6 0017 将所述商品按每一商品关联的主题分类导航。 0018 相应的, 本发明提供了一种商品标识标签的装置, 该装置包括 : 0。

17、019 提取模块, 用于提取商品的描述信息 ; 0020 生成模块, 用于将所述商品的描述信息聚合生成文本 ; 0021 分析模块, 用于使用基于主题模型的文本分析方法对所述文本进行主题分析, 得 到若干主题, 并定义主题名称 ; 0022 第一标识模块, 用于将与所述商品的描述信息相关联的主题名称作为所述商品的 标签对所述商品进行标识。 0023 因此, 本发明实施例通过对商品的描述信息的聚合文本进行分析, 得到用于对商 品进行标识的用户维度的标签, 可以区别于传统的类目导航, 便于对商品信息的分类及导 航, 能提高向用户提供商品信息的准确性和效率。通过上述方式建立的导航或对商品标识 的标签。

18、更加多样化和智能化, 能够使得用户更快更方便的找到自己喜欢的商品。 附图说明 0024 图 1 为本申请实施例的商品标识标签的方法所涉及的系统架构示意图 ; 0025 图 2 为本申请实施例的商品标识标签的方法的流程图 ; 0026 图 3 为本申请实施例的商品导航的方法的流程图 ; 0027 图 4 为本申请实施例的商品标识标签的装置的结构示意图 ; 0028 图 5 为本申请实施例的另一种商品标识标签的装置的结构示意图。 具体实施方式 0029 下面通过附图和实施例, 对本发明的技术方案做进一步的详细描述。 0030 本申请实施例提供一种商品标识标签的方法。该方法包括以下步骤 : 提取商品。

19、的 描述信息, 再将该商品的描述信息聚合生成文本, 使用基于主题模型的文本分析方法对该 文本进行主题分析, 得到若干主题, 并定义主题名称, 最后将与商品的描述信息相关联的主 题名称作为商品的标签对商品进行标识。 0031 首先, 如图 1 所示, 简单介绍本申请实施例的商品标识标签的方法所涉及的系统 架构。 该系统包括终端1和服务器2。 终端1和服务器2通过互联网或者无线网络与服务器 2 进行通信。其中, 终端 1 包括买家终端 11 和卖家终端 12。当卖家通过卖家终端 12 进行商 品上架时, 服务器 2 通过互联网接收到卖家提供的上架商品的描述信息, 描述信息包括 : 标 题信息、 属。

20、性信息 (属性信息包括 : 商品的固有属性和用户维度属性) 。例如, 卖家上架的商 品为一双女士皮鞋, 卖家在上架皮鞋时, 同时会上传该女士皮鞋的标题信息及其属性信息, 如材质, 样式, 鞋跟高低等信息。服务器 2 提取商品的卖家上传的描述信息和 / 或数据库中 原本保存的商品的描述信息, 然后把商品的描述信息聚合生成文本, 使用基于主题模型的 文本分析方法对该文本进行主题分析, 得到若干主题, 并定义主题名称, 最后将与商品的描 述信息相关联的主题名称作为商品的标签对商品进行标识。 0032 需要说明是, 其中定义的主题名称是根据商品的用户维度属性定义的。商品的用 户维度属性是从用户的角度来。

21、描述一个商品。因此, 将这些具有用户维度属性的主题名称 作为标签为商品进行标识, 更加贴近用户挑选商品的习惯, 从而使得用户可以直观明确的 说 明 书 CN 103678335 A 6 3/8 页 7 查找到需要的商品。 0033 如图 2 所示, 其为本申请实施例的商品标识标签的方法的流程图。其中, 执行 主体可以为服务器、 软件或两者的结合。本申请实施例的商品标识标签的方法包括步骤 201-204。 0034 步骤 201, 提取商品的描述信息。 0035 需要说明是, 提取的商品的描述信息包括卖家在上传时提供的商品描述信息, 还 包括数据库中原本记录的商品描述信息。 0036 步骤 20。

22、2, 将商品的描述信息聚合成文本。 0037 具体的, 首先, 根据商品图片相似或相同的程度, 把同一款的商品聚合, 然后把同 款的商品的描述信息叠加, 并对叠加后的描述信息进行分词, 同时去除一些叠加后的商品 描述信息中词频超过预设的第一阈值的词和低于预设的第二阈值的词 ( 也即将描述信息 中词频过高和过低的词去除 ), 作为该同款商品的统一描述文本。其中, 第一阈值大于第二 阈值。 因为商品的描述信息, 尤其是商品的标题信息, 一般由卖家根据用户的挑选习惯定义 的, 通过剔除商品描述信息题中词频过高和过低的词, 可以剔除掉商品中的常用的类目词, 同时也剔除了一些与商品固有属性相关的词。 所。

23、以再经过上述处理所得到的统一描述文本 包含了若干具有用户维度属性的词。 0038 例如, 在女装类目下, 共有将近 9 千万的商品数, 可根据商品的相同或相似的图片 把统一款式的商品聚合。因为不同的卖家对商品标题的叙述会有所不同, 所以把这些同款 商品的标题进行叠加, 形成一个对商品全面描述的文本。叠加后的描述文本非常复杂且繁 长, 所以进行分词处理和除去词频过高和过低的搜索词的处理。 例如, 同一款女装叠加后的 描述文本为 “2012 中长款女装优雅淑女弹力大码雪纺衫短袖上衣宽松蝙蝠 T 恤” , 经过上述 处理后, 将其中 “2012” ,“女装” 。 “短袖上衣” ,“T 恤” 等使用频。

24、率高的搜索词删除, 则该款式 的女装的统一描述文本为 “中长款优雅淑女弹力大码雪纺衫宽松蝙蝠” 。按照以上方法, 分 别获得其他各种款式的女装的统一描述文本。 对各种款式的女装的统一描述文本聚合形成 新的文本。 0039 步骤 203, 使用基于主题模型的文本分析方法对该文本进行主题分析, 得到若干主 题, 并定义主题名称。 0040 利用基于主题模型的文本分析方法对聚合的文本进行分析, 以识别大规模文本 集合 (document collection) 或语料库 (corpus) 中潜藏的主题信息。可选地, 利用 PLSA (Probabilistic Latent Semantic Ana。

25、lysis)概率潜在语义分析方法, 或 LDA(Latent Dirichlet Allocation) 潜在狄利克雷分配法进行分析。 0041 具体的, 设置训练模型的主题个数, 根据主题个数, 利用基于主题模型的文本分析 方法会把各种商品的统一描述文本聚合后, 作为一个新的文本, 通过对新文本使用概率潜 在语义分析或狄利克雷分配模型, 将聚合后的统一描述文本中的词集合根据设定的主题个 数划分为相应数目的子集合。 每一子集合可以是基于语义相近或相似度而聚合成的词的集 合, 每个子集合中的词具有相同或相近的语义, 每个子集合对应一个主题。 基于每个子集合 的聚合特征或共性, 定义该子集合对应的。

26、主题名称。因为用于分析的文本本身就是具有用 户维度属性的词的集合, 因此定义的主题名称也一定具有用户维度属性。 0042 例如, 利用基于主题模型的文本分析方法对女装聚合的文本进行分析。首先设置 说 明 书 CN 103678335 A 7 4/8 页 8 训练模型的主题个数, 将各个款式女装的统一描述文本聚合, 基于主题模型的文本分析方 法会得出若干子集, 如第一主题下聚合了 “透视” ,“豹纹” 等词, 则可以将第一主题定义为性 感。第二主题聚合了 “拼接” ,“波点” 等词, 则可以将第二主题定义为非主流。同样的, 其他 主题根据该子集合中的词语共有的特征作为该主题的名称。 0043 需。

27、要说明的是, 其中, 设定的主题个数会影响到每个子集合中的词的特征的准确 性。 为选择一个较优的主题个数, 可以预先按一定幅度逐渐加大所述主题模型的主题个数, 通过在各个主题个数下计算每个主题里面的词语分布和计算训练的文本中的主题分布, 反 复计算直到收敛或达到某一个阈值才会停止, 此时对应的主题个数为所述主题模型在进行 文本分析时所设定的主题数。 0044 步骤 204, 将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标 识。 0045 具体的, 确定商品的描述信息中的词是否包含在各个主题对应的子集合中, 如果 包含, 则该商品的描述信息与该子集合对应的主题名称相关联, 将相关联。

28、的主题名称作为 标签给商品打标。 0046 用户对不同类目下的商品关注的维度差异可能非常大, 不同类目下用户会有特定 的关注维度 ; 而同一类目下商品的描述信息具有更多的内在联系或相关性, 更容易通过主 题分析得到用户关注的维度。 0047 优选地, 为提升基于主题模型的主题分析对商品标识标签的准确性, 本申请实施 例的主题分析使用的文本为同一类目下商品的描述信息。 0048 因此, 本申请实施例的商品标识标签的方法在步骤 201 之前还包括对商品进行分 类的步骤。在步骤 201 中提取商品的描述信息进一步为提取同一类目下的商品的描述信 息。步骤 202 中将商品的描述信息聚合成文本进一步为将。

29、同一类目下的商品的描述信息聚 合成文本。 0049 可以理解的, 根据对商品分类聚合的精确度要求, 对同一类目下商品的描述信息 的聚合也可以是同一类目下部分商品的描述信息的聚合。 0050 需要说明的是, 对商品的分类可以采用一般的分类方式, 现有线上商品一般已具 有各自对应的主类目信息及子类目信息, 因此, 本申请实施例可以通过提取商品已有的主 类目信息和 / 或子类目信息确定商品所属的类目。 0051 例如, 卖家用户上架的商品为女士 T 恤, 确定该商品属于女装这一类目, 其标题为 “加肥加大印花短袖 T 恤” 。对女装类目下各款商品的标题信息聚合后进行主题分析, 可以 得到包括大码、 。

30、加大、 特大、 超大、 胖子、 加肥加大、 胖哥、 大号等词的子集合, 将该子集合对 应的主题定义为 “大码” 。因为本例中的女士 T 恤的标题信息中包含有 “加肥加大” 一词, 因 此, 该女士 T 恤及其的描述信息与 “大码” 这一主题就可以相关联。因此,“大码” 可以作为 描述信息包含了 “大码、 加大、 特大、 超大、 胖子、 加肥加大、 胖哥、 大号” 中至少一个词的商品 的标签。本例中的该上架女装的标题信息中包含加肥加大一词, 所以为商品标识 “大码” 的 标签。 0052 同样的, 每个类目都采用相同的方法为每个类目下的商品进行标签标识。 0053 需要说明的是, 类目分为标类类。

31、目和非标类类目。 其中, 通过几个关键的商品固有 属性聚合成一个节点, 利用这个节点能准确找到相同性质的商品的类目为标类类目。 例如, 说 明 书 CN 103678335 A 8 5/8 页 9 在手机类目下的商品, 通过品牌 + 型号的形式便能够在手机类目下将符合该节点的商品聚 合起来, 因此手机类目为标类类目。 而非标类类目是相对于标类类目而言的, 通过几个关键 的商品固有属性不能准确聚合成一个节点, 不能准确查找到所需的商品, 不易于把相同性 质的商品归一化的类目为非标类类目。 例如, 在女装类目下的商品, 并不能仅通过商品的两 三个关键的固有属性就能准确的找到用户所需要的服装, 女装。

32、类目为非标类类目。 0054 因此, 根据非标类类目下商品属性的特点和标类类目下商品属性的特点, 相较于 标类类目下的商品, 本实施例提供的商品标识标签的方法更适合用于为非标类类目下的商 品标识标签。而标类类目下的商品除利用本实施例提供的商品标识标签方法之外, 还可以 采用其他方法进行标签标识。 0055 另外, 利用商品的描述信息中的标题信息还可以为商品标识附加标签。 0056 具体的, 确定商品的标题信息中是否包含商品所属类目的预先建立的附加标签库 中的附加标签, 如果包含, 则在获取待标识标签的商品的标签的同时, 获取该附加标签, 并 进行标识。 0057 需要说明的是, 附加标签库中的。

33、附加标签是根据热门商品进行定义的, 能够让用 户更方便的查找到最近热门商品。 0058 例如, 女士 T 恤的标题信息为 “加肥加大印花短袖 T 恤” 。在女装类目下的附加标 签库中查找是否有标题信息中包括的内容, 通过查找发现标题信息中包含附加标签库中印 花这一标签, 则该上架的女装获取印花这一附加标签, 并为该女士 T 恤标识 “印花” 标签。 0059 需要说明的是, 附加标签库是预先建立的, 具体的建立方法步骤为根据一个月内 同一类目下的商品的日志文件 (例如, 商品的点击查看量) 提取查询量高的查询词。将提取 出的查询词进行分词, 去除类目词和停用词的处理, 将进过处理后的剩余的词作。

34、为关键词。 获取这些关键词作为热门标签, 即附加标签, 从而建立每个类目下的附加标签库。其中, 查 询词可以是各种各样的词语, 所以附加标签对词语没有限制。如, 对商品外观描述的词, 人 名, 电视剧名等, 都可以作为附加标签。 0060 例如, 女装类目下, 一个月内查询量高的查询词有 “透视装” “透视短袖” 等, 经过分 词和去除类目词、 停用词的处理后, 得到的关键词为 “透视” , 则将透视一词作为女装类目下 附加标签库中的附加标签。再如, 近期某个明星比较火, 搜索某某明星同款女装的人很多, 则便可将某某明星的名字作为女装类目下附加标签库中的附加标签。 0061 此外, 本申请实施。

35、例还提供一种商品导航的方法。如图 3 所示, 其为本申请实施例 的商品导航方法。该商品导航的方法包括步骤 301-304。 0062 步骤 301, 提取商品的描述信息, 将商品的描述信息聚合生成文本。 0063 商品的描述信息包括商品的标题信息和 / 或属性信息。一般来说, 商品的标题会 从用户关注的角度对商品进行描述, 因此, 标题中包含了很多可以引起用户兴趣的词语或 词语组合。此外, 在商品的详情介绍部分对该商品属性的具体描述也可能包含用户关注角 度的描述。将商品的描述信息聚合生成文本也就是将对商品的描述词汇集到同一文本中。 0064 步骤 302, 使用主题模型的文本分析方法对所述文本。

36、进行主题分析, 得到若干主 题。 0065 使用主题模型的文本分析方法对所述文本进行主题分析, 以识别大规模文本集 合 (document collection)或语料库 (corpus)中潜藏的主题信息。可选地, 利用 PLSA 说 明 书 CN 103678335 A 9 6/8 页 10 (Probabilistic Latent Semantic Analysis)概率潜在语义分析方法, 或 LDA(Latent Dirichlet Allocation) 潜在狄利克雷分配法进行模型训练。 0066 具体的, 设置主题模型的主题个数, 根据主题个数, 所述主题模型的文本分析的方 法会把。

37、商品的描述信息聚合后的文本, 通过对所述文本使用概率潜在语义分析或狄利克雷 分配模型, 将聚合后的文本中的词集合根据设定的主题个数划分为相应个数的子集合。每 一子集合可以是基于语义相近或相似度而聚合的词的集合, 每个子集合中的词具有相近的 语义或具有相近的应用语境, 每个子集合对应一个主题。 基于每个子集合的聚合特征, 可以 定义该子集合对应的主题。 根据每个子集合中词的共同特征可以进一步定义每个子集合对 应的主题的名称, 也可以将主题名称作为该类目下商品的标签。 0067 步骤 303, 将商品与主题关联。 0068 根据每一商品的描述信息中的词在所述子集中的分布可以建立每一商品与子集 合的。

38、映射, 进而可以建立该商品与主题的映射, 即将商品与主题关联。 0069 步骤 304, 将商品的描述信息相关联的主题分类导航。 0070 不同的商品可以分别与不同主题进行关联, 因此, 在用户浏览商品上可以将商品 按各自对应的主题分别展示, 用户通过选择主题对应的链接或标签便可以得到该主题关联 的商品, 也即将商品按各自对应的主题分类导航。主题对应的名称或标签作为分类导航中 显示的内容。当用户点击标签时, 便会显示该主题关联的商品。其中, 分类导航中主题对应 的名称或标签的显示顺序由该主题下的商品的点击量决定。 在分类导航中可以不显示全部 主题对应的名称或标签, 可根据不同情况, 设置显示的。

39、主题对应的名称或标签个数和顺序。 0071 当选择分类导航中的任一主题时, 在用户界面上显示该主题关联的商品。当同时 选择分类导航中的多个主题时, 在用户界面上显示同时与该多个主题关联的商品。 0072 在本实施例提供的商品的导航的方法中, 为了剔除一些描述信息中出现的类目词 或者剔除一些与商品属性无关的词语以减小干扰, 步骤 301 中还可以进一步包括 : 将属于 同一款商品的各商品的描述信息聚合形成第一文本 ; 对该第一文本进行分词, 剔除该第一 文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词 ; 及将该各种款的商品的 第一文本聚合形成第二文本。如此, 在步骤 302 使用主题模。

40、型的文本分析方法进行主题分 析中的文本为第二本文。 0073 步骤 302 进一步还可以包括 : 设定主题模型的主题数, 使用该主题模型对该第二 文本进行主题分析 ; 获得设定主题数的子集 ; 定义每一子集的主题 ; 根据描述信息中的词 所在的子集, 将该类目下的商品与该子集对应的主题关联。 定义每一子集的主题时, 根据子 集中词的共有词义或共有属性作为该主题的名称。 0074 进一步地, 本申请实施例的主题分析使用的文本为同一类目下商品的描述信息。 本申请实施例的商品标识标签的方法还可以包括对商品进行分类的步骤 ; 在步骤 301 中提 取商品的描述信息进一步为提取同一类目下的商品的描述信息。

41、, 步骤 302 中将商品的描述 信息聚合成文本进一步为将同一类目下的商品的描述信息聚合成文本。 0075 可以理解的, 根据对商品分类聚合的精确度要求, 对同一类目下商品的描述信息 的聚合也可以是同一类目下部分商品描述信息的聚合。 0076 相应地, 本申请实施例还提供一种商品标识标签的装置。如图 4 所示, 其为本申请 实施例的商品标识标签的装置的结构示意图, 该装置包括 : 分类模块 410、 提取模块 420、 生 说 明 书 CN 103678335 A 10 7/8 页 11 成模块 430、 分析模块 440 及第一标识模块 450。 0077 分类模块 410, 用于对商品进行。

42、分类。 0078 类目是根据记录的商品数据进行划分的。例如, 手机、 相机、 女装、 男装、 书籍等类 目。 0079 具体的, 分类模块 410 根据商品的描述信息或者卖家在上传商品时选择的类目, 在划分好的类目中确定商品是属于哪个类目下的商品。 0080 提取模块 420, 用于提取商品的描述信息。 0081 提取模块 420 可以提取同一类目下商品的描述信息, 描述信息包括卖家在上传时 提供的商品描述信息, 还包括该类目下数据库中记录的商品描述信息。 0082 生成模块 430, 用于将商品的描述信息聚合生成文本。 0083 具体的, 生成模块 430 根据商品图片相似或相同的程度, 把。

43、同一分类类目下的同 一款的商品聚合, 然后把同款的商品的描述信息叠加, 并对叠加后的描述信息进行分词, 同 时去除一些叠加后的商品描述信息中词频超过预设的第一阈值的词和低于预设的第二阈 值的词 ( 也即将描述信息中词频过高和过低的词去除 ), 作为该同款商品的统一描述文本。 其中, 第一阈值大于第二阈值。因为商品的描述信息, 尤其是商品的标题信息, 一般由卖家 根据用户的挑选习惯定义的, 通过剔除商品描述信息题中词频过高和过低的词, 可以剔除 掉商品中的常用的类目词, 同时也剔除了一些与商品固有属性相关的词。所以再经过上述 处理所得到的统一描述文本包含了若干具有用户维度属性的词。 0084 分。

44、析模块 440, 用于使用基于主题模型的文本分析方法对该文本进行主题分析, 得 到若干主题, 并定义主题名称。其中分析的文本为第二文本。 0085 分析模块 440 利用基于主题模型的文本分析方法对聚合的文本进行分析, 以识别 大规模文本集合 (document collection) 或语料库 (corpus) 中潜藏的主题信息。可选地, 利用 PLSA(Probabilistic Latent Semantic Analysis) 概率潜在语义分析方法, 或 LDA (Latent Dirichlet Allocation) 潜在狄利克雷分配法进行分析。 0086 具体的, 分析模块 44。

45、0 设置训练模型的主题个数, 根据主题个数, 利用基于主题模 型的文本分析方法会把同一类目下各种款商品的统一描述文本聚合后, 作为一个新的文 本, 通过对新文本使用概率潜在语义分析或狄利克雷分配模型, 将聚合后的统一描述文本 中的词集合根据设定的主题个数划分为相应数目的子集合。 每一子集合可以是基于语义相 近或相似度而聚合成的词的集合, 每个子集合中的词具有相同或相近的语义, 每个子集合 对应一个主题。基于每个子集合的聚合特征或共性, 定义该子集合对应的主题名称。因为 用于分析的文本本身就是具有用户维度属性的词的集合, 因此定义的主题名称也一定具有 用户维度属性。 0087 第一标识模块 45。

46、0, 用于将与商品的描述信息相关联的主题名称作为商品的标签 对商品进行标识。 0088 第一标识模块 450 确定商品的描述信息中的词是否包含在其所属类目下的子集 合中, 如果包含, 则该商品的描述信息与该子集合对应的主题名称相关联, 将相关联的主题 名称作为标签给商品打标。 0089 另外, 本实施例提供的商品标识标签的装置还包括 : 第二标识模块 460 和建立模 块 470。如图 5 所示, 其为另一种商品标识标签的装置的结构示意图。 说 明 书 CN 103678335 A 11 8/8 页 12 0090 第二标识模块 460 用于确定商品的标题信息中是否包含商品所属类目的预先建 立。

47、的附加标签库中的附加标签, 如果包含, 则在获取待标识标签的商品的标签的同时, 获取 该附加标签, 并进行标识。 0091 建立模块 470 用于预先建立附加标签库。 0092 建立模块 470 根据同一类目下记录的商品的日志, 提取该类目下查询次数高的查 询词, 对提取出的查询词进行分词, 去除类目词和停用词的处理, 获取关键词, 将该关键词 作为附加标签, 建立该类目的附加标签库。 0093 利用本申请提供的商品标识标签的方法、 装置及商品导航的方法, 可以为商品标 识用户维度属性的标签, 并且建立分类导航对商品进行导航, 以便用户更直观快捷的找到 自己需要的商品。 0094 专业人员应该。

48、还可以进一步意识到, 结合本文中所公开的实施例描述的各示例的 单元及算法步骤, 能够以电子硬件、 计算机软件或者二者的结合来实现, 为了清楚地说明硬 件和软件的可互换性, 在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。 这些功能究竟以硬件还是软件方式来执行, 取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能, 但是这种实现 不应认为超出本发明的范围。 0095 结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、 处理器执行的 软件模块, 或者二者的结合来实施。 软件模块可以置于随机存储器 (RAM) 、 内存、 只读。

49、存储器 (ROM) 、 电可编程 ROM、 电可擦除可编程 ROM、 寄存器、 硬盘、 可移动磁盘、 CD-ROM、 或技术领域 内所公知的任意其它形式的存储介质中。 0096 以上所述的具体实施方式, 对本发明的目的、 技术方案和有益效果进行了进一步 详细说明, 所应理解的是, 以上所述仅为本发明的具体实施方式而已, 并不用于限定本发明 的保护范围, 凡在本发明的精神和原则之内, 所做的任何修改、 等同替换、 改进等, 均应包含 在本发明的保护范围之内。 说 明 书 CN 103678335 A 12 1/4 页 13 图 1 说 明 书 附 图 CN 103678335 A 13 2/4 页 14 图 2 说 明 书 附 图 CN 103678335 A 14 3/4 页 15 图 3 图 4 说 明 书 附 图 CN 103678335 A 15 4/4 页 16 图 5 说 明 书 附 图 CN 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1