一种产品参数获取系统和方法.pdf

上传人:xia****o6 文档编号:1026204 上传时间:2018-03-26 格式:PDF 页数:17 大小:719.26KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910078790.4

申请日:

2009.03.03

公开号:

CN101576907A

公开日:

2009.11.11

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30公开日:20091111|||实质审查的生效|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

杜小勇

发明人:

杜小勇; 刘红岩; 何 军; 魏 巍; 杨 慧

地址:

100872北京市海淀区中关村大街59号中国人民大学信息学院

优先权:

专利代理机构:

北京中创阳光知识产权代理有限责任公司

代理人:

尹振启

PDF下载: PDF下载
内容摘要

一种产品参数获取系统和方法,其中该系统包括:目标评论词频统计单元,用于统计目标评论中各个名词的词频并得到一个词表;产品评论词频统计单元,用于统计每个词在产品评论的词频,同时查看出现该词的中出现形容词的子句数目;相关度计算单元,用于计算词表中每个词的相关度;表达模式抽取单元,用于抽取每个产品参数在目标产品评论中的表达模式并将其记录成表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些出现频率不高的产品参数词。

权利要求书

1、  一种产品参数获取系统包括:
目标评论词频统计单元,用于统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;
产品评论词频统计单元,用于统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;
相关度计算单元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;
表达模式抽取单元,用于抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;
匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。

2、
  根据权利要求1的系统,其中利用以下公式来计算词表中每个词的相关度:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>

3、
  根据权利要求1的系统,其中表达模式抽取单元进一步包括:
检查模块,用于对包含结果表中的某个词的每条目标评论句子进行检查;
提取模块,用于提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。

4、
  根据权利要求1的系统,其中匹配单元进一步包括:
查找模块,用于在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;
新参数词获取模块,用于在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及
新参数词添加模块,用于在结果表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。

5、
  一种产品参数获取方法包括:
A、统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;
B、统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;
C、利用步骤A和B的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;
D、抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;
E、通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。

6、
  根据权利要求5的方法,其中利用以下公式来计算词表中每个词的相关度:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>

7、
  根据权利要求5的方法,其中步骤C进一步包括:
对包含结果表中的某个词的每条目标评论句子进行检查;
提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。

8、
  根据权利要求5的方法,其中步骤E进一步包括:
在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;
在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及
在结果表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。

说明书

一种产品参数获取系统和方法
技术领域
本发明涉及一种产品参数获取系统和方法,尤其是涉及一种面向领域的产品评论中自动获取产品各项参数的系统和方法。
背景技术
目前,从产品评论中自动获取产品参数已经有了一些研究,主要有两种方法:基于词频统计的方法和基于规则的方法。
基于词频统计的方法,主要是通过统计评论中各个词或短语出现的频率,将出现频率较高的名词或名词短语作为备选的产品参数,并通过一些去噪规则去掉一些噪音。现有的基于词频统计的方法,前提假设是出现频率高的才可能是产品参数,但是有些时候评论数据中可能会存在出现频率很低的产品参数,这样利用基于词频统计的方法就获取不到这些低频的参数了。而且通过去噪规则处理以后,得到的产品参数中仍然会存在大量的噪音。
基于规则的方法,主要是通过事先手工的设定一些获取规则,然后将这些获取规则应用到用户提交的产品评论中,获取满足规则的词或短语,作为产品的参数。基于规则的方法比较简单,最大的缺陷是这些事先设定的规则不能跨领域使用,不同类的产品需要不同的获取规则。
现有的方法存在很大的应用缺陷,不是满足不了跨领域的需求,就是达不到较高的召回率。
发明内容
本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出一种一种产品参数获取系统和方法。
在一个方面中,根据本发明的产品参数获取系统包括:目标评论词频统计单元,用于统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;产品评论词频统计单元,用于统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;相关度计算单元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;表达模式抽取单元,用于抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。
在这个方面中,其中利用以下公式来计算词表中每个词的相关度:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>
在这个方面中,其中表达模式抽取单元进一步包括:检查模块,用于对包含结果表中的某个词的每条目标评论句子进行检查;提取模块,用于提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。
在这个方面中,其中匹配单元进一步包括:查找模块,用于在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;新参数词获取模块,用于在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及新参数词添加模块,用于在结果表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。
在另一个方面中,根据本发明的产品参数获取方法包括:A、统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;B、统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;C、利用步骤A和B的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;D、抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;E、通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。
在这个方面中,其中利用以下公式来计算词表中每个词的相关度:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>
在这个方面中,其中步骤D进一步包括:对包含结果表中的某个词的每条目标评论句子进行检查;提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。
在这个方面中,其中步骤E进一步包括:在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及在结果表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。
通过本发明,可以有效的支持跨领域的产品参数词获取。通过借助不同领域的产品评论数据,并且能够自动的获取已有产品参数的表达模式,而不需要人为来设定该领域内的表达规则,可以有效的支持跨领域的产品参数获取,同时又保证了较高的效率。同时,本发明通过限制候选词的相关度提高去噪的效率,使结果更加准确;并且通过获取已经得到的产品参数的表达模式,用这些模式可以获取更多的隐藏的产品参数,提高了召回率。
附图说明
结合随后的附图,从下面的详细说明中可显而易见的得出本发明的上述及其他目的、特征及优点。在附图中:
图1给出了目标评论数据的一个示例;
图2给出了表达模式表的一个示例;
图3给出了根据本发明的产品参数获取方法的流程图;
图4给出了根据本发明的产品参数获取系统的方框图;
图5给出了根据本发明的表达模式抽取单元的详细方框图;
图6给出了根据本发明的匹配单元的详细方框图;
图7给出了能够实施本发明的一个示例环境的示意图。
具体实施方式
为了更全面地理解本发明及其优点,下面结合附图及具体实施例对本发明做进一步详细地说明。
首先,本发明给定的是一系列具体产品的用户评论信息,作为文本格式存储。
图1是目标评论数据的一个实例说明,其中下划线标出的那些词就是要获取的产品参数词。对于任意给定的一个具体产品名称而言,该产品名称对应一篇目标评论文本和若干不同领域的产品评论文本。
接下来,参考图3,对根据本发明的产品参数获取方法进行说明。
如图3所示,根据本发明的产品参数获取方法包括步骤:
A、统计目标评论中各个名词或名词词组出现的频率(即词频)并排序,并得到一个词表。这些名词和名词短语将作为候选的产品参数进行后面的方法的筛选。通过这个步骤,可以将目标评论中所出现的高频的产品参数排在前面。在下文中,将词表中的所有词统称为候选词。
B、对步骤A中得到的词表中的每个词,借助于不同领域内的产品评论(这里的不同领域的产品评论是事先给定的输入数据)得到其出现频率并记录,同时查看出现该词的每个中出现形容词的子句数目并记录。在这里,所谓“评论子句”是指某条完整评论的用标点分隔的某个句子片段。如图1中可以看出第一句评论“用完感觉不错,好像有润色效果,味道也很清淡,推荐。”,该句中“用完感觉不错”,“好像有润色效果”等子句均为一条“评论子句”。
C、利用步骤A和B的统计结果,根据以下公式来得到词表中每个词的相关度。将相关度大于某个设定值的词作为结果表中的产品参数:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>
其中Wi是步骤B所得的词表中的词,是Wi在目标产品评论中出现的频率,是Wi在不同领域产品评论中出现的频率,No是目标产品评论的条数,No是不同领域产品评论的条数,是目标评论中在词Wi周围存在形容词的产品评论的条数,ε是当分母为0时的平滑参数。式中乘号左边的式子表示当前词Wi在目标产品评论句子和不同领域的产品评论句子中各自出现的比例的比值,乘号右边的式子表示Wi在目标评论句子中周围存在形容词的句子所占的比例。这两个比值是本发明给出的关于每个词与产品参数的相关度。该相关度越大,表明该词越可能是产品参数。
D、抽取结果表中的每个产品参数在目标产品评论中的表达模式,并将其记录成一个产品参数表达模式表。
具体地说,对于产品参数结果表(步骤C产生的结果表)中的某个词Wi而言,检查包含该词的每条目标评论句子,提取从该词开始到周围最近的形容词(包括形容词)的这部分句子片段作为该词在该句子中的表达模式。表达模式是形如“W+XXXXX”或“XXXXX+W”这样的形式,“W”表示一个泛指的产品参数词,“XXXXX”是该产品参数词到最近的形容词(包含该形容词)的句子片段。
例如:一条评论:“泡沫 相当 丰富”,假设由前面的步骤得知“泡沫”是产品参数词,则其对应的表达模式是“W+相当 丰富”。图2给出的是从图1所给的实例中获取的产品参数词的表达模式实例。
E、通过在目标评论句子中匹配这些表达模式,找到那些隐藏的出现频率不高的产品参数词。从图2中可以看出表达模式表中每个表达模式的样式以及该表达模式出现的频率。
具体地说,对于表达模式表中的表达模式而言,从出现频率最高的表达模式开始,查找目标评论句子中是否存在与该表达模式相匹配的评论,若存在匹配,则得到新的产品参数词并查找结果参数表中是否存在该新参数词,若已经存在,则跳过;若不存在,则将该新参数词加入到结果参数表中。这样通过处理所有的表达模式,将新产生的参数词加入到结果表中,形成最终的产品参数词表。
例如:已知表达模式“W+相当 丰富”,而且若目标评论中存在一条评论“气泡 相当 丰富”,则该模式能够匹配这条评论,且得出“气泡”是一个新词。
此外,优选地,根据本发明的方法还可在执行步骤A之前执行步骤:利用现有词性标注方法(为现有技术)对目标产品评论进行词性标注,每个标注单元都对应一个词性标记,如名词,形容词等,例如气泡/n 相当/d 丰富/a。
接下来,参考图4,对根据本发明的产品参数获取系统进行说明。
如图4所示,根据本发明的产品参数获取系统包括目标评论词频统计单元、产品评论词频统计单元、相关度计算单元、表达模式抽取单元、以及匹配单元。
目标评论词频统计单元用于统计目标评论中各个名词或名词词组出现的频率(即词频)并排序,并得到一个词表。这些名词和名词短语将作为候选的产品参数进行后面的方法的筛选。由此,可以将目标评论中所出现的高频的产品参数排在前面;
产品评论词频统计单元用于统计词表中的每个词在不同领域内的产品评论(这里的不同领域的产品评论是事先给定的输入数据)的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录。
相关度计算单元用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度。将相关度大于某个设定值的词作为结果表中的产品参数。具体地说,根据以下公式来计算每个词的相关度:
DOA(Wi)=Freqwio/No(Freqwio/No)+ϵ*NwiadjFreqwio]]>
表达模式抽取单元用于抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表。
具体地说,如图5所示,该表达模式抽取单元进一步包括检查模块和提取模块。
检查模块用于对包含产品参数结果表中的某个词Wi的每条目标评论句子进行检查。
提取模块用于提取从该词开始到周围最近的形容词(包括形容词)的这部分句子片段作为该词在该句子中的表达模式。表达模式是形如“W+XXXXX”或“XXXXX+W”这样的形式,“W”表示一个泛指的产品参数词,“XXXXX”是该产品参数词到最近的形容词(包含该形容词)的句子片段。
匹配单元用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。
具体地说,如图6所示,该匹配单元进一步查找模块、新参数词获取模块、以及新参数词添加模块。
查找模块用于在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;
新参数词获取模块用于在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词。
新参数词添加模块用于在结果参数表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。
此外,优选地,根据本发明的系统还进一步包括词性标注模块,该词性标注模块用于利用现有词性标注方法对目标产品评论进行词性标注,每个标注单元都对应一个词性标记,如名词,形容词等,例如气泡/n 相当/d 丰富/a。
下面参考图7,对本发明的硬件结构示例进行说明。毫无疑问,图4-6所示的每个单元或模块都可以用一个专用硬件来构成,同时这些块同样也可以用通用信息处理设备来实现。
如图7所示,该计算机包括CPU外网单元,其中该单元包含了CPU、RAM、ROM、以及输入/输出控制器,并且所有这些部件是透过主机控制器而互连。该计算机还包括通信接口、存储设备、软盘驱动器、以及图形控制器。特别地,软盘驱动器可对软盘进行读写,图形控制器则驱动显示器。
CPU依照存储在ROM、BIOS、以及RAM中的程序来操作,并且由此控制每一个部分。目标评论和产品评论可通过多种方式输入设备输入,如光驱,键盘输入或通过网络传输。目标评论和产品评论随后会被读入存储设备。存储设备还存储供计算机使用的本发明的程序、应用、OS等等的代码和数据。此后,程序和数据将被加载到RAM中以供CPU使用。
从上述结构实例中可以看出,任何具有通用计算机功能的硬件都可以用作本发明需要的硬件。应该指出的是,图7仅示出了用于实施本发明实施例的硬件结构。相应地,对其他各种结构来说,只要对其可以应用本发明实施例,那么这些结构都是可行的。此外,每一个上述例示组件未必是本发明的必要组件。另外,本发明还可以使用硬件、软件、或者软硬件组合来实现。
至此,已对本发明进行了描述。通过上述可知,本发明既提高了从产品评论中自动获取产品参数的准确度,又提高了获取的召回率。本发明正是通过限制候选词的相关度提高去噪的效率,使结果更加准确,并且通过获取已经得到的产品参数的表达模式,用这些模式可以获取更多的隐藏的产品参数,提高了召回率。此外,本发明有效的支持跨领域的产品参数词获取。通过借助不同领域的产品评论数据,并且能够自动的获取已有产品参数的表达规则,而不需要人为的设定,可以有效的支持跨领域的产品参数获取,同时又保证了较高的效率。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其做出各种修改。

一种产品参数获取系统和方法.pdf_第1页
第1页 / 共17页
一种产品参数获取系统和方法.pdf_第2页
第2页 / 共17页
一种产品参数获取系统和方法.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种产品参数获取系统和方法.pdf》由会员分享,可在线阅读,更多相关《一种产品参数获取系统和方法.pdf(17页珍藏版)》请在专利查询网上搜索。

一种产品参数获取系统和方法,其中该系统包括:目标评论词频统计单元,用于统计目标评论中各个名词的词频并得到一个词表;产品评论词频统计单元,用于统计每个词在产品评论的词频,同时查看出现该词的中出现形容词的子句数目;相关度计算单元,用于计算词表中每个词的相关度;表达模式抽取单元,用于抽取每个产品参数在目标产品评论中的表达模式并将其记录成表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1