《一种基于渐进降维的电子商务领域词汇语义关系获取方法.pdf》由会员分享,可在线阅读,更多相关《一种基于渐进降维的电子商务领域词汇语义关系获取方法.pdf(7页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103324611 A (43)申请公布日 2013.09.25 CN 103324611 A *CN103324611A* (21)申请号 201310277195.X (22)申请日 2013.07.03 G06F 17/27(2006.01) (71)申请人 姚明东 地址 410082 湖南省长沙市岳麓区麓山名园 D2-301 (72)发明人 姚明东 范英磊 陈浩 (54) 发明名称 一种基于渐进降维的电子商务领域词汇语义 关系获取方法 (57) 摘要 本发明公开了一种基于渐进降维的电子商务 领域词汇语义关系获取方法, 包括以下步骤 : A1 : 获取电子商务网。
2、站第三级分类商品特征词的语 义关系 ; A2 : 渐进获取电子商务网站中同一第三 级分类下商品较重要词汇的语义关系, 词汇选取 依据权重依次降低 ; A3 : 获取电子商务网站中同 一个第三级分类不同的商品中词汇的语义关系 ; A4 : 获取电子商务网站中大量带有一定感情色彩 描述性词汇的语义关系 ; A5 : 当有少量商品增加 时, 需要在增加商品所在的第三级分类中重新计 算, 降低计算复杂度, 当有批量商品增加时才需要 完全更新。 采用渐进降维方式分析词汇语义关系, 生成针对电子商务领域的语义字典, 有效解决传 统潜在语义处理中计算复杂度高、 效率低等问题。 (51)Int.Cl. 权利要。
3、求书 2 页 说明书 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 (10)申请公布号 CN 103324611 A CN 103324611 A *CN103324611A* 1/2 页 2 1. 一种基于渐进降维的电子商务领域词汇语义关系获取方法, 其特征在于, 包括以下 步骤 : A1 : 获取电子商务网站第三级分类商品特征词的语义关系, 流程如下 : A11 对电子商务网站中每一个商品, 根据预设的比例提取权重最高的词作为特征词, 每一个三级分类下的商品及其特征词进行汇聚, 用特征词作为行、 商品作为列形成特征 词 - 商品矩阵 Amn。
4、; A12 对矩阵 Amn。做奇异矩阵分解 ; 其中 S0 diag(1, 2,m), 1 2 r r+1 0, r 为矩阵 A 的秩 ; A13 选取 S0的前 k 个最大的奇异值, 其余置为 0, 得到新的对角阵 S ; 取厂 0和 D0的 前 k 个列得到矩阵 T 和 D ; 计算 Ak TSDT, 得到原始矩阵 A 的一个近似值 Ak, 其秩为 k, A14 计算, 从矩阵的第 i 行第 j 列获取词汇 i 和词汇 j 的关联度 ; A15 根据预设的关联度阀值, 从特征词 - 商品矩阵 Amn中自动抽取商品特征值的同义 词、 近义词和上下位关系词 ; A2 : 渐进获取电子商务网站中。
5、同一第三级分类下商品较重要词汇的语义关系, 词汇选 取依据权重依次降低, 具体流程如下 : A21 对包含在同一个第三级分类下的商品, 逐渐提取更大比例的词作为重要词, 每一个 最低层分类下的商品及其重要词进行汇聚, 用重要词作为行、 商品作为列形成重要词 - 商 品矩阵, 应用已经获取的同义词结果, 将同义词进行合并, 在矩阵中所有同义词用单一维度 表示, 并调整相应的矩阵元素的值 ; A22 对重要词 - 商品矩阵执行 A12-A15, 获取更多词的语义关系 ; A23 反复执行, 获取更多的语义关系 ; A3 : 获取电子商务网站中同一个第三级分类不同的商品中词汇的语义关系, 具体流程 。
6、如下 : A31 对于同一个第三级分类下的商品, 利用已经获得的语义关系, 进行聚类形成 n 个 簇 ; A32 计算每一个簇的特征词, 计算公式如下 : 其中 : |S| : 聚类簇中商品个数, : 商品信息向量, 向量中元素为商品包含的主要词汇的权重, 对于向量中的元素基于 已经获得的同义关系进行同义词的合并 ; A33 对各个簇的中心向量做归一化处理, 基于获得的聚类簇及所有聚类簇的特征词形 成特征词 - 聚类矩阵, 其中每一行代表一个特征词向量, 每一列代表一个聚类簇向量 ; 对特 权 利 要 求 书 CN 103324611 A 2 2/2 页 3 征词 - 聚类矩阵执行步 A12-。
7、A14, 获取更多词的语义关系度 ; 根据语义关联度抽取聚类簇特 征词的同义词、 近义词、 上下位关系词和商品 - 附件关系词 : A4 : 获取电子商务网站中大量带有一定感情色彩描述性词汇的语义关系 ; 具体流程如 下 : A41 汇集包含在每一个第三级分类下的商品, 作为一个簇, 相对于步骤 3 粒度更粗 ; 便 于描述性词汇的汇聚 ; A42 计算每一个簇的中心向量 : 获取簇中各商品中大量出现的词, 通常为带有一定感 情色彩的描述性词汇 : 计算方法如 A32 所示 ; A43 对各个簇的中心向量做归一化处理, 基于所有分类下的商品聚类簇及所有聚类簇 的词汇形成词语-聚类簇矩阵Amn,。
8、 其中每一行代表一个词向量, 每一列代表一个大的聚类 簇向量 ; 对词语 - 聚类簇矩阵 Amn执行 A12-A14, 获取更多词的语义关系度 ; 根据语义关联 度抽取聚类簇特征词的同义词、 近义词、 上下位关系词和商品 - 附件关系词 ; A5 : 当有少量商品增加时, 需要在增加商品所在的第三级分类中重新计算, 降低计算复 杂度, 当有批量商品增加时才需要完全更新。 权 利 要 求 书 CN 103324611 A 3 1/4 页 4 一种基于渐进降维的电子商务领域词汇语义关系获取方法 技术领域 0001 本发明主要面向电子商务领域, 具体涉及一种基于渐进降维的电子商务领域词汇 语义关系获。
9、取方法。 背景技术 0002 为提升电子商务推荐效果, 需分析不同词汇之间语义关联关系, 如何自动获取电 子商务领域中同义词、 近义词以及上下位关系词, 进而挖掘词汇的语义关系是电子商务个 性化推荐的关键技术之一。传统的方法存在收录不全、 效率低以及维护更新困难等缺点。 发明内容 0003 本发明所要解决的技术问题是针对现有技术的不足提供一种基于渐进降维的电 子商务领域词汇语义关系获取方法。 0004 本发明的技术方案如下 : 0005 一种基于渐进降维的电子商务领域词汇语义关系获取方法, 包括以下步骤 : 0006 A1 : 获取电子商务网站第三级分类商品特征词的语义关系, 流程如下 : 0。
10、007 A11 对电子商务网站中每一个商品, 根据预设的比例提取权重最高的词作为特征 词, 每一个三级分类下的商品及其特征词进行汇聚, 用特征词作为行、 商品作为列形成特征 词 - 商品矩阵 Amn; 0008 A12 对矩阵 Amn做奇异矩阵分解 ; 0009 0010 其中 S0 diag(1, 2,m), 1 2 r r+1 0, r 为矩 阵 A 的秩 ; 0011 A13 选取 S0的前 k 个最大的奇异值, 其余置为 0, 得到新的对角阵 s : 取 T0和 D0 的前 k 个列得到矩阵 T 和 D ; 计算 Ak TSDT, 得到原始矩阵 A 的一个近似值 Ak, 其秩为 k, 。
11、0012 A14 计算 Ak*Ak, 从矩阵的第 i 行第 j 列获取词汇 i 和词汇 j 的关联度 ; 0013 A15 根据预设的关联度阀值, 从特征词 - 商品矩阵 Amn中自动抽取商品特征值的 同义词、 近义词和上下位关系词 ; 0014 A2 : 渐进获取电子商务网站中同一第三级分类下商品较重要词汇的语义关系, 词 汇选取依据权重依次降低, 具体流程如下 : 0015 A21 对包含在同一个第三级分类下的商品, 逐渐提取更大比例的词作为重要词, 每一个最低层分类下的商品及其重要词进行汇聚, 用重要词作为行、 商品作为列形成重要 词 - 商品矩阵, 应用已经获取的同义词结果, 将同义词。
12、进行合并, 在矩阵中所有同义词用单 一维度表示, 并调整相应的矩阵元素的值 ; 0016 A22 对重要词 - 商品矩阵执行 A12-A15, 获取更多词的语义关系 ; 说 明 书 CN 103324611 A 4 2/4 页 5 0017 A23 反复执行, 获取更多的语义关系 ; 0018 A3 : 获取电子商务网站中同一个第三级分类不同的商品中词汇的语义关系, 具体 流程如下 : 0019 A31 对于同一个第三级分类下的商品, 利用已经获得的语义关系, 进行聚类形成 n 个簇 ; 0020 A32 计算每一个簇的特征词, 计算公式如下 : 0021 0022 其中 : 0023 |S|。
13、; 聚类簇中商品个数, 0024 : 商品信息向量, 向量中元素为商品包含的主要词汇的权重, 对于向量中的元素 基于已经获得的同义关系进行同义词的合并 ; 0025 A33 对各个簇的中心向量做归一化处理, 基于获得的聚类簇及所有聚类簇的特征 词形成特征词 - 聚类矩阵, 其中每一行代表一个特征词向量, 每一列代表一个聚类簇向量 ; 对特征词 - 聚类矩阵执行步 A12-A14, 获取更多词的语义关系度 ; 根据语义关联度抽取聚类 簇特征词的同义词、 近义词、 上下位关系词和商品 - 附件关系词 ; 0026 A4 : 获取电子商务网站中大量带有一定感情色彩描述性词汇的语义关系。该类词 汇对做。
14、基于语义的搜索和推荐具有一定的价值, 对于问答系统意义重大。具体流程如下 : 0027 A41 汇集包含在每一个第三级分类下的商品, 作为一个簇, 相对于步骤 3 粒度更 粗 ; 便于描述性词汇的汇聚 ; 0028 A42 计算每一个簇的中心向量 ; 获取簇中各商品中大量出现的词, 通常为带有一 定感情色彩的描述性词汇 ; 计算方法如 A32 所示 ; 0029 A43 对各个簇的中心向量做归一化处理, 基于所有分类下的商品聚类簇及所有聚 类簇的词汇形成词语-聚类簇矩阵Amn, 其中每一行代表一个词向量, 每一列代表一个大的 聚类簇向量 ; 对词语 - 聚类簇矩阵 Amn执行 A12-A14,。
15、 获取更多词的语义关系度 ; 根据语义 关联度抽取聚类簇特征词的同义词、 近义词、 上下位关系词和商品 - 附件关系词 ; 0030 A5 : 当有少量商品增加时, 需要在增加商品所在的第三级分类中重新计算, 降低计 算复杂度, 当有批量商品增加时才需要完全更新。 0031 本发明采用渐进降维方式分析词汇语义关系, 生成针对电子商务领域的语义字 典, 有效解决传统潜在语义处理中计算复杂度高、 效率低等问题。 具体实施方式 0032 以下结合具体实施例, 对本发明进行详细说明。 0033 步骤 1 : 获取电子商务网站第三级分类 ( 国内外电子商务网站第三级分类都是对 应具体商品, 比如冰箱、 。
16、洗衣机、 平板电视等 ) 商品特征词的语义关系, 流程如下 : 0034 1) 对电子商务网站中每一个商品, 根据一定的比例提取权重最高的词作为特征 词, 每一个三级分类下的商品及其特征词进行汇聚, 用特征词作为行、 商品作为列形成特征 词 - 商品矩阵 Amn 0035 2) 对矩阵 Amn做奇异矩阵分解 说 明 书 CN 103324611 A 5 3/4 页 6 0036 0037 其中 S0 diag(1, 2,m), 1 2 r r+1 0, r 为矩 阵 A 的秩 0038 3) 选取 S0的前 k 个最大的奇异值, 其余置为 0, 得到新的对角阵 s ; 取 T0和 D0 的 前。
17、 k 个列得到矩阵 T 和 D。计算 Ak TSDT, 得到原始矩阵 A 的一个近似值 Ak, 其秩为 k, 0039 4) 计算, 从矩阵的第 i 行第 j 列获取词汇 i 和词汇 j 的关联度 0040 5) 根据预设的关联度阀值, 从特征词 - 商品矩阵 Amn中自动抽取商品特征值的同 义词、 近义词和上下位关系词等。 0041 步骤 2 : 渐进获取电子商务网站中同一第三级分类下商品较重要词汇的语义关 系, 词汇选取依据权重依次降低。具体流程如下 : 0042 1) 对包含在同一个第三级分类下的商品, 逐渐提取更大比例的词作为重要词, 每一个最低层分类下的商品及其重要词进行汇聚, 用重。
18、要词作为行、 商品作为列形成重要 词 - 商品矩阵, 应用已经获取的同义词结果, 将同义词进行合并, 在矩阵中所有同义词用单 一维度表示, 比如洗面乳和洁面乳, 用洗面乳 / 洁面乳单一维度表示, 并调整相应的矩阵元 素的值。 0043 2) 对重要词 - 商品矩阵执行步骤 1 中的 2)-5), 获取更多词的语义关系。 0044 3) 反复执行, 获取更多的语义关系 0045 步骤 3 : 获取电子商务网站中同一个第三级分类不同的商品中词汇的语义关系, 具体流程如下 : 0046 1) 对于同一个第三级分类下的商品, 利用已经获得的语义关系, 进行聚类形成 n 个簇。 0047 2) 计算每。
19、一个簇的特征词, 计算公式如下 : 0048 0049 其中 : 0050 |S| : 聚类簇中商品个数, 0051 : 商品信息向量, 向量中元素为商品包含的主要词汇的权重, 可以基于一定的比 例截取权重较大的词语作为向量元素, 降低计算复杂度, 同时排除噪声干扰。 对于向量中的 元素基于已经获得的同义关系进行同义词的合并。 0052 3) 对各个簇的中心向量做归一化处理, 基于获得的聚类簇及所有聚类簇的特征词 形成特征词 - 聚类矩阵, 其中每一行代表一个特征词向量, 每一列代表一个聚类簇向量。对 新的矩阵执行步骤1中的2)-4), 获取更多词的语义关系度。 根据语义关联度抽取聚类簇特 征。
20、词的同义词、 近义词、 上下位关系词和商品 - 附件关系词。 0053 步骤 4 : 获取电子商务网站中大量带有一定感情色彩描述性词汇的语义关系。该 类词汇对做基于语义的搜索和推荐具有一定的价值, 对于问答系统意义重大。具体流程如 说 明 书 CN 103324611 A 6 4/4 页 7 下 : 0054 1) 汇集包含在每一个第三级分类下的商品, 作为一个簇, 相对于步骤 3 粒度更粗。 便于描述性词汇的汇聚。 0055 2) 计算每一个簇的中心向量。获取簇中各商品中大量出现的词, 通常为带有一定 感情色彩的描述性词汇。计算方法如步骤 3 中 2) 所示。 0056 3) 对各个簇的中心。
21、向量做归一化处理, 基于所有分类下的商品聚类簇及所有聚类 簇的词汇形成词语-聚类簇矩阵Amn, 其中每一行代表一个词向量, 每一列代表一个大的聚 类簇向量。对新的矩阵执行步骤 1 中的 2)-4), 获取更多词的语义关系度。根据语义关联度 抽取聚类簇特征词的同义词、 近义词、 上下位关系词和商品 - 附件关系词。 0057 步骤 5 : 当有少量商品增加时, 只需要在增加商品所在的第三级分类中重新计算, 降低计算复杂度。当有批量商品增加时才需要完全更新。 0058 应当理解的是, 对本领域普通技术人员来说, 可以根据上述说明加以改进或变换, 而所有这些改进和变换都应属于本发明所附权利要求的保护范围。 说 明 书 CN 103324611 A 7 。