《搜索成套图像的方法和设备.pdf》由会员分享,可在线阅读,更多相关《搜索成套图像的方法和设备.pdf(22页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103177110 A (43)申请公布日 2013.06.26 CN 103177110 A *CN103177110A* (21)申请号 201310105195.1 (22)申请日 2013.03.28 G06F 17/30(2006.01) (71)申请人 百度在线网络技术 (北京) 有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦三层 (72)发明人 郭荣锋 陶哲 丁锐 宁贵文 (74)专利代理机构 北京铭硕知识产权代理有限 公司 11286 代理人 张川绪 罗延红 (54) 发明名称 搜索成套图像的方法和设备 (57) 摘要 一种搜索。
2、成套图像的方法和设备。所述方法 包括 : 接收第一图像 ; 获取第一图像的套图集关 联信息 ; 根据套图集关联信息获取至少一个套图 集, 其中, 套图关联信息表示与第一图像相关的套 图集的信息。根据本发明可以根据输入的图像来 搜索与输入的图像相关联的成套图像。 (51)Int.Cl. 权利要求书 4 页 说明书 12 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书12页 附图5页 (10)申请公布号 CN 103177110 A CN 103177110 A *CN103177110A* 1/4 页 2 1. 一种搜索成套图像的方法, 包括。
3、 : 接收第一图像 ; 获取第一图像的套图集关联信息 ; 根据套图集关联信息获取至少一个套图集, 其中, 套图关联信息表示与第一图像相关的套图集的信息。 2. 根据权利要求 1 所述的方法, 其中, 获取第一图像的套图集关联信息的步骤包括 : 从预先获得的多个套图集中确定第一图像所在的套图集 ; 获取确定的第一图像所在的套图集的信息和 / 或确定与第一图像所在的套图集存在 关联的套图集以获取所述关联的套图集的信息。 3. 根据权利要求 2 所述的方法, 其中, 确定与第一图像所在的套图集存在关联的套图 集的步骤包括预先或实时执行下述步骤 : 根据图像特征基于图像相似度对预先获得的多个套图集中的。
4、图像进行聚类 ; 根据聚类结果确定套图集之间的关联性, 其中, 当任意两个套图集之间的连通的数量 大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中属于一个类的一个图 像与另一套图集中属于所述一个类的一个图像形成一个连通 ; 根据确定的套图集之间的关联性, 获取与第一图像所在的套图集存在关联的套图集。 4.根据权利要求2或3所述的方法, 其中, 确定与第一图像所在的套图集存在关联的套 图集的步骤包括预先或实时执行下述步骤 : 根据预先获得的多个套图集的关键词来确定套图集之间的关联性 ; 根据确定的套图集之间的关联性, 获取与第一图像所在的套图集存在关联的套图集, 其中, 当任。
5、意两个套图集的关键词的重合数量大于预定阈值时和 / 或当两个套图集之 间的连通的数量大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中具有 一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通, 关联关键词表示两个套图集之间重合的关键词。 5. 根据权利要求 3 所述的方法, 其中, 获取与第一图像所在的套图集存在关联的套图 集的步骤包括 : 当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时, 仅获取具有与第一图像形成连通的图像的套图集的信息。 6. 根据权利要求 4 所述的方法, 其中, 获取与第一图像所在的套图集存在关联的套图 集的步。
6、骤包括 : 当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的 关键词时, 仅获取在确定的套图集之中的至少具有所述至少一个关键词之一的套图集的信 息。 7. 根据权利要求 4 所述的方法, 其中, 针对预先获得的多个套图集中的每个套图集中 的每个图像的描述文本进行切词, 从切出的词中选择在预定的词表中存在的词, 以获得每 个图像的关键词, 其中, 对于任意一个套图集, 将在所述套图集的图像的关键词之中出现次数排名靠前 的预定数量的关键词作为该套图集的关键词。 8. 根据权利要求 1 所述的方法, 还包括 : 从获取的至少一个套图集中筛选套图集的步 骤 : 根据图像浏览历史记录, 获。
7、取先前浏览的图像的关键词 ; 权 利 要 求 书 CN 103177110 A 2 2/4 页 3 根据浏览频率对从获取的关键词进行排序 ; 从高到低选取预定数量的关键词 ; 从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图 集。 9. 根据权利要求 8 所述的方法, 其中, 当存在多个具有所述预定数量的关键词之中最 多关键词的套图集时, 根据套图集的质量对套图集进行排序。 10. 根据权利要求 2 所述的方法, 其中, 通过下述步骤预先获得多个套图集 : 抓取预定数量的网页 ; 获取所述网页的至少一级深度的链接指向的第二图像 ; 从第二图像之中选择面积大于预定阈值的第。
8、三图像 ; 根据第三图像的网址的构成特征, 对第三图像进行分组, 以获得至少一个套图集。 11. 根据权利要求 10 所述的方法, 其中, 获取所述网页的至少一级深度的链接指向的 第二图像的步骤包括 : 获取所述网页中的图像作为第二图像 ; 当所述网页的至少一级深度的链接中存在表示翻页的链接时, 获取表示翻页的链接所 指向的网页中的图像作为第二图像。 12. 根据权利要求 10 所述的方法, 其中, 预先获得多个套图集的步骤还包括 : 从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。 13. 根据权利要求 10 或 12 所述的方法, 预先获得多个套图集的步骤还包括 : 从获得的 。
9、至少一个套图集中选择图像数量大于预定阈值的套图集。 14. 根据权利要求 12 所述的方法, 其中, 面积波动率表示为 S, 其中, S (Imax-Imin)/Iave, Imax 表示套图集中的面积最大的图像的面积, Imin 表示套图集中面积最小的图像的 面积, Iave 表示套图集中的图像的面积的均值。 15. 根据权利要求 10 所述的方法, 还包括 : 确定获得的至少一个套图集的质量, 其中, 根据下述因素中的至少一个因素确定套图集的质量 : 套图集中的图像的质量、 套图集中的 图像的面积、 套图集中的图像的数量、 套图集中的图像的关键词与套图集的关键词的匹配 程度、 套图集中的图。
10、像在互联网上的引用数。 16. 一种搜索成套图像的设备, 包括 : 接收单元, 接收第一图像 ; 信息获取单元, 获取第一图像的套图集关联信息 ; 套图集获取单元, 根据套图集关联信息获取至少一个套图集, 其中, 套图关联信息表示与第一图像相关的套图集的信息。 17. 根据权利要求 16 所述的设备, 其中, 关联信息获取单元包括 : 套图集确定单元, 从预先获得的多个套图集中确定第一图像所在的套图集 ; 关联信息获取单元, 获取确定的第一图像所在的套图集的信息和 / 或确定与第一图像 所在的套图集存在关联的套图集以获取所述关联的套图集的信息。 18. 根据权利要求 17 所述的设备, 其中,。
11、 关联信息获取单元包括 : 聚类单元, 根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚 权 利 要 求 书 CN 103177110 A 3 3/4 页 4 类 ; 第一关联性确定单元, 根据聚类结果确定套图集之间的关联性, 其中, 当任意两个套图 集之间的连通的数量大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中 属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通 ; 第一关联性提取单元, 根据确定的套图集之间的关联性, 获取与第一图像所在的套图 集存在关联的套图集。 19. 根据权利要求 16 或 18 所述的设备, 其中, 关联信息。
12、获取单元包括 : 第二关联性确定单元, 根据预先获得的多个套图集的关键词来确定套图集之间的关联 性 ; 第二关联性提取单元, 根据确定的套图集之间的关联性, 获取与第一图像所在的套图 集存在关联的套图集, 其中, 当任意两个套图集的关键词的重合数量大于预定阈值时和 / 或当两个套图集之 间的连通的数量大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中具有 一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通, 关联关键词表示两个套图集之间重合的关键词。 20. 根据权利要求 18 所述的设备, 其中, 当在确定的套图集之中存在具有与第一图像 形成连通的。
13、图像的套图集时, 第一关联性提取单元仅获取具有与第一图像形成连通的图像 的套图集的信息。 21. 根据权利要求 19 所述的设备, 其中, 当第一图像的关键词中的至少一个关键词作 为第一图像所在的套图集的关键词时, 第二关联性提取单元仅获取在确定的套图集之中的 具有所述至少一个关键词之一的套图集的信息。 22. 根据权利要求 19 所述的设备, 其中, 针对预先获得的多个套图集中的每个套图集 中的每个图像的描述文本进行切词, 从切出的词中选择在预定的词表中存在的词, 以获得 每个图像的关键词, 其中, 对于任意一个套图集, 将在所述套图集的图像的关键词之中出现次数排名靠前 的预定数量的关键词作。
14、为该套图集的关键词。 23. 根据权利要求 16 所述的设备, 还包括 : 筛选单元, 用于从获取的至少一个套图集中 筛选套图集, 所述筛选单元包括 : 历史关键词获取单元, 根据图像浏览历史记录, 获取先前浏览的图像的关键词 ; 排序单元, 根据浏览频率对从获取的关键词进行排序 ; 关键词选取单元, 从高到低选取预定数量的关键词 ; 套图集选择单元, 从获取的至少一个套图集中选择具有所述预定数量的关键词之中最 多关键词的套图集。 24. 根据权利要求 23 所述的设备, 其中, 当存在多个具有所述预定数量的关键词之中 最多关键词的套图集时, 套图集获取单元根据套图集的质量对套图集进行排序。 。
15、25. 根据权利要求 17 所述的设备, 还包括 : 套图集搜索单元, 用于预先获得多个套图 集, 其中, 套图集搜索单元包括 : 网页抓取单元, 抓取预定数量的网页 ; 链接图像获取单元, 获取所述网页的至少一级深度的链接指向的第二图像 ; 权 利 要 求 书 CN 103177110 A 4 4/4 页 5 第一图像筛选单元, 从第二图像之中选择面积大于预定阈值的第三图像 ; 分组单元, 根据第三图像的网址的构成特征, 对第三图像进行分组, 以获得至少一个套 图集。 26. 根据权利要求 25 所述的设备, 其中, 链接图像获取单元获取所述网页中的图像作 为第二图像, 当所述网页的至少一级。
16、深度的链接中存在表示翻页的链接时, 链接图像获取单元获取 表示翻页的链接所指向的网页中的图像作为第二图像。 27. 根据权利要求 26 所述的设备, 其中, 套图集搜索单元还包括第二图像筛选单元, 从 获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。 28. 根据权利要求 25 或 27 所述的设备, 其中, 套图集搜索单元还包括第三图像筛选单 元, 从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。 29. 根据权利要求 27 所述的设备, 其中, 面积波动率表示为 S, 其中, S (Imax-Imin)/Iave, Imax 表示套图集中的面积最大的图像的面积, Imi。
17、n 表示套图集中面积最小的图像的 面积, Iave 表示套图集中的图像的面积的均值。 30. 根据权利要求 16 或 25 所述的设备, 其中, 所述设备或套图集搜索单元还包括 : 质 量确定单元, 确定获得的至少一个套图集的质量, 其中, 根据下述因素中的至少一个因素确 定套图集的质量 : 套图集中的图像的质量、 套图集中的图像的面积、 套图集中的图像的数 量、 套图集中的图像的关键词与套图集的关键词的匹配程度、 套图集中的图像在互联网上 的引用数。 权 利 要 求 书 CN 103177110 A 5 1/12 页 6 搜索成套图像的方法和设备 技术领域 0001 本发明涉及图像搜索领域,。
18、 更具体地讲, 涉及一种搜索成套图像的方法和设备。 背景技术 0002 图像的表意性要远好于文本, 图像可以帮助人们更迅速、 更直观的获取信息。 随着 信息社会的发展, 人们对于网络的依存度越来越高, 对于在网络上进行图像获取的需求也 越来越大。 0003 在现有技术条件下, 用户通常需要输入文本关键字来进行图像的搜索, 搜索出来 的结果通常都是离散的。 然而, 随着人们对于网络信息需要的增加以及信息分享的增强, 网 络上的图像很多作为套图集而成套地出现。例如, 网络上的很多关于新闻事件、 教程 ( 例 如, 菜谱、 软件使用教程等)、 游记、 写真等的图像都是成套出现的。 此外, 这些图集可。
19、能被别 的网站转载、 引用, 在转载、 引用时可能由于某些原因转得不完整, 久而久之一套原本精心 编辑的图集可能会变成一张张单独的图像, 散落在互联网上, 很多用户看到的只是其中的 一两张, 不连贯也不完整。因此, 当用户拥有成套图像之一时, 可能希望看到整套图像或者 具有类似图像的整套图像。 此外, 网站也倾向于当用户在浏览某个图像时, 将相应地套图提 供给用户。此外, 当用户在浏览某个套图集时, 可能希望浏览相关联的其他套图集。 0004 因此, 需要一种搜索成套图像的技术, 以能够向用户提供套图集。 发明内容 0005 本发明提供一种搜索成套图像的方法和设备, 其能够根据输入的图像搜索出。
20、与该 图像相关的套图集。 0006 本发明的一方面提供一种搜索成套图像的方法, 包括 : 接收第一图像 ; 获取第一 图像的套图集关联信息 ; 根据套图集关联信息获取至少一个套图集, 其中, 套图关联信息表 示与第一图像相关的套图集的信息。 0007 可选地, 获取第一图像的套图集关联信息的步骤包括 : 从预先获得的多个套图集 中确定第一图像所在的套图集 ; 获取确定的第一图像所在的套图集的信息和 / 或确定与第 一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。 0008 可选地, 确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时 执行下述步骤 : 根据图像特征基。
21、于图像相似度对预先获得的多个套图集中的图像进行聚 类 ; 根据聚类结果确定套图集之间的关联性, 其中, 当任意两个套图集之间的连通的数量大 于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中属于一个类的一个图像 与另一套图集中属于所述一个类的一个图像形成一个连通 ; 根据确定的套图集之间的关联 性, 获取与第一图像所在的套图集存在关联的套图集。 0009 可选地, 确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时 执行下述步骤 : 根据预先获得的多个套图集的关键词来确定套图集之间的关联性 ; 根据确 定的套图集之间的关联性, 获取与第一图像所在的套图集存在关联的套。
22、图集, 其中, 当任意 说 明 书 CN 103177110 A 6 2/12 页 7 两个套图集的关键词的重合数量大于预定阈值时和 / 或当两个套图集之间的连通的数量 大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中具有一个关联关键词 的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通, 关联关键词表示 两个套图集之间重合的关键词。 0010 可选地, 获取与第一图像所在的套图集存在关联的套图集的步骤包括 : 当在确定 的套图集之中存在具有与第一图像形成连通的图像的套图集时, 仅获取具有与第一图像形 成连通的图像的套图集的信息。 0011 可选地, 获取与第一。
23、图像所在的套图集存在关联的套图集的步骤包括 : 当第一图 像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时, 仅获取在确定的 套图集之中的至少具有所述至少一个关键词之一的套图集的信息。 0012 可选地, 针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进 行切词, 从切出的词中选择在预定的词表中存在的词, 以获得每个图像的关键词, 其中, 对 于任意一个套图集, 将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的 关键词作为该套图集的关键词。 0013 可选地, 所述方法还包括 : 从获取的至少一个套图集中筛选套图集的步骤 : 根据 图像浏览历史记录, 获。
24、取先前浏览的图像的关键词 ; 根据浏览频率对从获取的关键词进行 排序 ; 从高到低选取预定数量的关键词 ; 从获取的至少一个套图集中选择具有所述预定数 量的关键词之中最多关键词的套图集。 0014 可选地, 当存在多个具有所述预定数量的关键词之中最多关键词的套图集时, 根 据套图集的质量对套图集进行排序。 0015 可选地, 通过下述步骤预先获得多个套图集 : 抓取预定数量的网页 ; 获取所述网 页的至少一级深度的链接指向的第二图像 ; 从第二图像之中选择面积大于预定阈值的第三 图像 ; 根据第三图像的网址的构成特征, 对第三图像进行分组, 以获得至少一个套图集。 0016 可选地, 获取所述。
25、网页的至少一级深度的链接指向的第二图像的步骤包括 : 获取 所述网页中的图像作为第二图像 ; 当所述网页的至少一级深度的链接中存在表示翻页的链 接时, 获取表示翻页的链接所指向的网页中的图像作为第二图像。 0017 可选地, 预先获得多个套图集的步骤还包括 : 从获得的至少一个套图集中选择面 积波动率小于预定阈值的套图集。 0018 可选地, 预先获得多个套图集的步骤还包括 : 从获得的至少一个套图集中选择图 像数量大于预定阈值的套图集。 0019 面积波动率可表示为 S, 0020 其中, S (Imax-Imin)/Iave, 0021 Imax 表示套图集中的面积最大的图像的面积, Im。
26、in 表示套图集中面积最小的图 像的面积, Iave 表示套图集中的图像的面积的均值。 0022 可选地, 所述方法还包括 : 确定获得的至少一个套图集的质量, 其中, 根据下述因 素中的至少一个因素确定套图集的质量 : 套图集中的图像的质量、 套图集中的图像的面积、 套图集中的图像的数量、 套图集中的图像的关键词与套图集的关键词的匹配程度、 套图集 中的图像在互联网上的引用数。 0023 根据本发明另一方面, 提供一种搜索成套图像的设备, 包括 : 接收单元, 接收第一 说 明 书 CN 103177110 A 7 3/12 页 8 图像 ; 信息获取单元, 获取第一图像的套图集关联信息 ;。
27、 套图集获取单元, 根据套图集关联 信息获取至少一个套图集, 其中, 套图关联信息表示与第一图像相关的套图集的信息。 0024 可选地, 关联信息获取单元包括 : 套图集确定单元, 从预先获得的多个套图集中确 定第一图像所在的套图集 ; 关联信息获取单元, 获取确定的第一图像所在的套图集的信息 和 / 或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。 0025 可选地, 关联信息获取单元包括 : 聚类单元, 根据图像特征基于图像相似度对预先 获得的多个套图集中的图像进行聚类 ; 第一关联性确定单元, 根据聚类结果确定套图集之 间的关联性, 其中, 当任意两个套图集之间。
28、的连通的数量大于预定阈值时, 确定所述两个套 图集存在关联, 其中, 一个套图集中属于一个类的一个图像与另一套图集中属于所述一个 类的一个图像形成一个连通 ; 第一关联性提取单元, 根据确定的套图集之间的关联性, 获取 与第一图像所在的套图集存在关联的套图集。 0026 可选地, 关联信息获取单元包括 : 0027 第二关联性确定单元, 根据预先获得的多个套图集的关键词来确定套图集之间的 关联性 ; 第二关联性提取单元, 根据确定的套图集之间的关联性, 获取与第一图像所在的套 图集存在关联的套图集, 其中, 当任意两个套图集的关键词的重合数量大于预定阈值时和 / 或当两个套图集之间的连通的数量。
29、大于预定阈值时, 确定所述两个套图集存在关联, 其中, 一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个 图像形成一个连通, 关联关键词表示两个套图集之间重合的关键词。 0028 可选地, 当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集 时, 第一关联性提取单元仅获取具有与第一图像形成连通的图像的套图集的信息。 0029 可选地, 当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的 关键词时, 第二关联性提取单元仅获取在确定的套图集之中的具有所述至少一个关键词之 一的套图集的信息。 0030 可选地, 针对预先获得的多个套图集中的每个套图集。
30、中的每个图像的描述文本进 行切词, 从切出的词中选择在预定的词表中存在的词, 以获得每个图像的关键词, 其中, 对 于任意一个套图集, 将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的 关键词作为该套图集的关键词。 0031 可选地, 所述设备还包括 : 筛选单元, 用于从获取的至少一个套图集中筛选套图 集, 所述筛选单元包括 : 历史关键词获取单元, 根据图像浏览历史记录, 获取先前浏览的图 像的关键词 ; 排序单元, 根据浏览频率对从获取的关键词进行排序 ; 关键词选取单元, 从高 到低选取预定数量的关键词 ; 套图集选择单元, 从获取的至少一个套图集中选择具有所述 预定数量的。
31、关键词之中最多关键词的套图集。 0032 可选地, 当存在多个具有所述预定数量的关键词之中最多关键词的套图集时, 套 图集获取单元根据套图集的质量对套图集进行排序。 0033 可选地, 所述设备还包括 : 套图集搜索单元, 用于预先获得多个套图集, 其中, 套图 集搜索单元包括 : 网页抓取单元, 抓取预定数量的网页 ; 链接图像获取单元, 获取所述网页 的至少一级深度的链接指向的第二图像 ; 第一图像筛选单元, 从第二图像之中选择面积大 于预定阈值的第三图像 ; 分组单元, 根据第三图像的网址的构成特征, 对第三图像进行分 组, 以获得至少一个套图集。 说 明 书 CN 103177110 。
32、A 8 4/12 页 9 0034 可选地, 链接图像获取单元获取所述网页中的图像作为第二图像, 当所述网页的 至少一级深度的链接中存在表示翻页的链接时, 链接图像获取单元获取表示翻页的链接所 指向的网页中的图像作为第二图像。 0035 可选地, 套图集搜索单元还包括第二图像筛选单元, 从获得的至少一个套图集中 选择面积波动率小于预定阈值的套图集。 0036 可选地, 套图集搜索单元还包括第三图像筛选单元, 从获得的至少一个套图集中 选择图像数量大于预定阈值的套图集。 0037 面积波动率可表示为 S, 0038 其中, S (Imax-Imin)/Iave, 0039 Imax 表示套图集中。
33、的面积最大的图像的面积, Imin 表示套图集中面积最小的图 像的面积, Iave 表示套图集中的图像的面积的均值。 0040 可选地, 所述设备或套图集搜索单元还包括 : 质量确定单元, 确定获得的至少一个 套图集的质量, 其中, 根据下述因素中的至少一个因素确定套图集的质量 : 套图集中的图像 的质量、 套图集中的图像的面积、 套图集中的图像的数量、 套图集中的图像的关键词与套图 集的关键词的匹配程度、 套图集中的图像在互联网上的引用数。 0041 根据本发明的搜索成套图像的方法和设备, 可以根据输入的图像来搜索与输入的 图像相关联的成套图像。 0042 此外, 当用户在使用图像浏览器或者。
34、网络浏览器浏览图像时, 图像浏览器或者网 络浏览器可以利用本发明的方法 / 或设备, 根据用户当前浏览的图像向用户提供与该图像 相关联的成套图像。 此外, 当用户在某个网站浏览图像时, 该网站也可以利用本发明的方法 / 或设备, 根据用户当前浏览的图像向用户提供与该图像相关联的成套图像。 附图说明 0043 通过下面结合附图进行的详细描述, 本发明的上述和其它目的、 特点和优点将会 变得更加清楚, 其中 : 0044 图 1 示出根据本发明的搜索成套图像的方法的流程图。 0045 图 2 示出根据本发明的实施例的确定与第一图像所在的套图集存在关联的套图 集的方法的流程图。 0046 图 3 示。
35、出根据本发明的另一实施例的确定与第一图像所在的套图集存在关联的 套图集的方法的流程图。 0047 图 4 示出根据本发明的实施例的从获取的套图集中进一步筛选套图集的方法的 流程图。 0048 图 5 示出根据本发明的实施例的获得多个套图集的方法的流程图。 0049 图 6 示出根据本发明的示例性实施例的搜索成套图像的设备的框图。 0050 图 7 示出根据本发明的实施例的信息获取单元的框图。 0051 图 8 示出根据本发明的实施例的关联信息获取单元的框图。 0052 图 9 示出根据本发明的另一实施例的关联信息获取单元的框图。 0053 图 10 示出根据本发明的实施例的筛选单元的框图。 0。
36、054 图 11 示出根据本发明的实施例的套图集搜索单元的框图。 说 明 书 CN 103177110 A 9 5/12 页 10 具体实施方式 0055 下面, 将参照附图详细描述本发明的实施例。 0056 图 1 示出根据本发明的搜索成套图像的方法的流程图。 0057 如图 1 所示, 在步骤 101, 接收用于搜索成套图像的图像 ( 以下, 称为, 第一图像 )。 0058 例如, 可以由希望进行搜索成套图像的用户输入第一图像, 或者用户当前正在浏 览的图像 ( 例如, 独立的单张图像或当前浏览的套图集中的一张图像 ) 也可以作为第一图 像, 从而可以通过本发明的搜索成套图像的方法自动为。
37、用户提供与当前浏览的图像相关的 套图集。这里, 一套成套图像称为套图集。 0059 应该理解, 第一图像可以是网页上的图像或者本地的图像。 或者说, 第一图像可以 是通过网络浏览器浏览的网络上的图像或者通过图像浏览器浏览的本地的图像。 0060 在步骤102, 获取第一图像的套图集关联信息。 套图关联信息表示与第一图像相关 的套图集的信息。例如, 套图集的信息可以是套图集中的图像的地址信息。 0061 在获取第一图像的套图集关联信息时, 可首先从预先获得的多个套图集中确定第 一图像所在的套图集。 例如, 可以通过第一图像的地址、 属性信息或者图像对比分析等来确 定第一图像所在的套图集。预先获得。
38、的多个套图集可以是预先从网络 ( 例如, 互联网 ) 上 抓取的套图集, 并且可被存储在一个数据库中。 此外, 还可预先获取并存储不同的套图集之 间的关联情况。或者, 也可实时地获取不同的套图集之间的关联情况。 0062 随后, 可获取确定的第一图像所在的套图集的信息和 / 或确定与第一图像所在的 套图集存在关联的套图集以获取所述关联的套图集的信息。 0063 优选地, 在用户正在浏览第一图像所在的套图集时, 可获取确定的关联的套图集 的信息, 而不使用确定的第一图像所在的套图集的信息来再次提供第一图像所在的套图 集。这可通过浏览历史记录和第一图像所在的网页的内容来确定。 0064 在步骤 1。
39、03, 根据套图集关联信息获取至少一个套图集, 从而搜索到与第一图像相 关的套图集。应该理解, 与第一图像相关的套图集中可以包括与第一图像完全相同的图像 或者不包括与第一图像完全相同的图像。 0065 图 2 示出根据本发明的实施例的确定与第一图像所在的套图集存在关联的套图 集的方法的流程图。可预先执行图 2 所示的方法或者在执行步骤 102 时执行图 2 所示的方 法。 0066 在步骤 201, 根据图像特征基于图像相似度对预先获得的多个套图集中的图像进 行聚类, 这样相似的图像被聚为一类。 0067 可利用现有图像相似度算法通过提取图像特征来对图像进行聚类, 对此将不再详 述。 0068。
40、 在步骤 202, 根据聚类结果确定套图集之间的关联性。具体地说, 当任意两个套图 集之间的连通的数量大于预定阈值时, 确定所述两个套图集存在关联。 0069 在本发明中, 一个套图集中属于一个类的一个图像与另一套图集中属于所述一个 类的一个图像形成一个连通。 一个套图集中每个类所属的各个图像与另一套图集中相同类 所属的各个图像分别形成连通。换句话说, 任意两个套图集之间通过属于相同类的图像进 行连通。例如, 第一个套图集中具有 2 个属于第一类的图像, 第二个套图集中具有 1 个属于 说 明 书 CN 103177110 A 10 6/12 页 11 第一类的图像, 则可以形成 2 个连通。。
41、此外, 如果第一个套图集中具有 2 个属于第二类的图 像, 第二个套图集中具有 2 个属于第二类的图像, 则进一步形成 4 个连通。如果第一个套图 集和第二个套图集之间没有另外的属于同一类的图像, 则总共存在 6 个连通。 0070 在步骤 203, 根据确定的套图集之间的关联性, 获取与第一图像所在的套图集存在 关联的套图集。 0071 由于在步骤 202 对多个套图集两两进行确定关联性, 从而可以得到任意一个套图 集所关联的所有套图集。 0072 优选地, 在步骤 102 确定与第一图像所在的套图集存在关联的套图集以获取所述 关联的套图集的信息的情况下, 当在步骤 203 中获取的套图集之。
42、中存在具有与第一图像形 成连通的图像的套图集时, 可仅获取具有与第一图像形成连通的图像的套图集的信息, 从 而可仅提供具有与第一图像形成连通的图像的套图集作为搜索结果。 0073 图 3 示出根据本发明的另一实施例的确定与第一图像所在的套图集存在关联的 套图集的方法的流程图。可预先执行图 3 所示的方法或者在执行步骤 102 时执行图 3 所示 的方法。 0074 在步骤301, 根据预先获得的多个套图集的关键词来确定套图集之间的关联性。 具 体地说, 当任意两个套图集的关键词的重合数量大于预定阈值时, 确定所述两个套图集存 在关联。换句话说, 两个套图集通过彼此之间重合的关键词相关联。 00。
43、75 此外, 还可确定两个套图集之间重合的每个关键词(以下, 称为关联关键词)属于 这两个套图集中的哪些个套图集。 一个套图集中具有一个关联关键词的一个图像与另一套 图集中具有该关联关键词的一个图像形成一个连通。 一个套图集中每个关联关键词所属的 各个图像与另一套图集中相同关联关键词所属的各个图像分别形成连通。 0076 例如, 第一个套图集中具有2图像具有第一连通关键词, 第二个套图集中具有1个 图像具有第一连通关键词, 则可以形成 2 个连通。此外, 如果第一个套图集中具有 2 个图像 具有第二连通关键词, 第二个套图集中具有 2 个图像具有第二连通关键词, 则进一步形成 4 个连通。如果。
44、第一个套图集和第二个套图集之间没有另外的连通关键词, 则总共存在 6 个 连通。 0077 在另一实施例中, 当任意两个套图集的关键词的重合数量大于预定阈值时, 并且 当任意两个套图集之间的连通的数量大于预定阈值时, 确定所述两个套图集存在关联。 0078 在另一实施例中, 仅当任意两个套图集之间的连通的数量大于预定阈值时, 确定 所述两个套图集存在关联。 0079 可预先通过套图集中的图像的关键词来获得套图集的关键词。具体地说, 在抓取 套图集时, 针对套图集中的每个图像的描述文本 ( 例如, 可以从图像所在的网页获得图像 的描述文本 ) 进行切词, 从切出的词中选择在预定的词表中存在的词,。
45、 以获得每个图像的 关键词。对于任意一个套图集, 将在所述套图集的各个图像的关键词之中出现总次数排名 靠前的预定数量的关键词作为该套图集的关键词。 0080 在步骤 302, 根据确定的套图集之间的关联性, 获取与第一图像所在的套图集存在 关联的套图集。 0081 优选地, 在步骤 102 确定与第一图像所在的套图集存在关联的套图集以获取所述 关联的套图集的信息的情况下, 当第一图像的关键词中的至少一个关键词作为第一图像所 说 明 书 CN 103177110 A 11 7/12 页 12 在的套图集的关键词时, 仅获取在步骤 302 中获取的套图集之中的至少具有所述至少一个 关键词之一的套图。
46、集的信息, 从而可仅提供至少具有所述至少一个关键词之一的套图集作 为搜索结果。 0082 应该理解, 可以通过图 2 和图 3 中的至少一个所示的方法来确定与第一图像所在 的套图集存在关联的套图集。此外, 图 2 的步骤 201-202 和 / 或图 3 的步骤 301 可形成单 独的套图集关联性确定设备。 0083 返回图 1, 优选地, 当在步骤 103 获取了多个套图集时, 可进一步从获取的套图集 中进一步筛选套图集 ; 或者可根据图像的质量对套图集排序, 根据排序设置套图集的搜索 结果优先级。 0084 图 4 示出根据本发明的实施例的从获取的套图集中进一步筛选套图集的方法的 流程图。。
47、 0085 在步骤 401, 根据图像浏览历史记录, 获取先前浏览的图像的关键词。 0086 在步骤402, 根据图像的浏览频率, 对从获取的关键词进行排序。 例如, 如果一个关 键词所属的图像 ( 一个或多个 ) 被浏览的次数之和越大, 则该关键词的排序越高。 0087 在步骤 403, 根据排序从高到低选取预定数量的关键词。 0088 在步骤 404, 从在步骤 103 获取的套图集中选择具有所述预定数量的关键词之中 最多关键词的套图集。 0089 优选地, 当在步骤 404 选择出多个套图集时, 可根据套图集的质量对选择出的套 图集进行排序。 0090 图 5 示出根据本发明的实施例的获。
48、得多个套图集的方法的流程图。 0091 在步骤 501, 抓取预定数量的网页。例如, 通过对存储有从网络上抓取的网页的网 页库中的网页进行一些筛选, 或者收录一些特定网页, 来获得预定数量的网页。 0092 在步骤 502, 针对每个网页, 获取该网页的至少一级深度的链接指向的图像 ( 以 下, 称为第二图像)。 例如, 网页的第一级深度的链接表示该网页上的链接, 网页的第二级链 接表示该网页上的链接指向的网页上的链接, 以此类推。 0093 优选地, 获取所述网页中的图像作为第二图像。 此外, 当所述网页的至少一级深度 的链接中存在表示翻页的链接时, 获取表示翻页的链接所指向的网页中的图像作。
49、为第二图 像。可通过链接的描述文字 ( 例如, 上一页、 下一页 ) 等来确定该链接是否表示翻页。 0094 在步骤503, 从第二图像之中选择面积(即, 分辨率)大于预定阈值的图像(以下, 称为第三图像 )。这样, 可以滤掉不重要的小图、 边角图等。 0095 在步骤 504, 根据第三图像的网址的构成特征, 对第三图像进行分组, 以获得至少 一个套图集。 0096 通常, 成套图像的网址的大部分内容是相同的, 仅在于编号的不同 ( 例如, 网址的 最后一个层次分隔符 “/” 之前的内容相同, 而之后的内容不同 ), 因此可以将网址的构成特 征相似的第三图像分为一组, 作为一个套图集。 0097 在步骤 505, 从在步骤 504 获得的套图集之中剔除伪套图集。 0098 在一个实施例中, 根据套图集的面积波动率来判断伪套图集。 具体地说, 保留面积 波动率小于预定阈值的套图集,。