《标记由物联网中的物体产生的原始数据的方法及系统.pdf》由会员分享,可在线阅读,更多相关《标记由物联网中的物体产生的原始数据的方法及系统.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103092880 A (43)申请公布日 2013.05.08 CN 103092880 A *CN103092880A* (21)申请号 201110347155.9 (22)申请日 2011.10.31 G06F 17/30(2006.01) (71)申请人 国际商业机器公司 地址 美国纽约 (72)发明人 吴贤 蔡柯柯 张硕 夏立军 姚剑 张俐 苏中 (74)专利代理机构 中国国际贸易促进委员会专 利商标事务所 11038 代理人 鲍进 (54) 发明名称 标记由物联网中的物体产生的原始数据的方 法及系统 (57) 摘要 本发明公开涉及标记由物联网中的物体产生。
2、 的原始数据的方法及系统。所述方法包括 : 包括 : 对获得的 Web 消息进行相关性检测以获得与各种 事件相关的 Web 消息 ; 获取所述相关的 Web 消息 所包含的地址信息 ; 基于所获得的地址信息确定 与所述各种事件接近的物体 ; 以及使用所述相关 的 Web 消息的至少部分内容作为元数据, 标记由 所确定的接近物体产生的原始数据。通过使用本 发明, 使得可以给人类难以理解的来自各种各样 物体的原始数据添加自然语言的元数据, 以便可 以使用自然语言来进行检索和进行数据挖掘。 (51)Int.Cl. 权利要求书 2 页 说明书 9 页 附图 6 页 (19)中华人民共和国国家知识产权局。
3、 (12)发明专利申请 权利要求书2页 说明书9页 附图6页 (10)申请公布号 CN 103092880 A CN 103092880 A *CN103092880A* 1/2 页 2 1. 一种标记由物联网中的物体产生的原始数据的方法, 包括 : 对获得的 Web 消息进行相关性检测以获得与各种事件相关的 Web 消息 ; 获取所述相关的 Web 消息所包含的地址信息 ; 基于所获得的地址信息确定与所述各种事件接近的物体 ; 以及 使用所述相关的 Web 消息的至少部分内容作为元数据, 标记由所确定的接近物体产生 的原始数据。 2. 根据权利要求 1 所述的方法, 其中, 所述基于所获得的。
4、地址信息确定与所述各种事 件接近的物体的步骤包括 : 从所述相关的 Web 消息中获取与同一用户相关的地址信息 ; 基于所述所获取的地址信息使用曲线拟合以生成拟合的曲线 ; 以及 基于物联网中的物体的位置信息和所拟合的曲线, 确定所述物体的接近度。 3. 根据权利要求 2 所述的方法, 其中, 按照各个物体的位置信息与所述所拟合的曲线 的距离中的最小值、 或按照各个物体的位置信息与所述所拟合的曲线的最大距离的最小 值、 或按照各个物体的位置信息与所述所拟合的曲线的平均距离的最小值、 或按照各个物 体的位置信息与所述所拟合的曲线的最大距离的平方值的最小值, 来确定各个物体与所关 心的事件的接近度。
5、。 4. 根据权利要求 1 所述的方法, 还包括 : 对网络上出现的 Web 消息实时地进行索引 ; 以及 从索引后的 Web 消息中检索出与所述各种事件中的所关心事件有关的所有 Web 消息。 5.根据权利要求1所述的方法, 其中, 使用所述相关的Web消息的发布时间和与所关心 的事件有关的词语, 产生用于标记由接近的物体产生的原始数据的元数据。 6. 根据权利要求 5 所述的方法, 其中, 基于所述元数据, 来对使用自然语言进行的查询 进行响应。 7. 根据权利要求 2 所述的方法, 还包括 : 按照各个物体的接进度, 对所述各个物体进行排序。 8. 一种标记由物联网中的物体产生的原始数据。
6、的系统, 包括 : 用于对获得的 Web 消息进行相关性检测以获得与各种事件相关的 Web 消息的装置 ; 用于获取所述相关的 Web 消息所包含的地址信息的装置 ; 用于基于所获得的地址信息确定与所述各种事件接近的物体的装置 ; 以及 用于使用所述相关的 Web 消息的至少部分内容作为元数据, 标记由所确定的接近物体 产生的原始数据的装置。 9. 根据权利要求 8 所述的系统, 其中, 所述用于基于所获得的地址信息确定与所述各 种事件接近的物体的装置包括 : 用于从所述相关的 Web 消息中获取与同一用户相关的地址信息的装置 ; 用于基于所述所获取的地址信息使用曲线拟合以生成拟合的曲线的装置。
7、 ; 以及 用于基于物联网中的物体的位置信息和所拟合的曲线, 确定所述物体的接近度的装 置。 10. 根据权利要求 9 所述的系统, 其中, 按照各个物体的位置信息与所述所拟合的曲 线的距离中的最小值、 或按照各个物体的位置信息与所述所拟合的曲线的最大距离的最小 权 利 要 求 书 CN 103092880 A 2 2/2 页 3 值、 或按照各个物体的位置信息与所述所拟合的曲线的平均距离的最小值、 或按照各个物 体的位置信息与所述所拟合的曲线的最大距离的平方值的最小值, 来确定各个物体与所关 心的事件的接近度。 11. 根据权利要求 8 所述的系统, 还包括 : 用于对网络上出现的 Web 。
8、消息实时地进行索引的装置 ; 以及 用于从索引后的Web消息中检索出与所述各种事件中的所关心事件有关的所有Web消 息的装置。 12. 根据权利要求 8 所述的系统, 其中, 使用所述相关的 Web 消息的发布时间和与所关 心的事件有关的词语, 产生用于标记由接近的物体产生的原始数据的元数据。 13. 根据权利要求 12 所述的系统, 其中, 基于所述元数据, 来对使用自然语言进行的查 询进行响应。 14. 根据权利要求 9 所述的系统, 还包括 : 用于按照各个物体的接进度, 对所述各个物体进行排序的装置。 15. 一种在物联网中搜索物体的方法, 包括 : 使用自然语言输入查询项 ; 以及 。
9、使用所述查询项, 基于物联网中的物体的元数据, 产生搜索结果 ; 其中所述元数据是使用权利要求 1-7 中任一项所述的方法产生的。 16. 一种在物联网中搜索物体的设备, 包括 : 用于使用自然语言输入查询项的装置 ; 以及 用于使用所述查询项, 基于物联网中的物体的元数据, 产生搜索结果的装置 ; 其中所述元数据是使用权利要求 8-14 中任一项所述的设备产生的。 17. 一种网络上使用的搜索引擎, 包括 : 用于接收用户输入的模块 ; 如权利要求 8-14 中任一项所述的设备 ; 以及 用于根据用户输入和由所述设备产生的信息来进行检索的模块。 权 利 要 求 书 CN 103092880 。
10、A 3 1/9 页 4 标记由物联网中的物体产生的原始数据的方法及系统 技术领域 0001 本发明公开涉及数据处理技术, 尤其是, 涉及一种标记由物联网中的物体产生的 原始数据的方法及系统。 背景技术 0002 物联网 (Internet of Things, IoT) 被认为是互联网的下一次重要革命。所谓的 物联网就是把诸如感测设备之类的物体装备到街道、 公路、 建筑、 供水系统以及家用电器等 各种真实物体上, 通过互联网联接起来, 进而运行特定的程序, 达到远程控制或者实现物与 物的直接通信。物联网将连接对象的范围从电子设备扩展到真实世界中的各种各样的物 体, 即通过装备在各类物体上的射频。
11、识别 (RFID)、 传感器、 二维码等, 经过接口与无线网络 相连, 实现人与物体的沟通和对话, 也可以实现物体与物体互相间的沟通和对话。例如, 在 不远的将来, 家用电器、 医院设备、 甚至 T 恤衫都可以联网和在网络上被访问, 就像网页和 远程服务器一样。 结果, 所有真实世界中的物体都可以通过联网被监控和操作, 并且其行动 可以被编程以给人类提供方便。 0003 在物联网中, 给定一个事件, 如何获得记录相关信息的传感器是一个问题。例如, 给定查询 “汽车追尾” , 如何找到记录这种事件的摄像头。 这种物联网搜索对于物联网来说, 是非常重要的应用。不同于当前的 WWW 网络, 构建 I。
12、oT 搜索引擎存在以下挑战 : 0004 首先, 真实世界中的物体具有指数量级的总数。互联网对象将编码 50 万亿至 100 万亿个物体。每个人都被 1000 到 500 个物体包围着。对于当前的搜索引擎, 巨大的数据量 是负担不起的。而据统计, 在 2008 年谷歌公司的搜索引擎仅索引 10 亿个网页。 0005 其次, 物联网中的各种物体所获得的原始数据可能具有图像、 视频、 音频、 数字数 据序列、 小波等的格式, 基本上没有元数据可用于描述这些原始数据的语义, 且计算机本身 也不能理解这些数据文件的内容。 也就是, 所获得的原始数据难以传递人类的观点和情感, 而人类也难以理解这些原始数。
13、据。面对丰富的原始数据, 人们却难以通过自然语言对相关 信息进行查询、 对原始数据之间的关联性进行挖掘等。 0006 目前存在对于原始数据进行深层次处理的技术, 但是由于 IoT 中的诸如传感器之 类的物体的总量巨大, 所以使用诸如计算图象技术的深层次处理来提取语义注释在计算上 是负担不起的。此外, 即使利用深层次处理, 由于诸如查询之类的应用的灵活性, 需要建立 大量的模型来处理各种应用。这种实现也是不可取的。 0007 图 1 是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。 如图 1 所示, 用户使用人类语言在网络上对传感器数据进行查询。但是, 即使存在大量的原 始数据。
14、文件, 由于用户的自然语言查询和传感器的原始数据文件之间存在巨大的鸿沟, 并 且原始数据文件也几乎没有元数据来描述其语义, 因此用户不能得到期望的查询结果。因 此, 如何将自然语言查询与原始数据联系起来以便于进行数据的搜索和挖掘以及数据关联 性的挖掘等等是现有技术中存在的一个技术问题。 0008 因此, 现有技术中需要标记由物联网中的物体产生的原始数据以便进行进一步数 说 明 书 CN 103092880 A 4 2/9 页 5 据处理的技术。 发明内容 0009 为了解决现有技术中存在的上述问题中的至少一个, 而提出了本发明公开。根据 本发明公开的一个方面的一个实施例提供了一种利用 Web 。
15、消息来给原始数据加标记以使 原始数据具有描述其语义的元数据从而帮助理解原始数据的内容的技术方案。 0010 本发明的发明人注意到诸如博客和微博之类的 Web 消息正在被广泛地应用。本文 中提及的 “Web 消息” 是指具有广泛性和相关性的网络上传递的内容。所谓的 “广泛性” 是 指 Web 消息的内容多种多样, 涉及到现实世界中发生的各种事情以及人类的思想等等, 以 及 Web 消息的用户可以使用诸如移动终端或固定终端之类的各种设备在网络上随时发布 Web 消息。Web 消息可以包括文本、 文档、 图标、 照片、 音频、 视频等等。所谓的 “相关性” 是 指 Web 消息的内容与所关心事件有关。
16、, 例如 Web 消息的发布时间与所关心事件的发生时间 之差在预定范围内且都是关于相似的事件, 则认为 Web 消息与所关心事件具有相关性。此 外, 对于本发明而言, Web 消息是具有用户在发送 Web 消息时的地址信息的 Web 消息。 0011 微博是 Web 消息的一个典型示例。微博是一种允许用户及时更新的简短文本 ( 通 常少于 140 字 ) 并可以公开发布的博客形式。微博服务包括诸如 Twitter、 Yahoo、 Sina、 Sohu、 163 等。 0012 微博最近日渐繁荣, 并且已经吸引了大量用户。根据 2010 年 4 月的统计数据, 作 为微博的代表性网站的 Twit。
17、ter 具有 100 多万注册用户且每天还有 30 多万的新用户。每 天平均发布 5 千 5 百多万条 Twitter 微博, 内容无所不包。在所有这些 Twitter 微博中, 超 过 37是通过移动设备发布的, 并且其实际发布的位置也大部分可以被获得。 0013 由于 Web 消息的普遍使用 ( 换言之, 具有相关性和广泛性 ) 和知道位置的特征, 发 明人设想了利用 Web 消息来丰富传感器数据的语义。具体而言, 本发明通过识别 Web 消息 与传感器之间的关系, 然后分配相关的 Web 消息的至少一部分内容作为标签以注释传感器 数据的语义来填平了人类理解与物体获得的原始数据之间的鸿沟,。
18、 从而解决了现有技术中 存在的问题。更进一步地, 可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能 以及其它对原始数据的应用。 0014 本发明公开的实施例可以以包括方法或系统的多种方式实施。 下面讨论本发明公 开的几个实施例。 0015 作为一种标记由物联网中的物体产生的原始数据的方法的方法, 本发明公开的一 个实施例至少包括 : 对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息 ; 获取所述相关的 Web 消息所包含的地址信息 ; 基于所获得的地址信息确定与所述各种事件 接近的物体 ; 以及使用所述相关的 Web 消息的至少部分内容作为元数据, 标记由所确定的 接近物。
19、体产生的原始数据。 0016 作为一种标记由物联网中的物体产生的原始数据的系统, 本发明公开的一个实施 例至少包括 : 用于对获得的 Web 消息进行相关性检测以获得与各种事件相关的 Web 消息的 装置 ; 用于获取所述相关的 Web 消息所包含的地址信息的装置 ; 用于基于所获得的地址信 息确定与所述各种事件接近的物体的装置 ; 以及用于使用所述相关的 Web 消息的至少部分 内容作为元数据, 标记由所确定的接近物体产生的原始数据的装置。 说 明 书 CN 103092880 A 5 3/9 页 6 0017 作为一种在物联网中搜索物体的方法, 本发明公开的一个实施例至少包括 : 使用 自。
20、然语言输入查询项 ; 以及使用所述查询项, 基于物联网中的物体的元数据, 产生搜索结 果 ; 其中所述元数据是使用上述方法产生的。 0018 作为一种在物联网中搜索物体的设备, 本发明公开的一个实施例至少包括 : 用于 使用自然语言输入查询项的装置 ; 以及用于使用所述查询项, 基于物联网中的物体的元数 据, 产生搜索结果的装置 ; 其中所述元数据是使用上述系统产生的。 0019 作为一种网络上使用的搜索引擎, 本发明公开的一个实施例至少包括 : 用于接收 用户输入的模块 ; 上述系统 ; 以及用于根据用户输入和由所述设备产生的信息来进行检索 的模块。 附图说明 0020 本说明中所参考的附图。
21、只用于示例本发明的典型实施例, 不应该认为是对本发明 范围的限制。 0021 图 1 是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。 0022 图 2 是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生 的原始数据的方法的流程图。 0023 图3是示出了根据本发明的一个实施例的基于每一用户所发的Web消息的地址信 息使用曲线拟合所获得的曲线的示意图。 0024 图 4 是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生 的原始数据的系统的方框图。 0025 图 5 是示出了根据本发明的一个实施例实现的搜索处理示例的流程图。 0026 图 6 是示。
22、出了根据本发明的一个实施例实现的搜索引擎的方框图。 具体实施方式 0027 下列讨论中, 提供大量具体的细节以帮助彻底了解本发明。 然而, 很显然对于本领 域技术人员来说, 即使没有这些具体细节, 并不影响对本发明的理解。并且应该认识到, 使 用如下的任何具体术语仅仅是为了方便描述, 因此, 本发明不应当局限于只用在这样的术 语所表示和 / 或暗示的任何特定应用中。 0028 根据本发明公开的一个实施例, 提供了通过识别 Web 消息与物联网中的物体之间 的关系, 然后分配相关的 Web 消息的至少一部分内容作为标签以注释相应物体所产生的原 始数据的语义来解决现有技术中存在的至少一个问题。更进。
23、一步地, 可以利用这些语义标 记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用, 例如, 使用自然语 言来查询原始数据。 0029 值得注意的是, 本文中的术语 “物体” 指的是能够产生数据并将所产生的数据传 送给其它物体的任意器件、 装置、 设备或系统。例如, 物体可以是感测装置, 诸如射频识别 (RFID)、 读取器、 二维码、 摄像头、 传感器等, 物体也可以是搭载有 RFID、 、 读取器、 二维码、 摄 像头、 传感器等的独立设备, 诸如具有 RFID 的笔记本电脑、 具有温度传感器的电冰箱、 具有 二维码的 T 恤等。 0030 图 2 示出了根据本发明公开的一个实施例。
24、的用于标记由物联网中的物体产生的 说 明 书 CN 103092880 A 6 4/9 页 7 原始数据的处理 200。 0031 在步骤 202, 处理 200 开始。 0032 在步骤204, 对接收到的Web消息进行相关性检测以获得与所关心事件相关的Web 消息。步骤 204 可以通过多于一个过滤步骤来实现。根据本发明公开的一个实施例, 可以 包括两个过滤步骤 : 0033 (1) 基于内容的过滤 : 0034 步骤204可以包括内容过滤步骤以过滤出内容上相关的所有Web消息并丢弃其它 消息。由于要用与物体所记录的事件有关的信息来标记物体, 所以基于内容的过滤可以是 根据默认选项 ( 诸。
25、如, 最常见的用户查询选项列表、 热点事件的列表、 交通事件的列表、 最 常用的关键词列表等), 从大量的Web消息中查找出内容匹配的条目。 这可以使用基于关键 字匹配的倒排表技术来实现。 0035 (2) 基于时间的过滤 : 0036 步骤204可以包括时间过滤步骤以过滤出时间上相关的所有Web消息并丢弃其它 消息。基于时间的过滤可以包括以下两个步骤 : 0037 2.1 基于发布时间的过滤 : 也就是, 只保留出发布时间与所关心事件的发生时间 相关的 Web 消息。时间过滤步骤是为了从接收到的 Web 消息中过滤出 Web 消息的发布时 间与所关心的事件发生的时间在预定时间范围内的 Web。
26、 消息, 并丢弃时间不相当的其它 Web 消息。例如, 所关心事件的发生事件是当天早晨 8:00 左右。时间过滤步骤只保留当天 7:30 8:30 这个时间段内发布的 Web 消息。 0038 存在时间范围可能是由于发布 Web 消息的用户可能是移动的, 在他看到事件的发 生和他实际发布 Web 消息之间存在时间差 ; 也可能是由于用户看到事件后经过一段时间才 发布相关的 Web 消息 ; 或者也可能是由于网络拥塞、 无线网络不稳定等等而导致的时间差。 该预定时间可以是预设的, 也可以由用户 / 系统设置。 0039 2.2 即时性过滤 : 在发布时间过滤的基础上, 再次使用即时性进行过滤, 。
27、从而只保 留在规定的时间范围内所发布的描述现在情况的 Web 消息。例如, 当天早晨 8:00 之后发布 的 Web 消息可能包括诸如 “昨天发生的 XX” 之类的内容。但是, 这些内容显然不是发布的即 时信息, 而是过期信息, 应该过滤掉。而像 “刚刚发生的 XX” 则属于即时信息, 应该保留。 0040 即时性过滤步骤可以通过结合现有的分词和分类技术来实现。 根据本发明的一个 方面, 提出了一种结合了现有的分词和分类处理的内容过滤引擎。 举例而言, 首先可以选取 2,000 条 Web 消息。人为地将这些 Web 消息分类为现在、 过去、 将来和其它。对于每个 Web 消息中的每一句子, 。
28、首先将其分词。 例如, 一个Web消息仅包括一句话 “我现在在看电影。 ” 。 经过分词, 变为 “我 / 现在 / 在 / 看 / 电影。 ” 。 0041 将每一个分词作为特征, 构建基于机器学习算法的分类器。 可以使用SVM(Support Vector Machine)算法, ME(Maximum Entropy)算法等等。 这样对于没有进行人工标注的Web 消息, 可以使用这个分类器进行自动识别, 将其标注为现在、 过去、 将来和其它中的一类。 只 有标注为现在的 Web 消息保留下来, 其余的都删除掉。但是, 值得注意的是本发明不限于以 上处理过程, 而是本领域技术人员可以根据自己。
29、的需求, 可以使用其它的分词和分类技术。 0042 虽然以上以特定顺序示出和描述了各个过滤步骤, 但是本领域技术人员应当理解 本发明不限于该特定顺序, 而是可以根据需要以任意顺序执行基于内容的过滤和基于时间 说 明 书 CN 103092880 A 7 5/9 页 8 的过滤。 0043 在步骤206, 对Web消息进行地址信息检测以获得包含地址信息的Web消息的地址 信息, 并且丢弃不包含地址信息的 Web 消息。 0044 需要说明的是, 不是所有Web消息都包括地址信息, 而是发布Web消息的用户可以 选择是否公开其当前的地址信息。如果用户选择公开其地址信息, 则所发布的 Web 消息就。
30、 包括地址信息, 否则就不包括地址信息。 0045 地址信息通常是 GPS 地址数据的形式, 但是通过使用第三方服务, Web 消息的地址 信息也可能是文字描述的形式, 诸如 “XX 街与 YY 街路口” 。可以通过 Web 浏览器提供的 API 接口获得用户发布该消息时的地址信息。但是如果获得的地址信息是文字描述, 根据本发 明公开的一个实施例, 则需要将文字描述转换成 GPS 地址数据。该转换可以使用现有技术 中的转换工具, 在此不作详细描述。 0046 根据本发明的另一个实施例, 可以从 Web 消息的内容中过滤出地址信息, 然后再 将该地址信息转换成 GPS 地址数据。例如, Web 。
31、消息可能是 “现在, 崇文门大街到长安街的 路口发生了拥堵, 车辆行驶缓慢。 ” 。 可以从该消息中提取出地址信息 “崇文门大街到长安街 的路口” 。结合已有的地图信息, 则可将该地址信息转换成 GPS 地址数据。 0047 在步骤 208, 基于所获得的 Web 消息的地址信息, 检测 IoT 中与所关心事件接近的 物体。 0048 对于本领域技术人员而言, IoT 中每个物体的位置 ( 诸如, GPS 地址数据 ) 都是已 知的。可以通过 Web 消息的地址信息和物体的已知的位置信息来确定与所关心事件相关的 物体。例如, 确定二者之间的直线距离最小的物体为接近的物体。 0049 但是, 如。
32、前所述, 由于用户可能是移动的, 也可能在看到事件之后一段时间才发送 Web 消息而这时其位置已经发生改变等等, 所以用户在发送 Web 消息时所处的位置与可能 记录所关心事件的物体的位置可能存在差异。从而仅仅凭借一个或几个 Web 消息的地址信 息和物体的已知的位置信息可能难以确定与所关心事件接近度较高的物体。 0050 根据本发明公开的一个实施例, 提出了使用现有的曲线拟合技术来从 IoT 中的数 量巨大的物体中确定出与所关心事件接近度较高的物体。 0051 根据本发明公开的一个实施例, 接近性检测步骤可以包括以下操作 : 0052 第一步骤 : 从所获得的Web消息中提取出从同一用户发布。
33、的Web消息的地址信息。 比如, 发布相关消息的可能有 100 个用户, 从中提取出同一个用户最近 6 个小时内发布的 Web 消息的地址信息。 0053 第二步骤 : 针对每一个用户, 使用其所发布的 Web 消息的地址信息进行曲线拟合, 以获得其位置曲线。 0054 图3是示出了根据本发明的一个实施例的基于每一用户所发的Web消息的地址信 息使用曲线拟合所获得的曲线的示意图。如图 3 所示, 空心圆代表一条 Web 消息的一个地 址信息, 每一条曲线是基于来自同一用户的Web消息的地址信息所拟合出来的曲线。 在图3 中, 实心圆代表 IoT 中的物体。虽然图 3 中仅仅示出了一个物体, 但。
34、是本发明不限于此, 如 前所述, 物体的数量可以多得多, 本领域技术人员可以根据需要对其进行选择。 0055 第三步骤 : 基于物体的位置数据和各个曲线之间的距离关系, 确定接近的物体。 0056 可以使用以下公式来确定物体的位置数据和各个曲线之间的距离关系 : 将物记为 说 明 书 CN 103092880 A 8 6/9 页 9 x1, x2, .xM, 曲线表示为 D1, D2, ., DN, 0057 arg mini(maxj(distance(xi, Dj) 0058 其中 distance(xi, Dj) 代表第 i 个物体到第 j 条拟合曲线的最短距离, 其中, i 代 表第 。
35、i 个物体, 其是从 1 到 M 之间的整数值, M 是用户根据需要所选取的接近物体的总数 ; j 代表第 j 个拟合曲线, 其中 j 是从 1 到 N 之间的整数值, N 是通过曲线拟合所获得的曲线的 总数 ; Max 代表取最大值的函数, Min 代表取最小值的函数。 0059 使用上述公式, 选取物体到各个曲线的距离中的最大距离作为该物体的特征距 离, 然后选取所有物体中特征距离最小的物体作为与所关心事件最接近的物体。更进一步 地, 可以按照该特征距离从小到大来对相应的物体进行排序, 以表示各个物体与所关心事 件的接进度。 0060 例如, 还以图 3 为例, 曲线拟合的结果是, 基于用。
36、户 A 的地址信息拟合出两条曲线 1 和 2, 基于用户 B 的地址信息拟合出一条曲线 3。假设存在有多个物体。其中各个物体到 三条曲线的距离中的最大距离分别为 5、 3、 5、 6、 9、 8。则选取具有最大距离的最小值 3 的物体作为最接近物体, 如图 3 所示。 0061 这个方法的最大好处在于公式 argmini(maxj(distance(xi, Dj) 在现有技术中是 简单的且已被标准化, 并且可以容易地获得实现其的工具。 0062 当然, 本发明不限于此, 本领域技术人员也可以根据其需求使用其它距离公式。 可 以使用例如平均距离最小值, 也就是, 使用一个物体到各个曲线的距离的平。
37、均值作为其特 征距离, 并选取特征距离最小的物体作为最接近的物体。还可以使用例如最大距离的平方 最小值, 也就是, 使用一个物体到各个曲线的距离中的最大距离的平方值作为其特征距离, 并选取特征距离最小的物体作为最接近的物体。 0063 在步骤 210, 利用 Web 消息的至少一部分, 对所确定的接近物体的原始数据进行标 记。 0064 例如, 一个用户在 2011 年 9 月 23 日 7 时 56 分发布一条 Web 消息为 “看到了四车 追尾, 太惨了! ” , 并且最接近的摄像头为新街口西口的摄像头。则可以用 Web 消息中的 “追 尾” 和时间 “2011/9/237:56” , 来。
38、作为新街口西口的摄像头所获得的原始数据文件 vsd.vso 的元数据, 对其进行标记。 0065 更进一步的, 可以针对各个接近的摄像头进行排序, 例如, 生成包括如下内容的 Web 页面 : 0066 追尾 2011/9/23 7:56 新街口西口 vsd.vso 0067 新街口西街东口 vsf.vso 0068 新街口西街西口 vsg.vso 0069 用户可以点击相应的视频文件观看。也可以通过自然语言 “追尾” 、“2011 年 9 月 23 日” 等来进行数据检索。 0070 在步骤 212, 处理 200 结束。 0071 如前所述, Web 消息的数量是指数级的。如果每一次执行处。
39、理 200, 在步骤 204 开 始是对网络上的所有 Web 消息进行处理的话, 那么处理所需的时间和计算成本较大。 0072 根据本发明的一个实施例, 在步骤202和步骤204之间可以包括一个预处理步骤。 所述预处理步骤可以使用现有的索引技术来实时地索引网络上发布的所有 Web 消息, 然后 说 明 书 CN 103092880 A 9 7/9 页 10 在步骤 204 中基于索引取出与所关心事件在内容上相关的 Web 消息。 0073 举例而言, 可以使用分词技术对每一个 Web 消息实时地进行分词, 根据预先建立 的关键词库, 确定 Web 消息中是否出现至少一个关键词, 然后, 建立出。
40、现某一关键词的 Web 消息与关键词库中该关键词之间的链接来进行索引。 0074 还以 Web 消息为 “汽车追尾” 为例, 将该消息分词为 “汽车 / 追尾 /” 。那么使用 “汽 车” ,“追尾” 作为索引词, 构建倒排表, 通过搜索 “汽车” 或者 “追尾” , 都可以得到这条消息。 0075 然后, 在步骤 204 中使用该链接将与关键词相关的 Web 消息快速地提取出来以供 进一步处理。 0076 此外, 图 2 中虽然使用了箭头线来指示各个步骤, 但是本发明不限于此, 而是可以 以其它顺序执行图 2 中的各个步骤。例如, 步骤 204 和 206 的执行顺序可以相反。 0077 图。
41、 4 是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生 的原始数据的系统 400 的方框图。 0078 根据本发明的一个实施例的系统 400 包括 Web 消息搜索引擎 401、 相关性检测器 407、 地址信息检测器 409、 接近性检测器 411 和标记器 411。相关性检测器 407 包括内容过 滤器 403 和时间过滤器 405。 0079 Web 消息搜索引擎 401 是可选的, 其不是实现本发明所必需的。Web 消息搜索引擎 401 用于实时地索引网络上发布的所有 Web 消息。 0080 相关性检测器 407 用于检测与各种事件相关的 Web 消息。内容过滤器 4。
42、03 用于过 滤出内容与各种事件相关的 Web 消息。时间过滤器 405 用于过滤出发布时间与各种事件的 发生时间在预定范围内的 Web 消息, 并且进行即时行过滤以获得在规定的时间范围内所发 布的描述现在情况的 Web 消息。其它 Web 消息将被丢弃。 0081 地址信息检测器409接收来自相关性检测器407的相关Web消息, 并提取这些Web 消息中的地址信息。地址信息可以是使用 API 从 Web 消息提取的, 也可以是从 Web 消息的 内容中过滤出来的。地址信息可以具有 GPS 数据格式或文本格式。地址信息检测器 409 可 以包括一个转换器 ( 未示出 ), 用于转换所述地址信息。
43、的格式, 例如从文本格式转换成 GPS 数据格式。 0082 接近性检测器 411 用于基于来自地址信息检测器 409 的地址信息, 确定与所发生 的事件最接近的物体。具体的实施方式在上面已经进行了详细描述, 在此不再重复。 0083 标记器 413 用于基于相应的 Web 消息, 来标记来自所确定的最接近的物体的原始 数据。 0084 根据本发明的一个实施例, 标记的结果可以以网页、 文档、 文本等形式发布, 以供 进一步的处理。 例如, 搜索引擎可以使用该标记的结果进行搜索, 以便为使用自然语言进行 查询的用户快速地提供相关的查询结果。 0085 图 5 是示出了根据本发明的一个实施例实现。
44、的搜索处理示例的流程图。图 5 示出 的是本发明在查询上的一个应用。 0086 如图 5 所示, 用户可以使用 “追尾” 来查询所发生的追尾事件。内容过滤器 403 找 出与关键词 “追尾” 链接的网页并给出这些在内容上与用户的查询条件有关的网页。 时间过 滤器405过滤掉不在所需时间范围内的所有Web消息, 并对剩余的Web消息进行处理。 时间 过滤器 405 还基于 Web 消息的内容进行即时行过滤, 以过滤掉与现在情况不相关的 Web 消 说 明 书 CN 103092880 A 10 8/9 页 11 息。例如, 用户需要的今天的追尾事件, 因此, 包括 “昨天 追尾” 或 “很久以前。
45、 追 尾” 的 Web 消息不是所关心的, 从而去除这些消息。 0087 地址信息检测器409从剩余的Web消息中获取其中的地址信息。 如上所述, IoT中 的物体的位置信息是已知的, 预存在数据库中。接近性检测器 411 检测出与所关心的事件 相关的物体。标记器 411 使用 Web 消息的至少一部分来对各个物体进行标记以表明各个物 体获得的原始数据的语义。通过使用所述标记, 可以将自然语言的查询与原始数据关联起 来, 从而给用户提供诸如 :“返回的查询结果 : 诸如正在或已经监控到 “追尾” 的摄像头, 用 户可以连接到该摄像头并浏览其数据” 。 0088 当然, 用户还可以基于标记对原始。
46、数据之间的关联性进行挖掘。 例如, 可以找出与 一次追尾有关的所有摄像头, 以便获得与该追尾的发生过程有关的数据。 0089 图 6 是示出了根据本发明的一个实施例实现的搜索引擎的方框图。图 6 示出的本 发明的一个实现的具体例子。 0090 如图 6 所示, 搜索引擎包括了图 4 所述的系统 400。此外, 搜索引擎用于接收用户 输入的模块 601 和用于根据用户输入和由系统 400 产生的信息来进行检索的模块 602。然 后, 所获得检索结果被返回给查询用户。 0091 以上对本发明的基本思想进行了描述, 本领域技术人员应当理解 : 本发明提供了 以下优点中的一个或多个 : 0092 可以。
47、组合 Web 消息和 IoT 以提供可理解的 IoT。 0093 - 分配 Web 消息给相关 “物体” 0094 - 用元数据丰富物体的观测 0095 - 其以自然语言而不是以定量的数据、 图像、 视频等 ; 0096 - 其传递情感观点而不是中性数据 ; 0097 - 其反映不同人的不同观点。 0098 用 Web 消息丰富 “物体” 0099 - 识别即时微博贴子与 “物体” 之间的关系 0100 - 分配这些贴子作为标签给 “物体” 0101 - 支持对物体的搜索和挖掘功能 0102 - 用户可以用自然语言查询来进行搜索 0103 - 检索相关的微博贴子 0104 所属技术领域的技术人。
48、员知道, 本发明可以体现为系统、 方法或计算机程序产品。 因此, 本发明可以具体实现为以下形式, 即, 可以是完全的硬件、 完全的软件 ( 包括固件、 驻 留软件、 微代码等 )、 或者本文一般称为 “电路” 、“模块” 或 “系统” 的软件部分与硬件部分的 组合。此外, 本发明还可以采取体现在任何有形的表达介质 (medium of expression) 中的 计算机程序产品的形式, 该介质中包含计算机可用的程序码。 0105 可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。 计算机可用 的或计算机可读的介质例如可以是 - 但不限于 - 电的、 磁的、 光的、 电磁的、 红外线。
49、的、 或 半导体的系统、 装置、 器件或传播介质。 0106 以下参照按照本发明实施例的方法、 装置(系统)和计算机程序产品的流程图和/ 或框图描述本发明。要明白的是, 流程图和 / 或框图的每个方框以及流程图和 / 或框图中 说 明 书 CN 103092880 A 11 9/9 页 12 各方框的组合, 都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算 机、 专用计算机或其它可编程数据处理装置的处理器, 从而生产出一种机器, 使得通过计算 机或其它可编程数据处理装置执行的这些指令, 产生实现流程图和 / 或框图中的方框中规 定的功能 / 操作的装置。 0107 附图中的流程图和框图, 图示了按照本发明各种实施例的系统、 方法和计算机程 序产品的可能实现的体系架构、 。