ImageVerifierCode 换一换
格式:PDF , 页数:33 ,大小:11.18MB ,
资源ID:4258045      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zhuanlichaxun.net/d-4258045.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(结合作为服务的信息的语义更新和自适应接口.pdf)为本站会员(1****2)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(发送邮件至2870692013@qq.com或直接QQ联系客服),我们立即给予删除!

结合作为服务的信息的语义更新和自适应接口.pdf

1、(10)申请公布号 CN 102792301 A (43)申请公布日 2012.11.21 C N 1 0 2 7 9 2 3 0 1 A *CN102792301A* (21)申请号 201180013387.9 (22)申请日 2011.03.11 61/313,186 2010.03.12 US 12/781,963 2010.05.18 US G06F 17/40(2006.01) G06F 17/30(2006.01) G06F 15/16(2006.01) (71)申请人微软公司 地址美国华盛顿州 (72)发明人 M克斯拉维 (74)专利代理机构上海专利商标事务所有限公 司 311

2、00 代理人范玮 (54) 发明名称 结合作为服务的信息的语义更新和自适应接 口 (57) 摘要 响应于对来自数据集的数据的请求,例如,响 应于对数据集的查询,来推断描述数据集的附加 语义信息,包括分析基于对数据的请求所提取的 结果子集以便确定附加语义信息。附加语义信息 可被发布者验证为正确的,或在概率上满足正确 性。基于附加语义信息的映射信息可随着系统学 习附加语义信息(例如,与给定列表示什么以及数 据类型表示了什么有关的信息)而维持和更新,并 且可更新未来数据请求的形式(例如,基于URL的 查询)以便更紧密地与经更新的附加语义信息相 对应。 (30)优先权数据 (85)PCT申请进入国家阶

3、段日 2012.09.11 (86)PCT申请的申请数据 PCT/US2011/028141 2011.03.11 (87)PCT申请的公布数据 WO2011/112960 EN 2011.09.15 (51)Int.Cl. 权利要求书2页 说明书16页 附图14页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 16 页 附图 14 页 1/2页 2 1.一种用于主存数据的方法,包括: 由第一控制区域中的至少一个计算设备经由至少一个网络从第二控制区域中的至少 一个计算设备接收数据请求,该数据请求适用于由该第一控制区域中的至少一个计算设备 所存储的至少一

4、个数据集; 响应于该数据请求,基于该数据请求从该至少一个数据集提取结果子集; 从该结果子集推断描述该至少一个数据集的附加语义信息;以及 基于该附加语义信息来形成或更新描述该至少一个数据集的标识符的映射信息。 2.如权利要求1所述的方法,其特征在于,还包括:基于该附加语义信息来更新与对该 至少一个数据集的未来数据请求相关联的语义。 3.如权利要求1所述的方法,其特征在于,所述形成或更新包括:基于该附加语义信息 来形成或更新该至少一个数据集的至少一个列名称。 4.如权利要求1所述的方法,其特征在于,所述接收包括接收适用于至少一个结构数 据集的查询。 5.如权利要求1所述的方法,其特征在于,所述提取

5、包括提取结果子集,该结果子集是 从执行该数据请求中返回的。 6.如权利要求1所述的方法,其特征在于,所述提取包括随机地或半随机地提取结果 子集,该结果子集是从执行该数据请求中返回的。 7.如权利要求1所述的方法,其特征在于,所述提取包括提取结果子集,该结果子集是 从执行从该数据请求所导出的至少一个数据请求中返回的。 8.如权利要求1所述的方法,其特征在于,所述推断包括:从该结果子集中推断描述该 至少一个数据集的数据类型的语义信息。 9.如权利要求1所述的方法,其特征在于,所述推断包括:从该结果子集中推断描述该 子集和至少一个预定类型的数据之间的关系的语义信息。 10.如权利要求1所述的方法,其

6、特征在于,所述推断包括:从该结果子集中推断描述 该子集和至少一个预定类别的类型的数据之间的关系的语义信息。 11.一种用于发布数据的方法,包括: 由第一控制区域中的至少一个接收计算设备从第二控制区域中的至少一个发布计算 设备接收由该至少一个发布计算设备所发布的至少一个数据集; 分析该至少一个数据集的子集,并且推断关于该至少一个数据集的语义信息,该语义 信息与标识同该至少一个数据集的数据相关联的信息有关、或与该至少一个数据集的数据 的类型有关;以及 向该至少一个发布计算设备请求验证由所述推断进行推断的语义信息是正确的。 12.如权利要求11所述的方法,其特征在于,还包括: 响应于接收该验证,基于

7、该语义信息来形成或更新描述该至少一个数据集的标识符的 映射信息。 13.如权利要求11所述的方法,其特征在于,还包括: 响应于接收该验证,基于该语义信息来形成或更新描述至少一个结构数据集的列的映 射信息。 14.如权利要求11所述的方法,其特征在于,还包括: 权 利 要 求 书CN 102792301 A 2/2页 3 响应于接收该验证,还包括:基于该语义信息来重新定义与对该至少一个数据集的查 询相关联的语义。 15.如权利要求11所述的方法,其特征在于,还包括: 响应于接收该验证,还包括:基于该语义信息来重新定义经由至少一个统一资源标识 符(URI)或统一资源定位符(URL)所实现的查询相关

8、联的语义。 权 利 要 求 书CN 102792301 A 1/16页 4 结合作为服务的信息的语义更新和自适应接口 技术领域 0001 本发明涉及响应于对经由一个或多个网络可访问的一个或多个数据集进行查询, 基于一个或多个推断来更新语义和/或接口。 0002 背景 0003 作为关于一些常规系统的背景技术,计算设备在传统上已在设备本地存储了信息 以及相关联的应用和数据服务。但是,随着在线和云服务的演进,信息正越来越多地移至网 络提供者,该网络提供者代表设备来不执行服务、执行服务的一些或全部。能够存储数万亿 字节数据(且在将来潜在可能的千万亿字节、百万万亿字节数据)的网络存储场的演进创建 了在

9、云中模拟本地场景且使主设备与外部存储分隔开的机会。 0004 然而,没有云服务或网络存储供应商能够有效地提供信息来作为任何平台上的服 务,使得出版商、开发者以及消费者能以可为跟踪并审计所涉及的所有事务的方式容易地 发布、专门研究和消费任何种类的数据。另外,当今,由于相异数目的内容提供者及其通常 用于定义数据的专有模式(其中相异的内容提供者无法彼此协调他们针对云的发布动作), 因此存在极少的利用此类相异发布动作的集体能力的机会。实际上,为了消耗吸引发布的 听众(诸如订户或开发者),两个不同的数据集看起来它们似乎具有两个不同形状即使 在存在数据或数据类型的一些或相当重叠的情形中。 0005 更具体

10、而言,当前,由不同的各方上传数据的方式使得不同数据集的类似列(例 如,两者都表示城市)即使被命名了将具有不同的名称,这些名称可以是或不是 类似的。在任一情形中,人类介入底层数据和验证是用于确定什么样的列应当被相同或类 似地命名,或者另外确定数据的类型或列之间可能是什么样的关系的常规方式。除不能缩 放之外,这种介入底层数据对于希望保证其数据保持不变的发布者而言可能并非是合意 的对于可能被发布到云的专用数据集的主机而言亦会如此。 0006 当今设备和数据服务的上述缺点仅仅旨在提供对常规系统的一些问题的总览,并 且不旨在是穷尽性的。在仔细阅读了以下详细描述后,现有技术的其他问题和各非限制性 性实施例

11、的对应好处可变得显而易见。 0007 概述 0008 此处提供了简化的概述以帮助能够对以下更详细的描述和附图中的示例性、非限 制性实施例的各方面有基本或大体的理解。然而,本概述并不旨在是详尽的或穷尽的。相 反,本概述的唯一目的在于,以简化的形式提出与一些示例性、非限制性实施例相关的一些 概念,作为以下各实施例的更详细的描述的序言。 0009 可结合来自任何平台的作为服务的信息,将各种数据集存储在云中,而经由查询 API(例如,基于统一资源标识符(URI)的查询)进行程序性访问。当对数据执行越来越多 的查询时,描述数据集的API和语义是随着系统学习和自描述其存储的数据(如所发布的 那样)而按演进

12、方式自适应的,从而提供额外机会来推断与数据集有关的信息。 0010 可以响应于对来自数据集的数据的请求(例如,响应于对数据集的查询)来推断描 述数据集的附加语义信息,包括分析基于对数据的请求所提取的结果子集以便确定附加语 说 明 书CN 102792301 A 2/16页 5 义信息。附加语义信息可由发布者验证为正确的,或在概率上满足正确性。基于附加语义 信息的映射信息可随着系统学习附加语义信息(例如,与给定列表示什么以及数据类型曾 表示什么有关的信息)而维持和更新,并且可更新未来数据请求的形式(例如,基于URL的查 询)以便与经更新的附加语义信息更紧密地对应。 0011 以下更详细地描述其他

13、实施例和各非限制性示例、场景和实现。 0012 附图简述 0013 参考附图进一步描述各非限制性实施例,在附图中: 0014 图1是示出用于更新映射信息的示例性非限制性实施例的流程图,该映射信息与 从任何平台提供的作为服务的信息相关联; 0015 图2是示出用于结合从任何平台提供的作为服务的信息来请求发布者对所推断 的语义进行验证的示例性非限制性实施例的流程图; 0016 图3是示出用于更新与从任何平台提供的作为服务的信息相关联的数据请求API 的示例性非限制性实施例的流程图; 0017 图4是结合从任何平台提供的作为服务的信息的实施例、示出由发布者进行发布 的示例性非限制性动作的框图; 00

14、18 图5是结合从任何平台提供的作为服务的信息的实施例、示出由开发者或其他消 费者从所发布的数据集请求数据的示例性非限制性动作的框图; 0019 图6是结合从任何平台提供的作为服务的信息的实施例、示出响应于数据请求来 推断语义信息的示例性非限制性动作的框图; 0020 图7是结合从任何平台提供的作为服务的信息的实施例、示出由发布者验证所推 断的信息的示例性非限制性动作的框图; 0021 图8是结合从任何平台提供的作为服务的信息的实施例、示出基于自动更新的访 问API的更丰富的未来数据请求的示例性非限制性动作的框图; 0022 图9是示出用于从任何平台提供的作为服务的信息的非限制性基础结构的示例

15、 性序列的流程图; 0023 图10是示出用于从任何平台提供的作为服务的信息的示例性非限制性基础结构 的框图; 0024 图11是示出用于从任何平台提供的作为服务的信息的基础结构的实现具体细节 的示例性非限制性集合的框图; 0025 图12例示来自用于从任何平台提供的作为服务的信息的示例性基础结构的示例 性数据消费; 0026 图13是表示其中可实现在此处所述的各个实施例的示例性、非限制性联网环境 的框图;以及 0027 图14是表示其中可实现此处所述的各个实施例的一个或多个方面的示例性、非 限制性计算系统或操作环境的框图。 0028 详细描述 0029 概览 0030 如背景技术中所讨论的,

16、提供不同的数据集的不同的内容提供者通常就其数据集 中所表示的信息或数据类型的可能的重叠不进行协调,因为他们通常不知晓彼此的数据 说 明 书CN 102792301 A 3/16页 6 集,或者没有这样做的任何特定动机。在这样的信息服务中:其中在发布之后由存储实体 提供的保证之一是对底层数据集没有干扰,使得所发布的数据保持未被更改,当前,除了通 过自定义应用的内部知识和开发以外,在开发者或消费侧不存在利用这样的集体能力的方 式。 0031 例如,内容提供者A可发布包括关于纬度、经度、以及对应的犯罪率的列的表,例 如,列名为lat(纬度)、long(经度)、和cri_rate(犯罪_率)。内容提供

17、者B可发布城市 的电影院信息,且x和y坐标对应于纬度和经度,除了城市的列可替代地被称为“名称”,例 如列名为_theatre(电影院)、_Name(名称)、_x和_y。因此,消费侧上的任何常规装置不 知晓的是,通过联结两个集合(其中数据本身不能在存储侧被检测,除非没有发布者所持有 的正确访问许可),实际上可确定城市中具有最低犯罪率的电影院,因为不同列的语义含义 仍是难懂的。 0032 因而,期望确定_x和_y为纬度和经度,_Name意味着城市名称,而_theatre指的 是电影院名称。随后,查询两个数据集的人可根据适当的查询以明智的方式联结表,以便返 回与电影院附近的犯罪率有关的有用数据在没有

18、这些信息的情况下不能被辨别的信 息。尽管常规上这一工作可通过在服务器侧直接在幕后检测数据集来手工完成,其中数据 有效地在服务器侧不可见,例如,因为开发者可基于某些特权仅对数据执行某些类型的查 询,但是执行这样的相关联结的人当前会有困惑。 0033 因此,在各种非限制性实施例中,基于开发者对数据集的实际(准许的)查询,可以 检测或部分地检测这些查询的结果、或基于根据这些查询的自动查询的结果,以便作出与 数据有关的某些推断,并且随后用所学习的语义信息来扩充数据集,从而不仅通过提供先 前被认为表示不同的数据/类型的列之间的映射来改进联结的潜力,而且用于查询的语言 可基于这一知识来更新以便有助于更具描

19、述性和逻辑的查询。因此,为查询所使用的语言 也适应于这样的推断,以便有助于更清楚、更有表现力且直观的句法以供作出这样的数据 请求。就此,根据各实施例,这些对信息的网络请求(例如查询)在联结、过滤、合并等的功效 和能力以及便于使用方面进行自适应地改进。 0034 下面提供这些和其他各示例性、非限制性实施例和场景的进一步细节。 0035 结合作为服务的信息来更新数据集语义和访问API 0036 如所提及的,在作为服务的信息的上下文中,存在可在数据集中表示的有限数目 个事物(电话号码、城市代码、地址、城市、州、邮政编码等),其可或者从列的名称推断或者 通过对数据本身(例如,前1000个事物)进行加权

20、匹配算法来推断。对于重要数据,虽然人 类开始针对大量数据分类数据,但是此类常规人类分类无法良好地缩放,且如果发布者重 新发布具有不同语义的数据,则人类表征可能已过时。 0037 因此,在各个实施例中,分析从对数据集进行查询得到的随机样本,以确定是否可 推断数据的类型。例如,内容提供者例如根据专有模式来提供一组拙劣描述的数据。基于 或响应于接收到的对数据的数据请求,可从数据集提取样本集合,以应用一组算法来推断 数据的语义含义,例如基于数据中的线索或列名称、或其他列名称推断数据类型或列名称。 由于发布者通常不希望所发布的他或她的数据被更改,因此可由系统维护一组经扩充的语 义(例如,映射)来描述由系

21、统作出的推断,例如,对于较早的示例,_x=纬度。在这点上,作 为结果,下一开发者被给予更多的关于查询此数据集的信息,在此情形中,可就具有经度列 说 明 书CN 102792301 A 4/16页 7 的其他数据集执行更多联结、过滤等,并且另外,先前包括“_x()”作为句法的部分的访问 API自身可被更新为“latitude()(纬度())”,从而使得访问API随时间进行自描述, 以进一步帮助开发者。在一个示例中,查询API经由URL来实现,例如OData,关于它的更多 信息可在下文中找到。 0038 在一个实施例中,基于已知的数据分布(诸如给定人口的年龄跨度)的加权算法可 被用来确定给定的数据

22、或列名称集在概率上表示什么,例如,确定浮点数字集合表示年龄。 0039 以此方式,在不使得发布数据比现在更困难的情况下,可通过间接方式(例如,对 语义映射的维护)来对内容提供者实施诸如电话号码和地址之类的某些惯例。这样,鼓励 内容提供者进行发布,但是消费者仍从数据统一性的意义上获益。例如,电话号码是数字 数据的示例,其中可相对容易地如此标识数字数据,尽管存在诸如区域码括号、破折号等变 体。通过基于推断的语义映射对此表示进行标准化除了使访问API随时间适应成越来越自 描述(例如,将列“PN”重新命名为“电话号码”或更具描述性的其他东西)之外,还使得开发 者和订户对此数据的消费更容易。 0040

23、另外,发布者也可选择参与。虽然在上传时间不需要发布者参与,但是系统可作出 推断,并要求发布者验证推断,以使得可从开始展示映射信息和描述性访问API。例如,当 系统推断发布者正上传工资信息时,系统可询问发布者那是正被表示的净工资还是薪资总 额。 0041 经扩充的语义使得先前无关的两个较小的表能被联结、合并、过滤等,其中推断它 们包含类似的表、列、数据类型等,而不管最初不同的语义。 0042 可使用各种算法来推断关于语义的信息,例如,可使用加权匹配技术,对查询结果 的子集的手动审阅,对查询结果的子集的社区审阅(例如,类似Wikipedia批准),对数据质 量分数的指派,与数据分开地运送列的数据。

24、如所提及的,除了推断数据表示什么之外,数 据也可被“清除”。例如,可按许多不同的格式来表示时间,并且可知晓,给定列表示时间;然 而,结合跨数据集操作将此类不同的格式转换成世界时间格式具有益处。如所讨论的,电话 号码和地址是可跨不同的表示格式被标准化的信息的另一示例。 0043 而且,可从实际结果集中取出随机样本的子集来作出此类推断,并且因此,系统可 随时间而改进,因为作出了附加查询且样本人群变得更多和更多样。列的名称可以是决定 性或者也可以是信息性的,例如,如果列被命名为citcode(城市代码),则系统本质上知晓 正表示了什么。可分层地应用以上技术中的任一个或多个来推断此类附加语义信息。在这

25、 点上,能够通过访问API调用的机制来达成此类语义更新而非通过如发布者数据库问 题所发布的整体那样检查数据集来纯粹地处理问题在API调用开始反映所学习的信息 时,在API调用的句法本身内实现动态更新以及随时间变得更准确的描述性的系统。 0044 如所讨论的,可结合来自任何平台的作为服务的信息经由开放数据协议来通过 URL上传数据。基于消费者正请求什么,可通过检查命名数据的方式并基于返回的实际数据 集来执行对数据的推断。结果,在下次有更好的名称的情况下,API(由URL表示)被自动更 新,以使得下次假定为http:/dallas/_a(SEA)的查询的语义可在下次被更好的理解 为http:/da

26、llas/./City(Seattle)。换言之,保持在通过URL来请求和处理时在数据上 构建逻辑语义不仅确定列之间的映射,还更一般地改进URL的语义或访问API。 0045 图1是示出用于更新与从任何平台提供的作为服务的信息相关联的映射信息的 说 明 书CN 102792301 A 5/16页 8 示例性非限制性实施例的流程图。在100,第一控制区域中的计算设备经由网络从第二控制 区域中的计算设备接收数据请求。数据请求(例如查询,或对于更具体的示例而言,基于URL 的查询)适用于向第一控制区域中的计算设备发布的且由第一控制区域中的计算设备存储 的一个或多个数据集。在110,响应于数据请求,基

27、于数据请求从一个或多个数据集中提取 结果子集(例如随机或半随机子集)。可从数据请求本身、或从并行执行的派生数据请求中 返回或提取结果子集,但是要基于数据请求的句法。 0046 在120,从结果子集中推断描述一个或多个数据集的附加语义信息。语义信息可包 括但不限于描述至少一个数据集的数据类型或者子集与至少一个预定类型的数据之间的 关系(例如,数据或数据类型与预定义类别的数据或数据类型之间的关系)的语义信息。在 130,基于附加语义信息来形成或更新描述一个或多个数据集的标识符(例如,列名称)的映 射信息。另外地,与对一个或多个数据集的未来数据请求相关联的语义也可基于附加语义 信息来更新。 0047

28、 图2是示出用于结合与从任何平台提供的作为服务的信息来请求发布者对所推 断的语义进行验证的示例性非限制性实施例的流程图。 0048 在200,第一控制区域中的接收计算设备从第二控制区域中的发布计算设备接收 由发布计算设备所发布的一个或多个数据集。在210,分析一个或多个数据集的子集。基于 该分析,在220,推断关于一个或多个数据集的语义信息,该语义信息与标识同一个或多个 数据集的数据相关联的信息有关、或与一个或多个数据集的数据类型有关。在230,可请求 发布者(例如,发布计算设备)验证所推断的语义信息,以确认通过该推断而推断出的语义 信息是正确的。 0049 在各实施例中,响应于接收来自发布者

29、的验证,可基于语义信息来形成或更新描 述至少一个数据集的标识符(例如,列名称)的映射信息,或者可基于语义信息重新定义或 细化与对一个或多个数据集的数据请求(例如,查询或URL查询)相关联的语义。 0050 图3是示出用于更新与从任何平台提供的作为服务的信息相关联的数据请求API 的示例性非限制性实施例的流程图。在300,经由网络接收数据请求,该数据请求适用于可 经由该网络来访问的数据集。在310,基于数据请求来检索来自数据集的结果子集。在320, 从子集中推断描述数据集的辅助语义信息。在330,基于辅助语义信息来修改与对数据集的 数据请求相关联的语义。 0051 出于对关于一个或多个实施例的附

30、加解释,当来自任何平台的作为服务的信息 作为资源被提供给发布者以鼓励上传数据时,预期该发布者上传“难看的”数据集(即,不 遵守任何特定约定或标准的数据集)是合理的,这可能使得难以理解它们本来表示什么。 另外,当对发布的内容期望绝对机密性和完整性预期时,预期发布者想要实施这样的条件 (除了对以授权方式查询数据的可审计的实体以外)也是合理的。在这一情况下,不能在 后端分析数据以寻找这样的语义含义,相反,机会出现在授权的查询展示表示数据内容的 结果时。在一个非限制性实现中,经由开放数据协议向系统呈现这样的查询,开放数据协 议的更多细节在下文中呈现。例如,开发者或其他授权的订户可能用以下URL:htt

31、p:/ InfoasService/city(Seattle)来查询与西雅图的城市相关联的信息。就此,在一个或 多个实施例中,通过基于对API请求结果或其子集的推断、并且还基于URL/URI的参数来推 断与数据有关的语义信息,使得可基于所推断的信息从中处理动态重映射,从而创建随时 说 明 书CN 102792301 A 6/16页 9 间的自描述系统查询越多、推断越好。 0052 在一个非限制性实施例中,将元数据添加到列中。例如,最初,开发者可基于文档 知道从“city(城市)”列中寻求Seattle(西雅图)。然而,在基于特定查询返回了100个 随机样本之后,可以推断“city”实际上表示“

32、West coast cities(西海岸城市)”。在这一 方面,作出与数据种类有关的推断,并且随时间建立更准确的逻辑语义。例如,在最初将标 记为_A的列推断成表示城市信息的示例中,在进一步查询之后,排除了除西海岸城市之外 的任何东西的结果可导致以下表征:_A指的是美国西海岸的城市。因此,与这一_A列相关 联的语义在关于西海岸城市的元数据最终被添加时随时间改进。另外,访问API可基于经 改进的语义而自动地更新。例如,作为结果,查询http:/InfoasService/_A(Seattle) 演进成http:/InfoasService/WestCoastCity(Seattle),并且变得更

33、具描述性且更直 观(并且由此对于作为服务的信息的消费侧更有用)。 0053 就此,各实施例提供自适应API以及数据的消费者(例如,订户、开发者等)正在查 看什么的语义。使用的数据越多,可以成形的API语义也越多,使得可以形成对表(可按新 方式被联结、过滤等)的更丰富的查询。可将辅助数据存储在底层发布的数据顶部或与其分 开存储,因为如所提及的,可能对发布者有这样的要求:所发布的数据的保管者不更改该数 据。例如,系统可在表之间创建向表展示的映射,而从不更改表的任何底层数据。或是服务 侧或是消费侧可基于从系统的推断来执行这样的联结、合并、过滤等。 0054 另外,一旦发现要将两个数据集/表相关,就可

34、自动地定义联结这两个数据集/表 的API。因此,在一个方面,系统维护对列的映射,而在另一方面,可基于API调用自动地对 给定数据集执行上述推断。由此,在数据请求和数据存储之间存在某一程度的间接关联。采 用随机样本结果或模式,可以推断列类型,而不必访问存储本身。 0055 图4是结合从任何平台提供的作为服务的信息的实施例、示出由发布者进行发布 的示例性非限制性动作的框图。图5至8建立在图4的说明性而非限制性的示例上,相同 标号指代相同的元素,但是注意到出于解释目的,这样的元素仅仅是说明性和示例性的。如 图4中所示,发布者400将数据发布到来自任何平台的作为服务的信息410,而基本上对形 式没有限

35、制;然而,对于给定开发者而言所上传的形式未被更改却是重要的。由此,数据集 412保持未被更改,数据集414保持未被更改,数据集416保持未被更改,依次类推。 0056 图5是示出开发者或其他消费者请求来自所发布的数据集的数据的示例性非限 制性动作的框图。就此,一旦信息410被发布,开发者420或其他订户就可经由所发布的 API以各种方式来消费信息410。在一个实施例中,这可通过基于URL的查询指定来实现, 然而,可采用作出数据请求425的任何协议。就此,基于数据请求425,通常返回数据结果 435,例如结果集。 0057 图6是示出响应于数据请求来推断语义信息的示例性非限制性动作的框图。就 此

36、,除了图5的返回结果435以外、或在图5的返回结果435之前,图6示出语义推断组件 430可基于数据请求425来对样本结果445进行操作。推断组件430的输出可以是扩充的 语义信息和更新的规则,扩充的语义信息描述来自信息410的有关信息,而更新的规则用 于作出在描述性或直观的使用方面有所改进的未来数据请求455。更新的语义和规则455 也可分开执行。 0058 图7是示出发布者验证所推断的信息的示例性非限制性动作的框图。在一个实施 说 明 书CN 102792301 A 7/16页 10 例中,一旦确定了辅助语义,就可将验证推断请求480发送给发布者400的有关发布实体。 例如,如果发布实体确

37、认推断490,则语义可在相关的所发布的数据集顶部被更新。 0059 图8是示出基于自动更新的访问API的更富有的未来数据请求的示例性非限制性 动作的框图。除了由推断引擎提供辅助语义之外,如所提及的,也可改进访问API本身。使 用更丰富的数据请求465和改进的数据集语义,先前不相关的数据集可通过联结、过滤、合 并、为查询提供更大的数据池的操作而被相关。对表进行几何或指数合并的能力随着时间 在创建强大的集中式(且大量的)知识体系方面是有力的,该知识体系描述一应俱全的所有 东西,其中针对它们的查询可被运行,并且相关引擎可发现与人类有关的可能有用的新东 西。作为在来自任何平台的作为服务的信息的消费或数

38、据分析侧的推断工具的潜在能力的 示例,因为先前不相关的项可能由于推断的力量而最终变成可能相关,所以在健康的上下 文中,可能发现两个疾病是相关的,从而导致共同的治疗努力。 0060 随时间的自描述(即,随着下一查询到来并形成另一组规则)导致一组自适应的查 询API。如所提及的,发生的推断可根据用于推断随时间自描述的数据的一组分层方式而发 生,例如,作出推断的尝试的分层结构,从数据类型的分析,到加权的匹配/映射技术,到列 名称的分析,到发布者类型的分析,到所有其他东西失败时的人类干预等等,从而建立如何 推断样本查询结果表示什么的分层顺序。 0061 用于作为服务的信息的补充上下文 0062 以下描

39、述包含关于潜在非限制性基础结构、体系结构和/或相关联服务的补充上 下文,以进一步帮助理解以上实施例中的一个或多个。在此章节中描述的任何附加特征中 的任一个或多个可被纳入到以上针对来自任何平台的作为服务的信息就更新数据集语义 和相对应的访问API描述的实施例中的任一个或多个中。虽然实施例或特征的此类组合是 可能的,但是为了避免质疑,在本公开中所阐述的实施例不应当被理解为对本文中所描述 的任何其他实施例进行限制。 0063 作为一些附加背景,现今,虽然可通过诸如因特网之类的网络获得信息,但是现今 的供应倾向于在访问和框架上的专有,并由此在第三方提供者参与方面进行限制。例如,目 前,没有足够的企业模

40、型来供商业内容提供者以不放弃此类商业内容的至少一些价值的方 式来发布其数据,并且由此在历史上,有价值的内容的所有者倾向于通过有限的专有手段 来展示其内容。或者,在其中此类内容的存储由安全云存储提供者提供的情形中,当消费者 必需在数千个表中进行跋涉来潜在地找到感兴趣的项目时,单独存储中存在很少的价值。 另外,甚至在云存储提供者尝试从各个提供者收集数据的情形中,最好此类提供者可包括 适度、较小或不完全的数据目录。 0064 大部分此区域中潜在增长的受阻是处理和IP(例如,版权)上的不信任的结果。简 言之,大人物不信任具有王冠上的宝石(crown jewels)的云供应商,因为单次损害会使数 据的价

41、值消亡。另外,此类云供应商至今相对于出于其信息需要希望从这样的数据中提取 值的信息工作者处于弱势,并且另外,由于这样的系统的专有特性,开发者迄今具有的扩展 用于开发信息能力的工具的能力有限。 0065 因此,以上针对一个或多个实施例描述的,提供了用于作为服务的信息的基础结 构,其容纳所有个体类:发布者、开发者、信息工作者、和消费者。基础结构实现信息发现,例 如,用于发现、获取、和消费结构化和团块数据集以加强任何平台上的任何应用和任何形状 说 明 书CN 102792301 A 10 8/16页 11 因子(例如,任何屏幕大小)的能力。该基础结构还实现经纪业务,例如,伙伴驱动的生态系 统和全球到

42、达(global reach),用以向开发者和信息工作者递送数据和功能。基础结构还 允许分析学和报告,例如,单个点击分析,以用公共数据来增大私有数据。在这点上,由于基 础结构的各种实现的开放特性,任何应用开发者可开发移动、云、和/或桌面应用,以促进 数据的发布、处理、查询和/或检索。 0066 为了编写应用,人们可注册帐户信息(例如,用Live ID登录)并被提供藉由其来经 由结构化和实时web服务访问“团块”的帐户密钥,该结构化和实时web服务是针对本文中 关于一个或多个实施例描述的作为服务的信息的基础结构启用的。在一个方面,开发者可 在编码开始之前视觉地探索API。例如,服务资源管理器模块

43、或模块组可被开发者用来视觉 地构建代表性状态传输(REST)API查询,并根据各种包来预览内容,这些包诸如但不限于 可扩展标记语言(XML)、ATOM、RAW(用于团块和实时内容)、或者按表视图(例如,用于结构化 数据)。例如,开发者仅仅提供他或她的帐户密钥,并选择来预览内容。 0067 因此,开发者可在任何平台上构建移动、桌面或服务应用。虽然所得到的REST查 询可被拷贝到新的开发者应用,作为服务的信息的基础结构还实现这样的能力:该能力是 用于消耗自动生成的C#代理类以排除任何创建本地对象模型或者生成和理解XML或web 服务代码的细节的需要。在这点上,在另一非限制性的有益方面,开发者可下载

44、代理类,并 将它们包括在开发者的应用中以通过少至几行代码来消耗服务数据。 0068 在这点上,作为服务的信息的基础结构的各个实施例允许开发者和信息工作者即 时地、周期性地、或在由应用开发者所指定的某一其他时间函数上寻找、获取、和消耗其应 用和分析情景中的数据。如所提及的,开发者获得帐户密钥,该帐户密钥随后伴随对网络服 务的web服务调用,从而使得如本文中关于一个或多个实施例所描述的作为服务的信息能 够进行内容请求以及订阅感兴趣的内容。 0069 因而,在一个方面,由本文中关于一个或多个实施例所描述的作为服务的信息的 基础结构所提供的帐户密钥是开发者的私有密钥。此密钥使得能够对结合开发者的应用来

45、 使用的内容进行记账和报告。由此,此私有开发者密钥应当不打算被进行共享,并且应当采 取确保密钥安全的预防措施,其中开发在移动或桌面解决方案上运行的本机应用并计划结 合密钥作为部署的部分。例如,密码存储可被用来确保密钥未被破解。 0070 除了被用于跟踪消耗内容的应用的帐户密钥之外,唯一性用户ID是全局唯一性 标识符(GUID),其表示开发者的个体用户。此字段允许对内容进行记账,其是按程序以每 个用户为基础进行收费的。例如,如果开发者开发移动应用,且个体用户消费该应用,开发 者在每次代表该个体用户作出请求时应当返回相同的GUID。然而,如果开发者开发web门 户,并代表各个用户发出web服务请求

46、,则由开发者向访问门户的每个唯一性用户来指派 新的GUID。例如,每个注册用户可被指派GUID或者每个IP地址/端口组合指派唯一性用 户IDGUID等。 0071 虽然可在任何平台上构建REST API来从如对本文中的一个或多个实施例描述的 作为服务的信息的基础结构消费内容,在一个实施例中,可通过C#为服务动态生成代理 类。达成此目的是下载目标模型、将它们添加到当前开发者项目、以及更新帐户和唯一性用 户值的问题。 0072 如果开发者想要手动发出请求,以下提供了一示例,但是对于任何服务,可使用预 说 明 书CN 102792301 A 11 9/16页 12 览功能,或者也可调用从服务资源管理

47、器创建的URL。以下例示了对样本数据集的示例性非 限制性REST请求。注意:一些或全部调用会是安全套接字层(SSL)安全的。 0073 https:/ 0074 在请求的头部中放置了$accountKey和$uniqueUserId元素,例如,其看起来如 下: 0075 $accountKey=开发者帐户密钥 0076 $uniqueUserID=表示唯一用户的GUID 0077 $accountKey中的值表示开发者的帐户密钥在帐户标签中找到,而 $uniqueUserID中的值表示访问服务的唯一用户的GUID。 0078 因此,如对本文中的一个或多个实施例描述的作为服务的信息的基础结构是新

48、 的服务或框架,其允许开发者和信息工作者简单地发现、购买、和管理任何平台中的优质 (premium)数据订阅。基础结构是信息市场,其将来自领先商业数据提供者和权威公共数据 源以及非权威发布者的数据、图像和实时web服务一起带入单个或多个位置,这些位置在 公共供应和记账框架下是统一的。另外,开发者和信息工作者可基本上通过任何平台、应用 或业务工作流来消费此优质内容。 0079 用于使用本文中关于一个或多个实施例描述的作为服务的信息的基础结构的一 些示例性非限制性的情景包括:(a)找到对于消费者和商业情景的下一代“杀手应用”的优 质内容,(b)发现并许可有价值数据,以改进现有应用或报告,(c)以创

49、新方式将不同数据 集集合在一起,以获得对业务性能和过程的新了解,例如,聚集算法;(d)针对团块、结构化 和实时web服务,即时并可视地探索跨所有内容提供者的API,以及(e)消耗现有应用和数 据库系统(诸如现有文字处理、电子表格、数据库查询系统等)内的第三方数据,以进行丰富 的报告和分析。 0080 对于开发者而言,益处包括:(a)试用订阅允许在没有支付数据使用费的情况下 调查内容并开发应用,(b)简单的交易和订阅模型,允许对数百万美元的数据集进行“现用 现付(pay as you go or grow)”访问,(c)跨数据集的一致的基于REST的API促进任何平 台上的开发,(d)视觉地构建和探索API,预览结果;以及(e)自动C#代理类提供即时对象 模型并排除编写冗长XML和web服务代

copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1