用于表征拓扑网络扰动的系统和方法.pdf

上传人:li****8 文档编号:6147276 上传时间:2019-04-19 格式:PDF 页数:50 大小:3.54MB
返回 下载 相关 举报
摘要
申请专利号:

CN201280041314.5

申请日:

2012.08.24

公开号:

CN103843000A

公开日:

2014.06.04

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 19/00申请日:20120824|||公开

IPC分类号:

G06F19/00(2011.01)I; G06F19/12(2011.01)I

主分类号:

G06F19/00

申请人:

菲利普莫里斯生产公司

发明人:

F·马丁; A·塞沃尔

地址:

瑞士纳沙泰尔

优先权:

2011.08.26 US 61/527,946

专利代理机构:

中国国际贸易促进委员会专利商标事务所 11038

代理人:

李玲

PDF下载: PDF下载
内容摘要

这里公开用于确定生物系统的网络模型中的节点的度量的系统、计算机化方法和产品。这些系统和计算机化方法可被用于基于生物系统中的实体的子集的测量的活动数据量化生物系统对一个或更多个扰动的响应。基于活动数据和生物系统的网络模型,导出代表节点在网络中的相对重要性的中心度值。中心度值被用于表征网络中的拓扑扰动,这些拓扑扰动诸如用于执行敏感度分析、可视化生物系统中的扰动的拓扑影响或导出对生物系统对诸如暴露给化学媒介的扰动的响应进行量化的分数。

权利要求书

权利要求书
1.  一种用于确定生物系统的网络模型中的节点的度量的计算机化方法,包括:
在第一处理器处接收与生物系统对媒介的响应对应的一组处理数据,其中,生物系统包含多个生物实体,各生物实体与所述多个生物实体中的至少一个其他生物实体相互作用;
在第二处理器处接收与不暴露于媒介的生物系统对应的一组控制数据;
在第三处理器处提供代表生物系统的计算因果网络模型,所述网络模型包括:
代表生物实体的节点;
代表生物实体之间的关系的边,其中,边将相应的第一节点连接到相应的第二节点;和
通过第四处理器至少部分地基于所述网络模型来计算节点的子集的扰动指数,其中,扰动指数代表相应节点处的处理数据与控制数据之间的差异和扰动对所述相应节点的活动的影响程度;
通过第五处理器至少部分地基于扰动指数计算边的转移概率,其中,边的转移概率代表从相应的第一节点转移到相应的第二节点的可能性;和
通过第六处理器至少部分地基于所述转移概率生成节点的中心度值,其中,中心度值代表相应节点在所述网络模型中的相对重要性。

2.  根据权利要求1的计算机化方法,其中,扰动指数是相应节点的下游节点的活动测量的线性组合。

3.  根据权利要求1或2的计算机化方法,其中,边的转移概率是第二节点的扰动指数的线性函数。

4.  根据前面的权利要求中的任一项的计算机化方法,还包括通过第七处理器计算代表随机行走在稳定的状态中访问节点的概率的节点的均衡概率。

5.  根据前面的权利要求中的任一项的计算机化方法,其中,第六处理器至少部分地基于均衡概率生成中心度值。

6.  根据前面的权利要求中的任一项的计算机化方法,其中,第六处理器至少部分地基于随机行走在对其它节点的连续访问之间对相应节点的期望访问次数来生成所述相应节点的中心度值。

7.  根据前面的权利要求中的任一项的计算机化方法,其中,扰动指数进一步基于代表相应节点处的处理数据与控制数据之间的差异的倍数变化值。

8.  一种计算机化方法,包括:
在第一处理器处接收一组第一处理数据;
在第二处理器处接收一组第二处理数据;
在第三处理器处提供计算因果网络模型,所述网络模型包括:
代表生物实体的节点;和
代表生物实体之间的关系的边;
通过第四处理器至少部分地基于所述网络模型计算节点的子集的扰动指数,其中,扰动指数代表相应节点处的第一和第二处理数据之间的差异;
通过第五处理器至少部分地基于扰动指数生成相应节点的中心度值,其中,中心度值代表相应节点在网络模型中的相对重要性;
通过第六处理器计算第一节点的中心度值关于第二节点的扰动指数的偏导数,其中,偏导数代表网络模型的拓扑敏感度测量。

9.  根据权利要求8的计算机化方法,其中,计算偏导数包含确定第二节点的扰动指数的变化对第一节点的中心度值的变化的影响。

10.  一种计算机化方法,包括:
在第一处理器处提供计算网络模型,所述网络模型包括:
代表生物实体的节点;和
代表生物实体之间的关系的边;
通过第二处理器至少部分地基于网络模型生成相应节点的中心度值,其中,中心度值代表相应节点在网络模型中的相对重要性;
通过第三处理器计算中心度值在代表扰动在网络模型上的影响的谱变换矢量上的投影。

11.  根据权利要求10的计算机化方法,其中,计算中心度值的投影包含对中心度值进行滤波。

12.  一种用于量化生物系统的扰动的计算机化方法,包括:
在第一处理器处提供计算因果网络模型,所述网络模型包括:
代表生物实体的节点;和
代表生物实体之间的关系的边;
通过第二处理器至少部分地基于网络模型生成相应节点的中心度值,其中,中心度值代表相应节点在网络模型中的相对重要性;和
通过第三处理器聚合中心度值以生成代表生物系统的扰动的网络模型的分数。

13.  根据权利要求12的计算机化方法,其中,所述分数是标量值。

14.  根据权利要求12或13的计算机化方法,其中,聚合中心度值包含计算中心度值的线性组合。

15.  根据权利要求12或13的计算机化方法,其中,聚合中心度值包含计算中心度值的谱变换的线性组合。

说明书

说明书用于表征拓扑网络扰动的系统和方法
背景技术
人体经常由于曝露于可能有害的媒介而受到扰动,这在长期可能形成严重的健康风险。曝露于这些媒介可损伤人体内部的生物机制的正常功能。为了理解并量化这些扰动对人体的影响,研究人员研究了生物系统对曝露于媒介的响应机制。一些研究组广泛利用体内动物测试方法,但在从动物测试获得的响应是否可外推到人体上存在疑问。其它方法包括通过志愿人员的临床研究评价风险。但这些风险评价的执行是后验的,并且,由于疾病显露会花费几十年,因此,这些评价不足以阐明关联有害的物质与疾病的机制。另一些方法包括体外实验。虽然体外细胞和基于组织的方法作为它们的基于动物的对应方法的全部或部分替代方法被一般地接受,但这些方法具有有限的价值。由于体外方法关注细胞与组织机构的特定方面,因此它们不总是考虑在整个生物系统中出现的复杂的相互作用。
在过去的十年,作为用于阐明许多生物过程的作用机制的手段,出现了结合常规的依赖剂量的效力和毒性化验的核酸、蛋白质和代谢物水平的高产量测量。研究人员尝试将来自这些互异测量的信息与来自科学文献的关于生物途径的知识相结合,以组建有意义的生物模型。为此,研究人员开始使用可采集大量的数据的数学和计算技术,诸如聚类和统计方法,以识别可能的生物作用机制。
以前的工作探索以下的可能性:发现源自对于生物过程的一个或更多个扰动的基因表达变化的特性签名并随后在附加的数据集中评分签名的有无。这方面的大多数工作包括识别并评分与疾病显型相关的签名。这些显型导出的签名提供显著的分类能力,但缺少单个特定扰动与签名之间的必然或因果关系。因此,这些签名可代表多个相异的未知的扰动,这些扰动通过经常未知的机制导致或者源自同一疾病显 型。
一种挑战是理解生物系统中的各种单个生物实体的活动如何使得能够激活或抑制不同的生物机制。由于诸如基因的单个实体可能被包含在多个生物过程(例如,炎症和细胞增殖)中,因此基因活动的测量不足以识别触发该活动的根本的生物过程。
随机行走方法已被用于网络分析中以表征网络拓扑,例如,Komurov等(PLoS Computational Biology,August2010,6(8):e1000889)描述了数据偏置随机行走被定义并与单个随机行走相比较的方法。但是Komurov方法假定各节点具有相关的数据并且网络是缺乏方向的,但不提供概率结果,并且敏感性分析不可用。另外,当使用因果网络模型时,不是所有实体(表示为模型中的节点)都可与实验证据关联。并且,当收集特定的实验数据时,网络可能由于通过实验激活的特定机制而被不平等地扰动。鉴于以上情况,在本计算生物领域中不断需要用于在生物分子网络模型中分析高产量数据集的进一步发展且更好的方法。
发明内容
这里描述用于基于从生物系统中的实体的子集测量的活动数据来量化生物系统对一个或更多个扰动的响应的系统、方法和产品。这里描述用于基于活动数据和生物系统的网络模型导出中心度值的系统和方法。当前可用的技术不基于识别负责生物实体在微尺寸上的活动的基础机制,它们也不提供对这些实体起作用的不同的生物机制响应于潜在有害的媒介和实验条件的激活的定量评价。因此,特别需要用于鉴于生物机制来分析系统范围的生物数据、并量化生物系统响应于媒介或环境变化的变化的改进的系统和方法。
在一个方面中,这里描述的系统和方法针对用于量化生物系统的扰动(例如,响应诸如媒介暴露的处理条件或者响应多种处理条件)的计算机化方法和一个或更多个计算机处理器。计算机化方法可包括在第一处理器处接收与生物系统对媒介的响应对应的一组处理数据。 生物系统包含多个生物实体,各生物实体与生物实体中的至少一个其他生物实体相互作用。该计算机化方法还可包括在第二处理器处接收与不暴露于媒介的生物系统对应的一组控制数据。该计算机化方法还可包括在第三处理器处提供代表生物系统的计算因果网络模型。计算因果网络模型包括代表生物实体的节点和代表生物实体之间的关系的边。边连接相应的第一节点与相应的第二节点。在一些实现中,边代表节点之间的因果激活关系。
计算机化方法还可包括通过第四处理器计算节点的子集的扰动指数。可至少部分地基于网络模型计算扰动指数。扰动指数代表相应节点处的处理数据与控制数据之间的差异和扰动影响相应节点的活动的程度。
计算机化方法还可包括通过第五处理器计算边的转移概率。可至少部分地基于扰动指数计算边的转移概率。边的转移概率代表从相应的第一节点转移到相应的第二节点的可能性。这种转移概率可限定Markov链。
最后,计算机化方法还可包括通过第六处理器生成节点的中心度值。可至少部分地基于转移概率生成节点的中心度值,并且,中心度值代表相应节点在网络模型中的相对重要性。
在某些实现中,扰动指数是相应节点的下游节点的活动测量的线性组合。在某些实现中,边的转移概率至少部分地基于相应的第二节点的扰动指数。在这种实现中,边的转移概率可以是第二节点的扰动指数的线性函数。
在某些实现中,计算机化方法还包括通过第七处理器计算代表随机行走在稳定的状态中访问节点的概率的节点的均衡概率。在这种实现中,第六处理器可至少部分地基于均衡概率生成中心度值。
在某些实现中,第六处理器至少部分地基于随机行走在对其它节点的连续访问之间对相应节点的期望访问次数生成相应节点的中心度值。在这种实现中,中心度值可以是对网络中的所有节点的期望访问次数的线性组合。
在某些实现中,通过至少部分地基于不基于扰动指数的简单的转移概率生成的简单中心度值来归一化中心度值。
在某些实现中,第一到第六处理器中的每一个包括在单个处理器或单个计算装置内。在其它实现中,第一到第六处理器中的一个或多个分布在多个处理器或计算装置上。
在某些实现中,计算因果网络模型包含存在于代表潜在因果的节点与代表一个或更多个测量量的节点之间的一组因果关系。在这些实现中,活动测量可包含倍数变化(fold change)。倍数变化可以是描述节点测量在控制数据与处理数据之间或者在代表不同的处理条件的两组数据之间从初始值到最终值变化了多少的数量。倍数变化数量可代表两种条件之间的生物实体的活动的倍数变化的对数。各节点的活动测量可包含由各节点代表的生物实体的处理数据与控制数据之间的差异的对数。在某些实现中,计算机化方法包括通过处理器生成生成的分数中的每一个的置信区间。
在某些实现中,生物系统的子集包含但不限于细胞增殖机制、细胞应力机制、细胞炎症机制、细胞凋亡机制、衰老、自我吞噬或坏死和DNA修复机制中的至少一种。媒介可包含但不限于异质物质,包含不存在于生物系统中或从生物系统中导出的分子或实体。媒介还可包含但不限于毒素、治疗性化合物、刺激物、弛缓剂、天然产品、制造产品和食品物质。媒介可包含但不限于通过加热烟草生成的悬浮微粒、通过燃烧烟草生成的悬浮微粒、烟草烟和雪茄烟中的至少一种。媒介可包含但不限于镉、汞、铬、尼古丁、烟草特有亚硝胺和它们的代谢物(4-(甲基亚硝胺)-1-(3-吡啶)-1-丁酮(NNK)、N′-亚硝基降烟碱(NNN)、N-亚硝基新烟碱(NAT)、N-亚硝基新烟草碱(NAB)和4-(甲基亚硝胺)-1-(3-吡啶)-1-丁醇(NNAL))。在某些实现中,媒介包含用于尼古丁替代疗法的产品。
在另一方面中,在这里描述的系统和方法针对用于量化生物系统的扰动的计算机化方法和一个或更多个计算机处理。计算机化方法可包括在第一处理器上接收一组第一处理数据和在第二处理器上接收一 组第二处理数据。计算机化方法还可包括在第三处理器上提供计算因果网络模型。网络模型包含代表生物实体的节点和代表生物实体之间的关系的边。计算机化方法还可包括通过第四处理器计算节点的子集的扰动指数。可至少部分地基于网络模型计算扰动指数,并且扰动指数代表相应节点上的第一和第二处理数据之间的差异。计算机化方法还可包括通过第五处理器生成相应节点的中心度值。可至少部分地基于扰动指数生成中心度值,并且,中心度值代表相应节点在网络模型中的相对重要性。计算机化方法还可包括通过第六处理器计算第一节点的中心度值关于第二节点的扰动指数的偏导数。偏导数代表网络模型的拓扑敏感度测量。在某些实现中,计算偏导数包含确定第二节点的扰动指数的变化对第一节点的中心度值的变化的影响。
在另一方面中,在这里描述的系统和方法针对用于可视化生物系统上的扰动影响的计算机化方法和一个或更多个计算机处理。计算机化方法可包括在第一处理器上提供计算因果网络模型。网络模型包括代表生物实体的节点和代表生物实体之间的关系的边。计算机化方法还可包括通过第二处理器生成相应节点的中心度值,可至少部分地基于网络模型生成中心度值,并且中心度值代表相应节点在网络模型中的相对重要性。计算机化方法还可包括通过第三处理器生成中心度值在代表扰动在网络模型上的影响的谱变换矢量上的投影。在某些实现中,计算中心度值的投影包含对中心度值进行滤波。在某些实现中,计算机化方法还包括显示网络模型并显示中心度值在显示的网络模型上的投影的一个或更多个分量。在某些实现中,网络模型中的边是非定向的。
在另一方面中,在这里描述的系统和方法针对用于量化生物系统的扰动的计算机化方法和一个或更多个计算机处理。计算机化方法可包括在第一处理器上接收计算因果网络模型。网络模型包含代表生物实体的节点和代表生物实体之间的关系的边。计算机化方法还可包含通过第二处理器生成相应节点的中心度值。可至少部分地基于网络模型生成中心度值,并且中心度值代表相应节点在网络模型中的相对重 要程度。计算机化方法还可包含通过第三处理器聚合中心度值以生成代表生物系统的扰动的网络模型的分数。在某些实现中,分数是标量值。在某些实现中,聚合中心度值包含计算中心度值的线性组合。在某些实现中,聚合中心度值包含计算中心度值的谱变换的线性组合。
可在具有分别包含一个或更多个处理器的一个或更多个计算装置的计算机化系统中实现在这里描述的计算机化方法。一般地,在这里描述的计算机化系统可包括包含处理装置的一个或更多个引擎,处理装置诸如配有硬件、固件和软件以实施在这里描述的计算机化方法中的一个或更多个的计算机、微处理器、逻辑器件或其它装置或处理器。在某些实现中,计算化系统包含系统响应轮廓引擎、网络建模引擎和网络评分引擎。引擎可偶尔被互连,并且,进一步偶尔与包含扰动数据库、可测量量数据库、实验数据数据库和文献数据库的一个或更多个数据库连接。在这里描述的计算机化系统可包含具有通过网络接口通信的一个或更多个处理器和引擎的分布式计算系统。这种实现可适于在多个计算系统上的分布计算。
附图说明
结合附图考虑以下的详细的描述,本公开的其它特征、其性质和各种优点将十分明显,在这些附图中,相同的附图标记始终指的是相同的部分。
图1是用于量化生物网络对扰动的响应的解释性的计算机化系统的框图。
图2是用于通过计算网络扰动振幅(NPA)分数量化生物网络对扰动的响应的解释性的处理的流程图。
图3是以包含用于两种媒介、两个参数和N个生物实体的数据的系统响应轮廓为基础的数据的图示。
图4A和图4B是具有几个生物实体的和它们的关系的生物网络计算模型的示图。
图5是用于生成生物网络中的节点的中心度值的解释性的处理的 流程图。
图6是图5的一部分的更详细的流程图,表示用于生成一组节点的扰动指数的解释性的处理。
图7是图5的一部分的更详细的流程图,表示用于限定网络上的增强随机行走的解释性的处理。
图8是图5的一部分的更详细的流程图,表示用于计算一组节点的中心度值的解释性的处理。
图9是用于量化生物扰动的影响的示例性分布计算机化系统的框图。
图10是可用于实现在这里描述的任意计算机化系统中的任意部件的示例性计算装置的框图。
图11是因果网络模型的简化示图。
图12是因果网络的简化示图。
图13和图14是网络中的中心度值的投影的谱分量的简化示图。
图15是用于细胞增殖的关注肺部的因果网络的例子的示图。
图16是节点细胞增殖的中心度值的实验结果的示图。
具体实施方式
一般赋予在本申请的范围内使用的技术术语和表达在相关领域中通常向它们施加的意思。词语“包括”不排除其它的元素或步骤,不定冠词“一种”或“一个”不排除多个。特别关于属性或值的术语“基本上”、“大约”和“大致”等也分别确切地限定属性或确切地限定值。这里描述定量评价在通过媒介扰动时的生物系统内的变化的大小的计算系统、计算机化的方法和产品。某些实现包含用于计算表达生物系统的一部分内的变化的大小的数值的方法。计算使用从其中通过媒介扰动生物系统的一组控制实验获得的一组数据作为输入。数据然后被施加到生物系统的特征的网络模型。网络模型被用作模拟和分析的基础,并代表实现生物系统中的关注的特征的生物机制和路径。其机制和路径的特征或一些可有助于生物系统的疾病和不利影响的病理 学研究。使用在数据库中代表的生物系统的现有知识,以建构包含在包括正常条件和媒介扰动的各种条件下关于大量的生物实体的状态的数据的网络模型。使用的网络模型是动态的,原因是它代表各种生物实体的状态响应扰动的变化,并且可生成媒介对生物系统的影响的定量和客观评价。也提供用于操作这些计算机化方法的计算机系统和产品。
由本公开的计算机化方法生成的数值可用于确定由制造的产品(用于安全评价或比较)、包含营养供给的治疗化合物(用于确定效力或健康益处)和环境活性物质(用于预测长期暴露的风险和与不利影响和发病的关系)等中的一个或更多个导致的希望的或不利的生物效果的大小。
在一个方面中,这里描述的系统和方法基于扰动的生物机制的网络模型提供代表扰动的生物系统的变化的大小的计算数值。这里称为网络扰动振幅(NPA)分数的数值可被用于概略地代表限定的生物机制中的各种实体的状态变化。针对不同媒介或不同类型的扰动获得的数值可被用于相对比较不同的媒介或扰动对本身实现或显示为生物系统的特征的生物机制的影响。因此,NPA分数可被用于测量生物机制对不同的扰动的响应。这里一般使用术语“分数”以表示提供生物系统中的变化的大小的定量测量的值或一组值。通过使用从样本或被检体获得的一个或更多个数据集,通过在本领域中任何已知的各种数学和计算算法并根据这里公开的方法计算这种分数。
NPA分数可帮助研究人员和临床医生改善诊断、实验设计、治疗决定和风险评价。例如,NPA分数可用于在毒理分析中筛查一组候选生物机制,以识别最可能被暴露给潜在有害媒介所影响的那些。通过提供响应于扰动的网络测量,这些NPA分数可允许将分子事件(通过实验数据测量)与在细胞、组织、器官或有机体水平上出现的显型或生物结果相关联。临床医生可使用NPA值以比较受媒介影响的生物机制与患者的生理状况,以确定当暴露于媒介时患者最可能经历什么健康风险或益处(例如,免疫受损的患者可能特别易受到导致强烈的免 疫抑制响应的媒介的伤害)。
图1是用于量化网络模型对扰动的响应的计算机化系统100的框图。特别地,系统100包含系统响应轮廓引擎110、网络建模引擎112和网络评分引擎114。引擎110、112和114时而被互连,并进一步时而与包含扰动数据库102、可测量数据库104、实验数据数据库106和文献数据库108的一个或更多个数据库连接。如这里使用的那样,引擎包含配有硬件、固件和软件以实施一个或更多个计算操作的处理装置,诸如计算机、微处理器、逻辑器件或参照图10描述的其它器件。
图2是根据一个实现的用于通过计算网络扰动振幅(NPA)分数量化生物网络对扰动的响应的处理200的流程图。处理200的步骤被描述为由图1的系统100的各种部件实施,但可通过局域或远程的任何适当的硬件或软件部件执行或者可按任何适当的次序安排或并行执行这些步骤中的任意步骤。在步骤210中,系统响应轮廓(SRP)引擎110从各种不同的来源接收生物数据,并且数据自身可以是各种不同的类型。数据包含来自其中生物系统被扰动的实验的数据以及控制数据。在步骤212中,SRP引擎110生成代表响应于向生物系统呈现媒介的、生物系统内的一个或更多个实体改变的程度的系统响应轮廓(SRP)。在步骤214中,网络建模引擎112提供包含多个网络模型的一个或更多个数据库,其中的一个被选择为与关注的媒介或特征相关。可基于以系统的生物功能为基础的机制的现有知识进行选择。在某些实现中,网络建模引擎112可通过使用系统响应轮廓、数据库中的网络和前面在文献中描述的网络来提取系统内的实体之间的因果关系,由此生成、提炼或扩展网络模型。在步骤216中,网络评分引擎114通过使用网络建模引擎112在步骤214中识别的网络和SRP引擎110在步骤212中生成的SRP生成各扰动的NPA分数。在生物实体之间的基础关系(由网络代表)的背景中,NPA分数对扰动或处理的生物响应(由SRP代表)进行了量化。
本公开的背景中的生物系统包含有机体或有机体的一部分,包含功能部分,有机体在这里被称为被检体。被检体一般是哺乳动物,包 括人。被检体可以是人口中的单个的人。这里使用的术语“哺乳动物”包含但不限于人、非人类的灵长目动物、老鼠、黑鼠、狗、猫、母牛、绵羊、马和猪。人以外的哺乳动物可有利地用作可用于提供人类疾病的模型的被检体。非人类的被检体可以是未改性的或一般改性的动物(例如,转基因动物或承载一个或更多个基因变异或沉默基因的动物)。被检体可以是雄性或雌性。根据操作的目标,被检体可以是已暴露于关注的媒介的。被检体可以是在长时间段上暴露于媒介的,可选的,包括研究之前的时间段。被检体可以是已经暴露于媒介一段时间,但在不再与媒介接触的。被检体可以是已被诊断或识别为具有疾病。被检体可以是已经历或正在经历疾病或不利的健康状况的治疗的。被检体也可以是表现特定的健康状况或疾病的一种或更种症状或风险因素的。被检体可以是易患疾病的,并且可以是有症状和没有症状的。在某些实现中,讨论中的疾病或健康状况与长时间段地暴露于媒介或媒介使用相关。根据一些实现,系统100(图1)包含或生成与关注的扰动或结果的类型相关的一个或更多个生物系统及其功能的机制的计算机化模型(统称为“生物网络”或“网络模型”)。
根据操作背景,生物系统可限定于不同的水平,原因是它涉及群体中的单个有机体、一般的有机体、器官、组织、细胞类型、细胞器、细胞成分或特定的个体的细胞的功能。各生物系统包含一个或更多个生物机制或路径,其操作显现为系统的功能特征。再现人健康状况的限定的特征并适于暴露于关注的媒介的动物系统是优选的生物系统。反映细胞类型和包含于疾病病因或病理中的组织的、细胞和器官系统也是优选的生物系统。可给予尽可能多地概括了体内人体生物学的原生细胞或器官培养以优先权。将体外人细胞培养与从体内动物模型导出的最等同的培养进行匹配也是十分重要的。这使得能够通过使用体外的匹配系统作为基准系统来生成从动物模型到体内人体生物学的翻译连续体。因此,设想的与在这里描述的系统和方法一起使用的生物系统可由(但不限于)功能特征(例如,生物功能、生理功能或细胞功能)、细胞器、细胞类型、组织类型、器官、发育阶段或以上的组 合限定。生物系统的例子包含但不限于肺、外皮、骨骼、肌肉、神经(例如,中枢或周围)、内分泌、心血管、免疫、循环系统、呼吸系统、泌尿、肾脏、肠胃、结肠直肠、肝和生殖系统。生物系统的其它例子包含但不限于上皮细胞、神经细胞、血液细胞、连接组织细胞、平滑肌细胞、骨骼肌细胞、脂肪细胞、卵细胞、精细胞、干细胞、肺细胞、脑细胞、心脏细胞、喉细胞、咽细胞、食管细胞、胃细胞、肾细胞、肝脏细胞、乳房细胞、前列腺细胞、胰腺细胞、胰岛细胞、睾丸细胞、膀胱细胞、子宫颈细胞、子宫细胞、结肠细胞和直肠细胞中的各种细胞功能。细胞中的一些可以是在适当的培养条件下无限期地体外培养或者体外保持的细胞系的细胞。细胞功能的例子包含但不限于细胞增殖(例如,细胞分裂)、退化、再生、衰老、由细胞核进行的细胞活动的控制、细胞对细胞信号传输、细胞变异、细胞去变异、分泌、迁移、吞噬、修复、细胞凋亡和发育编程。可视为生物系统的细胞成分的例子包含但不限于细胞质、细胞骨架、细胞膜、核糖体、线粒体、细胞核、内质网(ER)、Golgi体、溶酶体、DNA、RNA、蛋白质、肽和抗体。
生物系统中的扰动可由一种或更多种媒介在一段时间上通过暴露于或接触生物系统的一个或更多个部分而导致。媒介可以是单一物质或混合物或多种(例如,一种或更多种)物质,包括不是所有的成分都被识别或表征的混合物。媒介或其成分的化学和物理性能可能不被完全表征。媒介可由其结构、其成分或在某些条件下生成媒介的来源限定。媒介的例子是异质物质(即,不存在于生物系统内或者不从生物系统导出的分子或实体),以及在与生物系统接触之后从中生成的任何中间体或代谢物。媒介可以是碳水化合物、蛋白质、脂质、核酸、生物碱、维生素、金属、重金属、矿物质、氧、离子、酶、荷尔蒙、神经传递素、无机化学化合物、有机化学化合物、环境媒介、微生物、粒子、环境条件、环境力或物理力中的一种或更多种。媒介的非限制性例子包含但不限于营养物、新陈代谢废物、毒物、麻醉毒品、毒素、治疗化合物、刺激物、弛缓物、天然产品、制造产品、食品物质、病 菌(感染性蛋白质、病毒、细菌、真菌、原生动物)、尺寸处于或低于微米范围的粒子或实体、以上的副产品或以上的混合物。物理媒介的非限制性例子包含放射线、电磁波(包含太阳光)、温度上升或降低、剪应力、流体压力、放电或它们的序列或创伤。
至少一些媒介或所有媒介,除非以阈值浓度存在或者与生物系统接触一段时间或者两者的组合,否则不会扰动生物系统。导致扰动的媒介的暴露或接触可在剂量上被量化。因此,扰动可源自长期暴露给媒介。暴露时间段可由单位时间、暴露频率或被检体的实际或估计寿命跨度内的时间百分比来表达。例如,扰动也可由从生物系统的一个或更多个部分扣减媒介(如上所述)或者限制向其供给媒介导致。例如,扰动可由减少供给或缺少一种或更多种营养物、水、碳水化合物、蛋白质、脂质、生物碱、维生素、矿物质、氧、离子、酶、荷尔蒙、神经传递素、抗体、细胞活素、光导致,或者由限制有机体的某部分的移动或者由约束或要求锻炼导致。可以考虑它们的组合。
至少一些媒介或所有的媒介可根据生物系统的哪个(哪些)部分被暴露以及暴露条件导致不同的扰动。媒介的非限制性例子可包含通过加热烟草生成的悬浮微粒、通过燃烧烟草生成的悬浮微粒、烟草烟、雪茄烟和任意的它们的气体成分或微粒成分。媒介的其它非限制性例子包含镉、汞、铬、尼古丁、烟草特有亚硝胺和它们的代谢物(4-(甲基亚硝胺)-1-(3-吡啶)-1-丁酮(NNK)、N′-亚硝基降烟碱(NNN)、N-亚硝基新烟碱(NAT)、N-亚硝基新烟草碱(NAB)、4-(甲基亚硝胺)-1-(3-吡啶)-1-丁醇(NNAL))和用于尼古丁替代疗法的任何产品。媒介或复合刺激物的暴露方案应反映每天设置中的暴露的范围和环境。一组标准暴露方案可被设计为被系统性地应用于等同地很好地限定的实验系统。各化验可被设计为收集依赖于时间和剂量的数据以捕获早期和晚期事件并确保覆盖代表性的剂量范围。但是,本领域技术人员可以理解,在这里描述的系统和方法可被调整和修改以适于针对的应用,并且,可在其它适当的应用中使用在这里设计的系统和方法,并且,这种其它的添加和修改不背离其范围。
在各种实现中,在包含各种控制的各种条件下生成针对基因表达、蛋白质表达或转换、microRNA表达或转换、翻译后修改、蛋白质修改、迁移、抗体生成代谢物轮廓或以上的两种或更多种的组合的、高产量系统范围的测量。功能性结果测量是在这里描述的方法所希望的,原因是它们一般可用作评价的基准并表示病因中的清楚的步骤。
这里使用的“样本”指的是与被检体或实验系统(例如,细胞、组织、器官或整个动物)隔离的任何生物样本。样本可包含但不限于单个细胞或多个细胞、部分细胞、组织切片、切割组织、组织提取、组织、组织培养提取、组织培养介质、呼出气体、全血液、血小板、血清、血浆、红细胞、白细胞、淋巴细胞、嗜中性粒细胞、巨噬细胞、B细胞或它们的子集、T细胞或它们的子集、造血细胞的子集、内皮细胞、滑液、淋巴液、腹水、细胞间液、骨髓、脑脊髓液、胸腔积液、肿瘤浸润液、唾液、黏液、痰、精液、汗、尿或任何其它体液。可通过包含但不限于静脉穿刺、排泄、活组织检查、针吸气、灌洗、刮擦、手术切除的手段或在本领域中已知的其它手段从被检体获得样品。
在操作中,对给定的生物机制、结果、扰动或以上的组合,系统100可生成网络扰动振幅(NPA)值,该网络扰动振幅值是网络中的生物实体的状态响应处理条件的变化的定量测量。
系统100(图1)包含与关注的健康状况、疾病或生物结果相关的一个或更多个计算机化的网络模型。这些网络模型中的一个或更多个基于现有生物知识,并且可从外部来源上载并在系统100内被管理。也可基于测量在系统100内重新生成模型。可测量的元素通过使用现有知识有因果关系地被集成到生物网络模型中。以下描述的是代表可用于生成或精炼网络模型的关注的生物系统的变化或代表对扰动的响应的数据的类型。
参照图2,在步骤210中,系统响应轮廓(SRP)引擎110接收生物数据。SRP引擎110可从各种不同的来源接收该数据,并且数据自身可具有各种不同的类型。可从文献、数据库(包含来自药物产品或医疗装置的临床前、临床和临床后测试的数据)、基因组数据库(基 因序列和表达数据,例如,National Center for Biotechnology Information的Gene Expression Omnibus或European Bioinformatics Institute的ArrayExpress(Parkinson等.2010,Nucl.Acids Res.,doi:10.1093/nar/gkq1040.Pubmed ID21071405))、商业可用数据库(例如,Gene Logic,Gaithersbug,MD,USA)或实验工作提取SRP引擎110使用的生物数据。数据可包含来自诸如利用一种或更多种物种的体外、先体外后体内或体内实验等一个或更多个不同来源的原始数据,这些物种是为研究特定的处理条件或暴露给特定媒介的影响专门设计的。体外实验系统可包含代表人疾病的关键方面的组织培养或器官培养(三维培养)。在这些实现中,这些实验的媒介剂量和暴露方案可基本上反映可在正常使用或活动条件下或者在特殊使用或活动条件下预期的针对人的暴露范围和环境。可如希望的那样选择实验参数和试验条件,以反映媒介和暴露条件的性质、讨论中的生物系统的分子和路径、包含的细胞类型和组织、关注的结果和疾病病因的方面。特定的动物模型导出分子、细胞或组织可与特定的人体分子、细胞或组织培养匹配以改善基于动物的发现的可翻译性。
由SRP引擎110接收的数据中的许多是通过高产量实验技术生成的,这些数据包含但不限于与核酸(例如,通过定序、杂交(特别是对微阵列上的核酸)、定量聚合酶链反应或在本领域中已知的其它技术确定的特定DNA或RNA种属的绝对量或相对量、DNA序列的变化、RNA序列的变化、三次结构的变化或甲基化图案)、蛋白质/肽(例如,通过在本领域中已知的方法确定的蛋白质的绝对量或相对量、蛋白质、肽的特定片断、二次或三次结构的变化或翻译后改性)和某条件下的功能活动(例如,酶活动、蛋白活动、转录调整活动、传输活动、对某些接合方的接合亲和)等有关的数据。包含蛋白质或肽的翻译后改性的改性可包含但不限于甲基化、乙酰化、法尼化、生物素化(biotinylation)、硬脂酰化(stearoylation)、甲酰化、十四酰化(myristoylation)、棕榈酰化(palmitoylation)、香叶酰化(geranylgeranylation)、聚乙二醇化(pegylation)、磷酸化、硫酸 化、糖基化、糖改性、脂化、脂改性、泛素化(ubiquitination)、类泛素化(sumolation)、二硫化物结合、半胱氨酸化(cysteinylation)、氧化、谷胱甘肽化(glutathionylation)、羧化、葡萄苷酸化(glucuronidation)和脱氨化。另外,可通过导致糖化蛋白质产物的诸如Amadori反应、Schiff基反应和Maillard反应等的一系列的反应,对蛋白质进行翻译后改性。
数据也可包含测量的功能性结果,诸如但不限于包含细胞增殖、发育命运和细胞死亡等的细胞水平上的结果、生理水平上的结果、肺容量、血压、锻炼进步等。数据还可包含疾病活动或严重程度的测量,诸如但不限于肿瘤转移、肿瘤缓和、功能损失和某疾病阶段上的寿命期望。可通过临床评价来测量疾病活动,临床评价的结果是通过在限定条件下评估来自被检体或多个被检体的样本(或一组样本)而获得的值或一组值。临床评价也可基于由被检体提供的对交谈或问卷的响应。
该数据很显然已被生成用于确定系统响应轮廓,或者可在各种实验中生成或者已在文献中公开。一般地,数据包含涉及分子、生物结构、生理条件、遗传特性或显型的信息。在一些实现中,数据包含对分子的条件、位置、量、活动或亚结构、生物结构、生理条件、遗传特性或显型的描述。如后面描述的那样,在临床设置中,数据可包含通过在从人体被检者获得的样品上执行的化验或对暴露于媒介的人体被检者的观察而获得的原始或处理过的数据。
在步骤212中,系统响应轮廓(SRP)引擎110基于在步骤212中接收的生物数据生成系统响应轮廓(SRP)。该步骤可包含背景校正、归一化、倍数变化计算、重要性确定和微分响应(微分表达的基因)的识别中的一个或更多个。SRP是表达生物系统内的一个或更多个测量实体(例如,分子、核酸、肽、蛋白质、细胞等)响应于向生物系统施加的扰动(例如,暴露给媒介)而各自改变的程度的表示。在一个例子中,为了生成SRP,SRP引擎110收集针对应用于给定的实验系统(“系统-处理”对)的给定的一组参数(例如,处理或扰动 条件)的一组测量。图3示出两个SRP:包含经过具有不同的参数(例如,暴露给第一处理媒介的剂量和时间)的第一处理306的N个不同的生物实体的生物活动数据的SRP302;和包含经过第二处理308的N个不同的生物实体的生物活动数据的相似的SRP304。包含于SRP中的数据可以是原始实验数据、处理的实验数据(例如,被滤波以去除异常值、标有置信估计,在大量的试验上平均化)、通过计算生物模型生成的数据或从科学文献取得的数据。SRP可通过诸如绝对值、绝对变化、倍数变化、对数变化、函数和表格等的任意数量的方式来表示数据。SRP引擎110将SRP转送到网络建模引擎112。
虽然在前面的步骤中导出的SRP表示能够用来确定网络扰动的大小的实验数据,但它是作为用于计算和分析的基础的生物网络模型。该分析需要对与生物系统的特征有关的机制和路径的详细的网络模型进行开发。这种构架在用于更经典的基因表达分析中的基因列表的检查以外提供机械论理解层。生物系统的网络模型是代表动态生物系统并且通过收集关于生物系统的各种基本性能的定量信息来构建的数学构架。
这种网络的构架是迭代过程。通过与关注的过程(例如,肺中的细胞增殖)相关的机制和路径的文献调查来指导网络的边界划界。从现有知识提取描述这些路径的因果关系以使网络成核。可通过使用包含相关的显型端点的高产量数据集来验证基于文献的网络。SRP引擎110可被用于分析数据集,其结果可被用于确认、提炼或生成网络模型。
返回图2,在步骤214中,网络建模引擎112使用来自SRP引擎110的系统响应轮廓与基于以关注的生物系统的特征为基础的机制或路径的网络模型。在某些方面中,网络建模引擎112被用于识别已基于SRP生成的网络。网络建模引擎112可包含用于接收模型的更新和变化的部件。网络建模引擎112也可重复网络生成的过程,从而加入新数据并生成附加或提炼的网络模型。网络建模引擎112还可有利于合并一个或更多个数据集或合并一个或更多个网络。可通过附加的节 点、边或全新网络手动补充从数据库提取的一组网络(例如,通过采集直接由特定的生物实体调节的附加基因的描述的文献的文本)。这些网络包括可使能处理评分的特征。网络拓扑被保持;因果关系的网络可从网络中的任意点追踪到可测量的实体。并且,模型是动态的,并且用于构建它们的假定可被修改或者被重述并使得能够实现对不同的组织背景和种属的适应性。由于新的知识变得可用,因此这允许重复测试和改善。网络建模引擎112可去除具有较低的置信度或者作为与科学文献中的实验结果冲突的被检体的节点或边。网络建模引擎112还可包含可通过使用监督或无监督的学习方法(例如,度量学习、矩阵完成、图案识别)来推断的附加的节点或边。
在某些方面,生物系统被建模为由顶点(或节点)和连接节点的边构成的数学图形。例如,图4A和图4B分别示出简单的网络400a和400b。特别地,网络400a包含9个节点(包含节点402和404)和边(406和408)。节点可代表生物系统内的生物实体,诸如但不限于化合物、DNA、RNA、蛋白质、肽、抗体、细胞、组织和器官。边可代表节点之间的关系。图形中的边可代表节点之间的各种关系。例如,边可代表“接合”关系、“以…表达”关系、“基于表达轮廓共同调节”关系、“禁止”关系、“共存于手稿中”关系或“共享结构元素”关系。一般地,这些类型的关系描述一对节点之间的关系。图形中的节点也可代表节点之间的关系。因此,能够代表关系之间的关系或关系与在图形中代表的另一类型的生物实体之间的关系。例如,代表化学制品的两个节点之间的关系可代表反应。该反应可以是反应与抑制该反应的化学制品之间的关系中的节点。
图形的边可从一个顶点指向另一个。例如,在生物背景中,转录调节网络和代谢网络可被建模为定向图形。在转录调节网络的图形模型中,节点会通过表示它们之间的基因转录的调节关系的边代表基因。作为另一例子,蛋白质-蛋白质相互作用网络描述有机体的蛋白质组中的蛋白质之间的直接物理相互作用,并且在这种网络中常常不存在与相互作用相关的方向。因此,这些可被建模为非定向的边,从而意味 着在与边相关的两个顶点之间不存在区别。某些网络可具有定向和非定向的边两者。构成图形的实体和关系(即,节点和边)可作为相关节点的网络存储于系统100中的数据库中。
在数据库内表示的知识可以为从各种不同的来源提取的各种不同的类型。例如,某数据可代表基因组数据库,包含关于基因的信息,以及它们之间的关系。在这种例子中,节点可代表致癌基因,而与致癌基因节点连接的另一节点可代表抑制致癌基因的基因。数据可代表蛋白质和它们之间的关系、疾病和它们的关联性和各种疾病状态。存在可在图形表示中组合的许多不同类型的数据。计算模型可表示代表例如DNA数据集、RNA数据集、蛋白质数据集、抗体数据集、细胞数据集、组织数据集、器官数据集、医疗数据集、流行病数据集、化学品数据集、毒理学数据集、患者数据集和人口数据集中的知识的节点之间的关系的网络。如这里使用的那样,数据集是源自限定条件下的样本(或一组样本)的评价的数值的集合。例如,可通过实验测量样本的可量化实体,或者替代性地从诸如实验室、临床研究组织的服务提供者或从公共或私人数据库来获得数据集。数据集可包含由节点代表的数据和生物实体,并且,数据集中的每一个中的节点可与同一数据集或其它数据集中的其它节点有关。并且,网络建模引擎112可生成代表例如DNA、RNA、蛋白质或抗体数据集中的基因信息到医疗数据集中的医疗信息、到关于患者数据集中的各单个患者的信息和流行病数据集中的整个人口的信息的计算模型。除了上述的各种数据集以外,可存在许多其它的数据集或当生成计算模型时可包含的其他类型的生物信息。例如,数据库还可包含医疗记录数据、结构/活动关系数据、关于传染病理的信息、关于临床试验的信息、暴露图案数据、与产品的使用历史有关的数据和任何其它类型的生命科学有关信息。
网络建模引擎112可生成代表例如基因之间的调节相互作用、蛋白质之间的相互作用或细胞或组织内的复杂生物化学相互作用的一个或更多个网络模型。网络建模引擎112生成的网络可包含静态模型和动态模型。网络建模引擎112可使用任何适用的数学方案以代表系统, 诸如使用两种类型的节点以代表反应和合成的超图和加权二部图。网络建模引擎112也可使用用于生成网络模型的其它推论技术,诸如基于微分表达基因内的功能有关基因的过量表现的分析、Bayesian网络分析、图形化Gaussian模型技术或基因关联网络技术,以基于一组实验数据(例如,基因表达、代谢物浓度、细胞响应等)识别相关的生物网络。
如上所述,网络模型基于以生物系统的功能特征为基础的机制和路径。网络建模引擎112可生成或包含代表关于与媒介的长期健康风险或健康益处的研究有关的生物系统的特征的结果的模型。因此,网络建模引擎112可生成或包含用于细胞功能的各种机制的网络模型,特别是与生物系统中关注的特征有关或有贡献的那些,该特征包含但不限于细胞增殖、细胞应力、细胞再生、细胞凋亡、DNA损伤/修复或炎性响应。在其它实施例中,网络建模引擎112可包含或生成与急性系统毒性、致癌性、皮肤穿透、心血管疾病、肺部疾病、生态毒理学、眼睛冲洗/腐蚀、基因毒性、免疫毒理学、神经毒性、药物代谢动力学、药物代谢、器官毒性、生殖和发育毒性、皮肤冲洗/腐蚀或皮肤致敏有关的计算模型。一般地,网络建模引擎112可包含或生成核酸(DNA、RNA、SNP、siRNA、miRNA、RNAi)、蛋白质、肽、抗体、细胞、组织、器官和任何其它生物实体的状态和它们的各种相互作用的计算模型。在一个例子中,计算网络模型可被用于代表免疫系统的状态和各种类型的白细胞在免疫响应或炎症反应中的功能。在其它的例子中,计算网络模型可被用于代表心血管系统的性能和内皮细胞的功能和代谢。
在本公开的一些实现中,根据因果生物知识的数据库绘制网络。可通过执行不同生物机制的实验研究以提取机制之间的关系(例如,激活或抑制关系)来生成该数据库,这些关系中的一些可以是因果关系,并且可与诸如由Selventa Inc.of Cambridge,Massachusetts,USA负责的Genstruct Technology Platform或Selventa Knowledgebase的商业可用数据库组合。通过使用因果生物知识的数据库,网络建模引 擎112可识别链接扰动102与可测量量104的网络。在某些实现中,网络建模引擎112通过使用来自SRP引擎110的系统响应轮廓和以前在文献中生成的网络来提取生物实体之间的因果关系。数据库可进一步被处理以去除逻辑矛盾,并且通过应用不同的组的生物实体之间的相对应的推理等其它处理步骤来生成新的生物知识。
在某些实现中,从数据库提取的网络模型基于反向因果推理(RCR),该反向因果推理是一种自动推理技术,其处理因果关系的网络以将机制假说公式化,并然后针对不同测量的数据集评价这些机制假说。各机制假说链接生物实体与它可影响的可测量量。例如,可测量量可包含浓度的增加或降低、生物实体的数量或相对丰度、生物实体的激活或抑制或生物实体的结构、功能或逻辑的变化等。RCR使用生物实体之间的实验观察的因果相互作用的、定向网络作为用于计算的基础。可通过作为用于记录生物实体之间的相互关系的语法的Biological Expression LanguageTM(BELTM)来表达定向网络。RCR计算规定网络模型生成的某些约束,诸如但不限于路径长度(连接上游节点与下游节点的边的最大数量)和连接上游节点与下游节点的可能的因果路径。RCR的输出是代表通过评价相关性和精度的统计分级的、实验测量的差异的上游控制器的一组机制假说。因此,在某些实现中,可用于本公开中的网络模型包含一个或更多个机制假说。机制假说输出可集合成因果链和更大的网络,以在互连机制和路径的更高水平上解释数据集。
一种类型的机制假说包含存在于代表潜在因果的节点(上游节点或控制器)与代表测量的量的节点(下游节点)之间的一组因果关系。这种类型的机制假说可被用于进行预测,诸如,如果由上游节点代表的实体的丰度增加,那么通过因果增加关系链接的下游节点会被推断为增加,并且,通过因果减少关系链接的下游节点会被推断为减少。
机制假说代表例如为基因表达数据的一组测量数据与作为这些基因的已知的控制器的生物实体之间的关系。另外,这些关系包含上游实体与下游实体(例如,下游基因)的不同表达之间的影响的符号(正 或负)。可从文献管理的因果生物知识的数据库提取机制假说的下游实体。在某些实现中,以计算因果网络模型的形式链接上游实体与下游实体的机制假说的因果关系是通过NPA评分方法计算网络变化的基础。
在某些实现中,通过收集代表模型中的生物系统的各种特征的单个机制假说并将所有下游实体(例如,下游基因以及它们的可测量的表达水平)的连接重新分组为单一上游实体或过程,生物实体的复杂因果网络模型可变换成单一因果网络模型,由此代表整个复杂因果网络模型;这在本质上是下层图形结构的平坦化。可由此通过组合单个机制假说来评价在网络模型中代表的生物系统的特征和实体的变化。
在某些实现中,系统100可包含或生成用于当细胞暴露于雪茄烟、包含尼古丁的悬浮微粒、通过加热烟草生成的悬浮微粒或通过燃烧烟草生成的悬浮微粒时的细胞增殖机制的计算机化模型。在这种例子中,系统100还可包含或生成代表与雪茄烟暴露相关的各种健康状况的一个或更多个网络模型,这些健康状况包含但不限于肿瘤、肺部疾病和心血管疾病。在某些方面,这些网络模型基于施加的扰动(例如,暴露给媒介)、各种条件下的响应、关注的可测量量、研究的结果(例如,细胞增殖、细胞应力、炎症、DNA修复)、实验数据、临床数据、流行病数据和文献中的至少一个。
作为解释性的例子,网络建模引擎112可被配置为用于生成细胞应力的网络模型。网络建模引擎112可接收用于描述包含于从文献数据库获知的应力响应中的相关机制的网络。网络建模引擎112可基于已知响应于肺和心血管背景中的应力而操作的生物机制来选择一个或更多个网络。在某些实现中,网络建模引擎112识别生物系统内的一个或更多个功能单元,并通过基于它们的功能组合较小的网络来构建较大的网络模型。特别地,对于细胞应力模型,网络建模引擎112可考虑与对氧化、遗传毒性、低氧、渗透、异型生物质和剪应力的响应有关的功能单元。因此,用于细胞应力模型的网络部件可包含异型生物质代谢响应、遗传毒性响应、内皮剪应力、低氧响应、渗透应力和 氧化应力。网络建模引擎112还可从对来自在特定的一组细胞上执行的应力相关实验的公共可用转录数据的计算分析接收内容。
当生成生物机制的网络模型时,网络建模引擎112可包含一个或更多个规则。这些规则可包含用于选择网络内容和节点类型等的规则。网络建模引擎112可从包含体外和体内实验结果的组合的实验数据数据库106选择一个或更多个数据集。网络建模引擎112可利用实验数据来验证在文献中识别的节点和边。在建模细胞应力的例子中,网络建模引擎112可基于实验多好地代表无病肺或心血管组织中的生理相关应力来选择实验的数据集。例如,数据集的选择可基于显型应力端点数据的可用性、基因表达整形实验的统计精确和实验背景与正常无病肺或心血管生物特征的相关性。
在识别相关网络的集合之后,网络建模引擎112可进一步处理和精炼这些网络。例如,在一些实现中,多个生物实体和它们的连接可被分组并由新的节点或多个节点代表(例如,通过使用聚类或其它的技术)。
网络建模引擎112还可包含关于识别的网络中的节点和边的描述信息。如上面讨论的那样,例如,节点可由其相关的生物实体、相关的生物实体是否是可测量量的指示或生物实体的任何其它描述符来描述,而边可由其代表的关系的类型(例如,诸如上调节或下调节、相关性、条件依赖性或独立性等的因果关系)、该关系的强度或该关系中的统计置信度来描述。在一些实现中,对于各处理,代表可测量实体的各节点与响应于处理的活动变化的期望方向(即,增加或减小)相关。例如,当支气管上皮细胞暴露于诸如肿瘤坏死因素(TNF)的媒介时,特定基因的活动会增加。由于从文献获知的(并且在由网络建模引擎112识别的网络中的一个中代表的),或通过由网络建模引擎112识别的网络中的一个或更多个的边跟踪大量的调节关系(例如,自分泌信令)而获知的直接调节关系,因此会出现这种增加。在一些情况下,网络建模引擎112可针对可测量实体中的每一个响应于特定的扰动来识别变化的期望的方向。当网络中的不同的路径指示特定实 体的相反的期望变化方向时,可更详细地检查两个路径以确定变化的净方向,或者,舍弃该特定实体的测量。
这里提供的计算方法和系统基于实验数据和计算网络模型来计算NPA分数。计算网络模型可由系统100生成、被输入到系统100中、或者在系统100内被识别(例如,从生物知识的数据库)。在生成网络特定响应分数时,对识别为网络模型内的扰动的下游影响的实验测量进行组合。因此,在步骤216中,网络评分引擎114通过使用在步骤214中由网络建模引擎112识别的网络和在步骤212中由SRP引擎110生成的SRP来生成各扰动的NPA分数。NPA分数在生物实体之间的基础关系(由识别的网络代表)的背景中量化对处理的生物响应(由SRP代表)。网络评分引擎114可包含用于针对包含于网络建模引擎112中或由其识别的网络中的每一个生成NPA分数的硬件和软件部件。
网络评分引擎114可被配置为实现大量的评分技术中的任意评分技术,包括生成指示网络对扰动的响应的大小和拓扑分布的标量或矢量值分数的技术。一般地,扰动度量量化刺激或外部事件在网络模型上引起的扰动。在量化由实验刺激或其它网络(诸如交通网络、计算机网络等)在生物网络中引起的扰动时,这些扰动度量会是特别有用的。基于两种要素生成扰动度量。第一要素是可基于关于以关注的系统为基础的因果网络的任何已知数据来组合的计算网络模型(例如,基于在科学文献中识别的生物机制的生物网络模型)。第二要素是描述向关注的系统施加扰动时的网络模型的一些或所有部件的行为的表达数据集。特别地,如这里使用的那样,表达节点一般指的是计算网络模型中的表达数据可用的那些节点。在生物分析设置中的扰动分析的一些实施例中,从管理的一组生物关系构建网络模型,并且,通过施加并监视受控扰动的实验来生成表达数据集。在这里描述通过明确地使用网络的拓扑来识别网络的最可能被扰动的区域或特定区域的扰动分析方法。
在例子中,扰动度量代表相应节点上的两个数据集(即,处理数 据集与控制数据集)之间的差异(或倍数变化值)。扰动度量可以是扰动指数,并可代表扰动影响相应节点的活动的程度。特别地,如关于图6详细描述的那样,扰动指数可计算为给定节点下游的节点的测量活动的线性组合。
网络模型包含经由边互连的节点,并且,网络模型中的边可与转移概率相关。转移概率可指示在网络中从一个节点转移到另一节点的可能性。作为例子,至少部分地基于代表相应节点上的两个数据集(即,处理数据集与控制数据集)之间的差异的扰动度量来计算转移概率。作为例子,如关于图7详细描述的那样,转移概率可计算为节点的扰动指数的线性函数。此外,可以使用网络中的边的转移概率以确定节点度量。相应节点的节点度量可代表节点的相对影响。如关于图5详细描述的那样,除了计算网络中的边的转移概率以外,也可计算网络中的节点的均衡概率。相应节点的均衡概率是稳态中随机行走访问相应节点的可能性。
特别地,为了代表网络中的节点的相对重要性,可计算网络中的节点的中心度值。网络中的节点的相对重要性可代表网络中的节点与其它节点之间的关系,并且可依赖于网络中的转移概率、均衡概率或转移概率和均衡概率两者。作为例子,当通过随机行走模型代表横穿整个网络时,随机行走更常访问的节点可比不常访问的其它节点相对更重要。因此,更多访问的节点常常具有较大的中心度值,并且,节点的中心度值的计算可基于随机行走在连续访问其它节点之间对相应节点的期望访问次数。特别地,如关于图8详细描述的那样,中心度值可计算为针对网络中的所有节点的期望访问数量的线性组合。在例子中,中心度值的计算基于“增强”随机行走模型,在该模型中,转移概率基于下游节点的测量活动水平。
可使用网络中的节点的中心度值来研究网络的总体拓扑。在例子中,可执行敏感度分析,在该敏感度分析中,网络中的一个节点上的扰动可对不同的节点中心度值具有影响。以这种方式,使用网络的拓扑以理解网络的一位置上的变化对另一个位置的影响。在另一例子中, 网络中的节点的中心度值可被用于对整个网络的扰动的拓扑进行可视化。特别地,利用谱变换投影中心度值并显示投影的子集会导致减少噪声,从而使得网络中的重要路径可很容易地被可视化。在另一例子中,网络中的节点的中心度值可被聚合,以限定代表网络模型对扰动的总体响应的标量值。一般地,可使用网络中的节点的中心度值来研究或可视化各种扰动对网络的任何拓扑影响。
图5~8是用于生成与网络中的节点上的扰动有关的值、与网络中的不同节点之间的转移有关的值、以及网络中的节点的中心度值的示例性方法的流程图。此外,图4B和图11是包含上游节点、下游节点与边的示例性网络的示图,并且关于图5~8中的流程图被描述。特别地,图5中的流程图是用于计算与网络中的节点的相对重要性的测量对应的节点的中心度值的总体方法。可在图5中的流程图的各种步骤中使用图6~8所示的处理。特别地,图6中的流程图是用于计算选择的节点的扰动指数的一种方法。扰动指数是与选择节点的下游的节点的活动水平相关的值。另外,可在确定“增强”随机行走模型时使用扰动指数,其中,连接网络中的不同节点的边被修改。关于图7更详细地描述增强随机行走模型。最后,图8中的流程图是用于基于增强随机行走模型计算中心度值的方法。
图5是用于生成生物网络中的节点的中心度值的解释性的处理500的流程图。如上所述,中心度值代表网络中的节点的相对重要性。在步骤502中,识别关注的系统的因果网络模型。如以上关于图1和图2描述的那样,网络建模引擎112可通过帮助合并一个或更多个数据集或合并一个或更多个网络来接收和/或生成模型的各部分。定向网络G是以因果网络模型为基础的网络。网络中的n个节点(例如,代表生物实体、交通位置、社交网络中的个体)由(Vi)i=1,…,m表示。定向网络G=(V,E)可由根据下式定义的相邻矩阵A代表:
Aij=1ifi→j0else---(1)]]>
特别地,如果从第一节点i到第二节点j存在定向边,那么相邻矩阵A中的元素是1。否则,相邻矩阵A中的元素是0。使I表示存在实验 数据可映射到的其它节点(上游或下游)的一组节点。实验数据可映射到的节点可以是表达节点。特别地,一组节点I可包含网络中的所有m个节点的任何子集。图11示出给出网络中的四个节点1102a~1102d(统称为1102)的方案。另外,基因片段1106包含多个探针组1104,在这些探针组1104中,各探针组1104的阴影图案和位置代表某基因的表达水平。各节点1102具有一组下游基因1108a~1108c(统称为1108),并且箭头表示下游基因1108与多个探针组1104的子集之间的相关性。为了清楚起见,只在图11中标注下游基因1108与探针组1104的子集。特别地,图11所示的方案指示因果模型与实验数据之间的链接。
在步骤504中,利用至少一个下游可测量节点或表达节点,对I中的节点中的每一个生成扰动指数(PI)。特别地,节点的PI代表来自节点的下游活动的量。特别地,如以下关于图6更详细地描述的那样,在上游节点与下游节点之间存在因果关系的情况下,下游节点可对上游节点的活动提供支撑证据。在图11中的示例性网络1100中,上游节点1102与下游节点1108具有因果关系。因此,上游节点1102a的PI依赖于下游节点1108上的活动水平。
在例子中,PI值代表网络1110中的另一位置上的施加的扰动对节点1102的活动(例如,由基因相互作用网络或蛋白质-蛋白质相互作用网络代表的生物系统中的转录的数量)的影响程度。节点的PI提供关于基础机制已被激活(抑制或增强)的证据的信息。当在实验设置中施加扰动时,节点的活动可以是控制条件中的节点的活动与处理条件中的节点的活动之间的相对测量。
图6是用于确定选择节点的PI的解释性处理600的流程图。例如,通过网络评分引擎114或系统100的部件中的任何其它适当配置的部件来实现处理600。如图6所示,确定选择的节点的PI包含计算选择的节点下游的节点的活动测量的线性组合。在步骤602中,网络评分引擎114在一组节点I中选择节点i。在例子中,网络评分引擎114选择网络1100中的节点1102a。
在步骤604中,网络评分引擎114从在步骤602中选择的节点1102a识别下游节点。下游节点可以是被选择的节点i下游的表达节点,并且可代表基因表达(或可测量节点1104,其中,可测量节点1104的图案可与测量的活动水平的值对应)。可基于由在上式1中限定的相邻矩阵A限定的因果网络模型来识别下游节点。特别地,识别的下游节点均可通过单个定向边(或链接)与选择节点i分开,使得识别的下游节点是选择节点1102a的直接邻居。另外,识别的下游节点可与具有相应的可测量节点1104的选择节点1102a的那些直接下游邻居对应。
在步骤606中,网络评分引擎114对不同的处理条件确定识别的下游节点1108(在步骤604中识别)中的活动变化。特别地,活动变化可以是描述节点测量在控制数据与处理数据之间或代表不同的处理条件的两组数据之间、从初始值到最终值变化了多少的数量的实验结果。特别地,对识别的下游网络k,活动变化可由节点k的倍数变化βk代表。特别地,βk的正值可代表作为处理数据的结果的节点k上的增加的活动,并且,βk的负值可代表减少的活动,反之亦然。在一些实施例中,活动变化可以是两种条件之间的生物实体的活动的倍数变化的对数。一般地,倍数变化βk可代表网络k的激活的任何其它指示(绝对或相对)。
在步骤608中,网络评分引擎114确定在步骤604中识别的下游节点1108的局部错误非发现率(fndr)。特别地,Strimmer等在“A general modular framework for gene set enrichment analysis”,BMC Bioinformatics10:47,2009中以及Strimmer在“A unified approach to false discovery rate estimation”,BMC Bioinformatics9:303,2008中描述了局部错误非发现率fndr(即,倍数变化值βk代表离开基础的零倍数变化的零值假说的概率,在一些情况下,有条件地在观察的p值上),在这里加入这两个文献的全部内容作为参考。换句话说,fndr可被用于代表倍数变化值βk明显与0不同(从而意味着在代表不同的处理条件的两个数据集之间存在明显的差异)的概率。较高的fndr意 味着不同的处理条件导致数据的明显差异。局部fndr可基于错误发现率fdr(即,倍数变化值βk不代表离开基础的零倍数变化的零值假说的概率)。特别地,可通过fndrk=1-fdrk对下游节点k限定局部fndr。在例子中,错误发现率fdrk至少依赖于调整的p值(即,假定零倍数变化的零值假说成立,获得至少如实际观察的倍数变化βk那样极端的倍数变化的概率)。
在步骤610中,网络评分引擎114对选择的节点i(即,节点1102a)计算扰动指数PI。特别地,可基于活动变化和识别的下游节点(即,节点1108)的错误非发现率计算PIi。在例子中,PIi可以是活动变化和错误非发现率的聚合测量。作为例子,根据下式,网络评分引擎114可计算PIi为基于下游节点的fndr和β的绝对值的表达式的线性组合。
PIi=1|{downstreamnodesVk}|||fndr·β||l1({downstreamnodesVk}).---(2)]]>
特别地,下游节点1108是具有某基因的特定形式的表达的选择节点1102a的子节点。这些子节点是直接与实验数据链接的那些。对诸如节点1108的下游节点,fndr与倍数变化β之间的积代表源自不同的处理条件的数据集的差异的缩放版本。在式2中,网络评分引擎114将PIi的值计算为节点i的所有下游节点的这些缩放倍数变化值的绝对值的平均值。缩放倍数变化值代表下游节点的活动测量。一般地,PIi可计算为所有下游节点这些缩放倍数变化值的线性组合。因此,对具有较大的明显的倍数变化β的下游节点,该下游节点会引起上游节点i的PIi的较大的值。式2是计算代表施加的扰动影响节点的活动的程度的节点的PI的方法。特别地,PI可以是在Martin等的BMC systems biology2012,6:54中以及在未决的专利申请PCT/EP2012/061035中描述的依赖于倍数变化值的几何扰动指数(Geometric Perturbation Index,GPI)分数,在这里加入两者的全部内容作为参考。但是,一般地,可使用任何适当的测量作为节点的PI。
现在参照图5,在步骤506中,网络评分引擎114限定网络G上的增强随机行走。在增强随机行走中,与特定的因果关系相关的转移概率依赖于下游PI(如果有的话)。作为解释性的例子,图4B是包 含节点412a~412d(统称为节点412)和边410a~410b(统称为边410)的网络400b的示图。为了清楚起见,只在网络400b中标注节点和边的子集。边410被定向以表示沿由箭头表示的一个方向出现通过边连接的两个节点之间的转移。作为例子,相对于边410a,节点412a可被视为上游节点且节点412b可被视为下游节点。为了增强节点412a与412b之间的因果关系,从节点412a转移到节点412b的概率依赖于412b的PI值。而节点412b的PI值又依赖于诸如节点412d的进一步处于节点412b下游的节点的测量的活动水平。增强随机行走由此基于下游节点的PI增强因果语句(causal statement)。增强随机行走的分析提供关于模型的各节点的重要性的信息,原因是更可能在增强随机行走中被横穿的节点是处于网络中心的节点(即,因果关系的连贯隐含节点的重要性)。
以下提供一些预备性的表示法和解释,然后描述在步骤506中限定的增强随机行走。网络G上的随机行走可由状态空间是V(网络的节点集或顶点集)且如果Aij=0则转移概率pij由pij=0约束的离散时间Markov链代表。转移概率pij代表随机行走从节点i移动到节点j的概率。可通过由Mij=pij限定的转移矩阵M(也称为正向传播算子)来代表Markov链。该矩阵是随机的并且与顶点集上的初始概率分布一起在网络上完全限定离散时间Markov链(Xn)n≥0。给定网络拓扑和由网络中的边代表的因果性,传播算子M限定通过节点之间的因果关系开展的随机行走。
当Markov链具有非周期性和不可还原性时,Markov链具有根据下式限定的均衡测量π(即,均衡概率):
πM=π     (3)
特别地,均衡测量π是m长度的矢量(这里,m是网络中的节点的数量)。均衡测量π中的各元素与网络中的节点对应,并且是稳定状态中随机行走访问相应节点的总体概率。在达到稳定状态(或均衡)之后,访问任意节点的随机行走的概率在时间上是固定的。
利用观察到对于代表初始分布的任何测量μ,当n→∞时μMn收敛 于π,可通过迭代过程计算均衡测量π,这里,n是代表时间的整数。特别地,对所有的节点i,Mn以指数的方式快速收敛于满足的秩1矩阵M∞。遍历定理表明,如果代表在时间n之前访问节点i的次数,那么,对于任何初始分布,随着n→∞,的概率为1。如关于图8更详细地描述的那样,均衡测量π可被用于计算节点在网络中的相对重要性,并由此计算节点的中心度值。
网络评分引擎114还可限定与随机行走访问节点i的第一时间对应的第一命中时间。特别地,节点i的第一正命中时间由表示并且可根据下式被计算:
Ti+=min{n≥1|Xn=i},     
而节点i的第一命中时间由Ti表示并且可根据下式被计算:
Ti=min{n≥0|Xn=i}.     (5)如关于图8更详细地描述的那样,第一正命中时间和第一命中时间Ti可被用于计算网络中的节点的中心度值。
可根据下式限定有限遍历Markov链的基本矩阵或Green测量:G=∑n≥0(Mn-M∞),      (6)或者,等同地,
Gij=Σn≥0(pijn-πj),---(7)]]>
这里,是在节点i上开始的随机行走在n个步骤之后处于节点j上的概率。一般地,不管开始节点i是哪个,都可大致通过(t+1)πj估计随机行走在时间0与t之间花在节点j上的平均时间量。但是,当开始节点i已知时,Green的测量Gij代表要与大致估计组合的校正项。特别地,Gij=limt→∞(Tij(t)-(t+1)πj),这里,Tij(t)与在节点i上开始的随机行走在时间0与t之间访问节点j的平均次数对应。如关于图8详细描述的那样,Markov链的基本矩阵可被用于计算网络中的节点的中心度值。
由于是算子的固定点,因 此该固定点可通过连续提供节点i上的源1和均匀下降-π的源项δi表示为随机行走的均衡测量。作为结果,量Gi可表示为源处于节点i上的页秩(page rank)。
以下清单列举π和G的示例性性能。Aldous和Fill已在Reversible Markov Chains and Random Walks on Graphs中进一步详细描述了这些和其它性能,该文献可在http://www.stat.berkeley.edu/~aldous/RWG/book.html上得到并且在这里加入其全部内容作为参考。表示法表示初始分布μ的期望。表示法表示初始分布δi的期望。
i)∑jGij=0对于所有节点i,且通常G是非自轭的;
ii)
iii)
iv)
v)
vi)
在步骤506中限定的增强随机行走是有利于向具有较大的PI的节点转移的随机行走。作为不被增强的随机行走的例子,网络中的所有边可具有相同的转移概率。但是,在增强的随机行走中,转移偏好可与PI或PI的线性函数成比例。特别地,与特定的因果关系(即,网络400b中的边410a)相关的转移概率依赖于下游的节点的PI(即,节点412b)。增强随机行走由此基于下游节点的PI增强因果语句。增强随机行走的分析由此提供关于更可能在随机行走中被横穿的节点(即,具有高概率的进入边的节点)的信息,也就是是处于网络中心的重要节点。
在一些实施例中,网络评分引擎114可使用图7中的方法700以计算步骤506的增强随机行走的传播算子M∈l2(V)。特别地,传播算子M是元素与节点之间的转移概率对应的矩阵。如图7所示,矩阵M的元素是节点PI值的线性函数。特别地,如果d是从节点i的外出边的数量(即,节点i的外部程度),那么传播算子M可根据下式被定 义:
Mij∝1d(1+100·PIj)ifi→jandj∈I1difi→jandj∉I0else---(8)]]>
现在参照图7,通过用于根据式8确定传播算子M的元素Mij的网络评分引擎114实现处理700。在步骤702中,网络评分引擎114选择两个节点i(即,节点412a)和j(即,节点412b)之间的转移。特别地,可选择网络中的任意两个节点,并且可选择方向。在决定块704中,网络评分引擎114确定是否存在定向边i→j(即,边410a)。如果不存在定向边,那么网络评分引擎114在步骤706中向元素Mij分配0的值,原因是从节点i到节点j的转移的概率是0。如果存在定向边,那么网络评分引擎114前进到决定块708以确定节点i是否处于一组节点I中。在例子中,网络评分引擎114检查网络模型以在决定块708中确定节点i是否与任何表达节点或实验数据可映射到的任何其它节点连接(即,位于上游或下游)。特别地,一组节点I是可具有与实验数据的直接链接的一组节点1102。特别地,如果节点i不处于一组节点I中,那么网络评分引擎114在步骤710中向元素Mij分配与成比例的值(即,Mijα1/n)。否则,网络评分引擎114在步骤712中向元素Mij分配与成比例的值(即,Mijα(1+100.PIj)/n)。特别地,元素Mij的值可被归一化,使得针对所有j的元素Mij的和等于1。
图7所示的处理700是通过基于PI值优先加权转移来实现网络中的不同节点之间的转移概率的修改的一个例子。但是,一般地,对于修改转移概率可使用任何适当的方法。
另外,由8式的转移概率限定的Markov链未必是不能缩减的。例如,可存在吸收节点(诸如代表细胞活动的生物网络中的细胞凋亡)。作为例子,图12的网络中的节点N23、N51、N77、N95、N100和N104是仅具有进入边而没有外出边的吸收节点的例子。在一些实施例中,通过包含附加的转移概率以允许随机行走逃逸到一个或更多个指定的 节点(例如,没有上游节点的节点)来解决该问题。在一些实施例中,通过包含附加的转移概率以允许随机行走在一些或全部的节点上进行随机跳跃来解决该问题。
现在参照图5,在步骤508中,对网络中的各单个节点生成中心度值。一般地,节点的中心度值量化节点在网络中的相对重要性。例如,节点的中心度值可关于网络中的其它节点被限定。特别地,可基于在增强随机行走第一次访问另一节点之前对选择节点的期望访问次数来计算选择节点的中心度值。White和Smyth在Algorithms for estimating relative importance in networks,International Conference on Knowledge Discovery and Data Mining,Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining2003,pp.266-275中描述了中心度值的一个例子,在这里加入其全部内容作为参考。
现在参照图8,为了生成网络中的节点的中心度值,可由网络评分引擎114实现处理800。如上所述,节点的中心度值代表节点在网络中的相对重要性,并且可代表节点与网络中的其它节点之间的关系。另外,中心度值可依赖于增强随机行走模型(如关于图7针对传播算子M限定的那样)。在例子中,基于随机行走在连续访问其它节点之间对相应节点的期望访问次数来计算相应节点的中心度值。以这种方式,中心度值代表随机行走访问节点的期望次数,并因此指示节点在网络中的相对重要性。
特别地,在步骤802中,网络评分引擎114根据式6与式7计算基本矩阵G。在步骤804中,网络评分引擎114确定在第一次访问节点i之前对节点j的期望访问次数。在一些实施例中,在步骤804中施加来自以上的性能列表的性能(vi)。在步骤806中,网络评分引擎114将所有节点i上的期望访问次数求和,并且,在步骤808中,节点j的中心度值被设为在步骤806中计算的和。特别地,节点j的Markov中心根据下式被计算:
C(j)=Σi=1,..,m(πjπiGii-Gij)---(9)]]>
(在时间Ti之前访问j的次数)     (10)
因此,节点j的中心度值基于随机行走在访问另一节点之前访问节点j的期望访问次数。在极端情况下,如果在随机行走第一次访问其它节点之前一个节点j1被访问许多次,那么节点j1相对重要,从而导致较大的中心度值C(j1)。另一方面,如果在随机行走第一次访问其它节点之前节点j2未被访问,那么节点j2相对不重要,从而导致较小的中心度值C(j2)。
在一些实施例中,为了计算单个节点j的中心度值,增强随机行走的Markov中心(在步骤506中限定)可与针对不通过任何数据增强的随机行走计算的中心(即,对于所有节点i,PIi=0)组合。不被增强的随机行走可被称为简单随机行走(SRW),并且,增强随机行走与SRW之间的比较可区分在增强随机行走中包含PI的影响。由CSRW(j)表示SRW的Markov中心。在一些实施例中,根据下式生成中心度值:
R(j)=log10(C(j)CSRW(j))---(11)]]>
通过使用包含增强Markov链中心和SRW的中心的中心度值,关注的系统的观察行为能够增强网络模型内的路径。如果增强随机行走内的所有PI值为零,那么R(j)对所有j为零。
式9~11是用于计算节点的中心度值的各种技术的解释性的例子,并且不同的技术可提供不同的优点。例如,式11代表作为关于SRW的归一化值的增强随机行走的中心度值,并且以这种方式为不变测量。与不变方法相比,在式10中描述的期望访问次数方法可对由PI的增强更敏感。最后,在式9中描述的Green测量也可被用于提供中心度值,但不提供就绪概率解释作为期望访问次数方法。
一般地,在这里描述的技术可应用于任何设置,其中,使用网络模型以代表实验或观察数据可用的系统。例如,交通网络可由边通过道路容量加权、各节点是道路交点且表达节点可以是意外或交通拥挤数据可用的道路交点的网络代表。意外或交通拥挤数据可被用于偏置随机行走模型并且响应交通的变化预测道路交点上的行为。在另一例 子中,web网络可由边是网页之间的链接、各节点是网页且表达节点可以是访问者数据可用的页的网络代表。访问者数据可被用于偏置随机行走模型并且响应网络冲浪习惯的变化预测对网页的访问。
在图5和图8中计算的网络中的节点的中心度值可被用于研究网络的总体拓扑。在这里描述用于使用网络中的中心度值以研究网络的拓扑的至少三种示例性方法。在一个例子中,网络评分引擎114可执行敏感度分析,该敏感度分析研究网络中的一个节点上的扰动对不同节点的中心度值的影响。以这种方式,网络的拓扑被用于理解网络另一位置上的变化在网络的一个位置上的影响。在第二例子中,网络中的节点的中心度值可被用于使整个网络的扰动的拓扑可视化。特别地,这些可视化方法可导致减少噪声,使得网络中的重要路径可很容易地被可视化。在第三例子中,网络中的节点的中心度值可被聚合以限定代表网络模型对扰动的总体响应的标量值。在后面更详细地描述这三个例子。但是,一般地,网络中的节点的中心度值可被用于研究或可视化各种扰动在网络上的任何拓扑影响。
在一些实现中,希望网络评分引擎114执行敏感度分析以理解一个节点的扰动指数的变化与另一(或同一)节点的中心度值之间的关系。可通过理解实验证据在网络节点的中心度值上的影响(例如,通过PI值)来执行网络的更深度的分析。在一些实施例中,敏感度分析包含确定下式的值或近似:
∂R(j)∂PIk.---(12)]]>
式12的表达可被写为:
∂C(j)/∂PIkC(j)-∂CSRW(j)/∂PIkCSRW(j).---(13)]]>
基本矩阵G可表示为:
G=(I-(M-M∞))-1-M∞.     (14)另外,(在时间Ti之前访问j的次数)可表达为:
diag(G)(1π)πT-G.---(15)]]>
因此,
∂G∂PIk=-(G+M)(∂(I-M)∂PIk+1·∂πT∂PIk)(G+M)-∂M∂PIk---(16)=(G+M)(∂(M-I-1πT)∂PIk)(G+M)-∂1πT∂PIk---(17)=(G+M)(∂M∂PIk-1·∂πT∂PIk)(G+M)-1·∂πT∂PIk---(18)]]>
使用式18的结果与式10的表达,生成:
∂C(j)∂PIk=∂∂PIk(diag(G)(1π)πT-G)---(19)=∂diag(G)∂PIk(1π)πT+diag(G)∂(1π)∂PIkπT+diag(G)(1π)∂πT∂PIk-∂G∂PIk---(20)]]>
这里,
∂(1π)∂PIk=-(1π2)·∂π∂PIk---(21)]]>
并且,
∂diag(G)∂PIkdiag(∂G∂PIk).---(22)]]>
另外,由于MTπT=πT,因此,
0=∂(MT-I)πT∂PIk---(23)]]>
并因此,
∂πT∂PIk=-(MT-I)+∂(MT-I)∂PIkπT---(24)]]>
∂π∂PIk=-π∂(M-I)∂PIk(M-I)+.---(25)]]>
最后,通过使用在式8中给出的增强Markov链的定义,
∂Mik∂PIk=Mijdegout(i)·ΣjMij2---(26)]]>
∂Mik∂PIk=-Mijdegout(i)·ΣjMij2for(j≠k,i→j)---(27)]]>
∂Mik∂PIk0fornot(i→j)---(28)]]>
式14~28的关系可与式13的表达一起使用,以确定中心度值关于扰动指数的敏感度的测量。
在一些实现中,希望滤波、修改或同时滤波和修改中心度值以改善结果的外观和解释。特别地,可通过使用用于视觉代表扰动在网络上的影响的谱变换矢量来投影中心度值(根据图5的流程图500的处 理生成)。来自可用于这种背景的图形理论的一个工具是图形组合拉普拉斯算子。组合拉普拉斯算子与定向网络的方向无关,因此不容易被修改以加入以上参照增强随机行走描述的因果关系。因此,网络的因果关系被去除。特别地,使G0表示通过去除G的方向性(即,通过使得所有边为双向)限定的非定向网络并使为根据下式限定的图形组合拉普拉斯算子:
LG0(i,j)=deg(i)ifi=j-1ifi~j0else---(29)]]>
特别地,当存在节点i与j之间的边时,满足表达i~j,使得拉普拉斯算子的各行求和为零。拉普拉斯算子是正对称的,因此,其谱是实正的。网络的热核是的基本解,表示为e-t-LG0的解的第i行提供i上的Dirac热源的扩散方程的解δi。另外,谱变换为g∈l2(V0),其中,g是具有m个条目的矢量并且可根据下式被计算:
F(g)=Σi&Element;V0e-λi<g|φi>φi---(30)]]>
这里,φi是的本征矢量,λi是相应的本征值。特别地,<g|φi>是g和φi的l2且标量积。在例子中,g可被归一化为单位大小,使得在式30中使用下式
<g|φi>2||g||22]]>
通常的惯例是将本征值整理为0≤λ1≤λ2≤…≤λm。在一些实施例中,根据图5的流程图500计算的中心度值可投影到式30的谱变换矢量上。投影中心度值并且仅显示有限数量的谱变换矢量的投影可减少噪声并阐明网络中的主导路径。这种投影可被用作多元网络扰动振幅(NPA)度量,从而代表网络模型对实验扰动的响应。在图13和图14中提供这种投影的例子,该例子对不同的节点使用不同的图案,以表示与两个最小的非零本征值相关的谱变换矢量的投影值。
在一些实现中,希望对网络模型中的多个节点的所有中心度值进 行聚合以限定代表网络模型对扰动的响应的标量值。替代或在上述的多元网络扰动振幅(NPA)度量的基础上,可以使用标量值网络扰动振幅(NPA)度量以代表网络模型对实验扰动的响应。上述的中心度值可通过任意数量的方式被组合,并且与任意数量的附加来源的信息一起生成标量值NPA度量。例如,可以使用以下方法中的任意的一个或更多个。
1.log10(Cj):Σj|log10(C(i)CSRW(i))|]]>的l2范数
2.中心度值的log10的谱变换的范数(即,通过exp-λj加权的中心比在谱变换矢量Nj上的投影的线性组合)。通过使用拓扑以生成中心度值并且还使用拓扑以生成谱变换矢量,该方法提供另一水平的粒度以区分可具有任意类似的全局(标量值)分数但不具有相同的拓扑轮廓的两个扰动。
3.定义为随机变量C=maxjTj的增强随机行走的覆盖时间。的确切计算在计算上可能是困难的,但上界根据下式由Matthew定理给出:
Σkn-11k]]>
该上界可被用于构建NPA度量,原因是它代表扰动渐近地传播到整个网络的时间。
细胞过程和它们的扰动的定量分析的描述有助于理解疾病。已研究了描述生物过程之间的非动力学因果关系的网络模型。在该网络模型中,一些节点与与由节点描述的过程的下游目标对应的一组基因相关。包含于模型中的行为与在特定的实验中在基因表达水平上观察的行为之间的一致性允许我们量化相应节点的活动。因此,网络模型有助于链接短期分子生物观察与疾病相关显型端点。
关于图5~8描述的中心度值技术被应用于老鼠的甲醛暴露实验。8周大的F344/CrlBR雄鼠通过整个身体吸入被暴露于甲醛。在0、0.7、2、6、10和15ppm的剂量下执行整个身体暴露(每天6小时,每周5天)。动物在初始暴露之后的1、4和13周死亡。在死亡之后,来自 鼻子的水平II区域的组织被解剖并且通过蛋白酶的混合物被消化以去除上皮细胞。从鼻子的该切片获取的上皮细胞主要包含转移上皮细胞连同一些呼吸上皮细胞。在上皮细胞上执行基因表达微阵列分析。为了进一步在系统水平上评价扰动对无疾病哺乳动物肺细胞的生物影响,Westra等在Construction of a Computable Cell Proliferation Network Focused on Non-Diseased Lung Cells,BMC Systems Biology2001,5:105中构建了细胞增殖的肺关注因果网络,该网络包围导致调节正常肺细胞增殖的不同的生物区域(Cell Cycle,Growth Factors,Cell Interaction,Intra-and Extracellular Signaling and Epigenetics),并包含总共848个节点(生物实体)和1597个边(生物实体之间的关系)。通过使用与肺中测量的细胞增殖端点和肺有关细胞类型相关的四个公开的基因表达轮廓数据集来验证网络。多个数据集都在统计上支持包含于细胞循环调节中的核心机制的活动的预定变化(RB1、CDKN1A和MYC/MYCN),从而通过使用系统生物数据强调该方法对网络范围生物影响评价的一般适用性。以节点的阴影灰度表示图15所示的中心结果。特别地,结果表示某些节点(例如,具有最浅阴影的节点与Kaof(Akt family R n)、WEE有关节点和Cdc2P@Y15对应)具有负的log中心度值,表示不被增强的网络的区域。另外,具有浅色阴影的负影响节点604(与taof(E2F2)对应)在细胞增殖上具有负影响。在另一例子中,图15表示细胞增殖的正影响节点(与taof(Myc)对应)。图15所示的结果表示taof(Myc)是对调节细胞循环的正影响(例如,在从阶段G1到阶段S的转移中)。图15中的节点的子集表示与可测量量的因果签名的类型相关的HYP。名字“HYP”源自“假说”,反映HYP可被视为进行一组预测,并且,HYP可提供关于特定的生物过程的机制的深刻见解。特别地,HYP可与一个或更多个可测量实体(例如,图15中的节点中的至少一些)和它们响应于扰动的的变化方向(增加或减少)对应。并且,图16表示增强细胞增殖时的指数剂量依赖图案,该图案与在文献中描述的结果一致。通过使用上述的技术,网络的被扰动区域被识别,并且它揭示时间和剂量依赖增 强,但也揭示具有相反的符号的区域。因此,通过公开的方法捕获隐藏于数以千计的下游控制基因的噪声行为中的整个系统的响应结构,从而通过组合包含于因果模型中的知识与由基因表达技术测量的系统响应来提供描述外部扰动对生物网络的全局影响的富有洞察力的方法。
图9是用于量化生物扰动的影响的分布式计算机化系统900的框图。系统900的部件与图1的系统100的部件相同,但系统100的配置使得各部件通过网络接口910通信。这种实现可适于在包括可共享对共用网络资源的访问的无线通信系统的多个通信系统上的分布计算,诸如“云计算”模式。
图10是诸如用于执行参照图1~10描述的处理的图1的系统100和图9的系统900的部件中的任一个的计算装置的框图。可在一个或更多个计算装置1000上实现包括SRP引擎110、网络建模引擎112、网络评分引擎114、聚合引擎116和包含结果数据库、扰动数据库和文献数据库的数据库中的一个或更多个的系统100的部件中的每一个。在某些方面中,可在一个计算装置1000内包括多个的以上部件和数据库。在某些实现中,可在几个计算装置1000上实现部件和数据库。
计算装置1000包括至少一个通信接口单元、输入/输出控制器1010、系统存储器和一个或更多个数据存储装置。系统存储器包含至少一个随机存取存储器(RAM1002)和至少一个只读存储器(ROM1004)。所有这些元件与中央处理单元(CPU1006)通信以有利于计算装置1000的操作。可通过许多不同的方式配置计算装置1000。例如,计算装置1000可以是常规的独立计算机,或者,替代性地,可在多个计算机系统和体系结构上分布计算装置1000的功能。计算装置1000可被配置为执行建模、评分和聚合操作中的一些或全部。在图10中,计算装置1000通过网络或局部网络与其它服务器或系统链接。
可以分布式结构配置计算装置1000,其中,数据库和处理器容纳于单独的单元或位置中。一些这种单元执行主处理功能,并至少包含一般的控制器或处理器和系统存储器。在此方面,这些单元中的每一 个通过通信接口单元1008固定于用作与其它服务器、客户机或用户计算机和其它相关装置的主通信链接的通信集线器或端口(未示出)。通信集线器或端口自身可具有最小处理能力,从而主要用作通信路由器。各种通信协议可以是包含但不限于Ethernet、SAP、SASTM、ATP、BLUETOOTHTM、GSM和TCP/IP的系统的一部分。
CPU1006包含诸如一个或更多个常规的微处理器的处理器和诸如用于从CPU1006卸载工作负载的数学协处理器的一个或更多个补充协处理器。CPU1006与通信接口单元1008和输入/输出控制器1010通信,CPU1006通过它们与诸如其它服务器、用户终端或装置的其它装置通信。通信接口单元1008和输入/输出控制器1010可包含用于同时与例如其它处理器、服务器或客户机终端通信的多个通信信道。相互通信的装置不需要连续地相互传送。相反,这种装置仅需要在必要时相互传送,实际大部分时间可免除交换数据,并且可要求执行几个步骤以建立装置之间的通信链接。
CPU1006还与数据存储装置通信。数据存储装置可包含磁、光学或半导体存储器的适当的组合,并且可包含例如RAM1002、ROM1004、快擦写驱动、诸如压缩盘的光盘或硬盘或驱动。例如,CPU1006和数据存储装置可分别完全位于单个计算机或其它计算装置内;或者通过诸如USB端口、串行端口电缆、共轴电缆、以太网型电缆、电话线、射频收发器或其它类似的无线或有线介质或以上的组合的通信介质相互连接。例如,CPU1006可通过通信接口单元1008与数据存储装置连接。CPU1006可被配置为执行一个或更多个特定的处理功能。
例如,数据存储装置可存储:(i)用于计算装置1000的操作系统1012;(ii)适于根据在这里描述的系统和方法特别是根据关于CPU1006详细描述的处理来引导CPU1006的一个或更多个应用1014(即,计算机程序代码或计算机程序产品);或(iii)可用于存储程序所需要的信息的适于存储信息的数据库1016。在一些方面,数据库包含存储实验数据和公开的文献模型的数据库。
例如,操作系统1012和应用1014可按压缩、未编辑和加密的格 式被存储,并且可包含计算机程序代码。程序的指令可从数据存储装置以外的计算机可读介质、诸如从ROM1004或从RAM1002读入到处理器的主存储器中。虽然执行程序中的指令序列导致CPU1006执行在这里描述的处理步骤,但可用硬接线电路来替代、或与实现本公开的处理的软件指令组合。因此,描述的系统和方法不限于硬件和软件的任意特定的组合。
可提供用于执行一种或更多种关于在这里描述的建模、评分和聚合功能的适当的计算机程序代码。程序还可包含诸如操作系统1012、数据库管理系统和允许处理器通过输入/输出控制器1010与计算机外设装置(例如,视频显示器、键盘、计算机鼠标等)连接的“装置驱动器”的程序元素。
这里使用的术语“计算机可读介质”指的是向计算装置1000的处理器(或这里描述的装置的任何其它处理器)提供或参于提供用于执行的指令的任何非暂时性介质。这种介质可采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包含例如光盘、磁盘或光磁盘或诸如快擦写存储器的集成电路存储器。易失性介质包含一般构成主存储器的动态随机存取存储器(DRAM)。例如,计算机可读介质的常见形式包含软盘、柔性盘、硬盘、磁带、任何其它磁介质、CD-ROM、DVD、任何其它光学介质、冲孔卡、纸带、具有孔图案的任何其它物理介质、RAM、PROM、EPROM或EEPROM(电可擦可编程只读存储器)、FLASH-EEPROM、任何其它存储器芯片或盒子或计算机可读取的任何其它非暂时性介质。
在将一个或更多个序列的一个或更多个指令携带到CPU1006(或这里描述的装置的任何其它处理器)以供执行时,可涉及各种形式的计算机可读介质。例如,可在远程计算机(未示出)的磁盘上承载指令。远程计算机可将指令加载到其动态存储器中并在以太网连接、电缆线或者甚至使用调制解调器的电话线上发送指令。计算装置1000本地的通信装置(例如,服务器)可在各通信线上接收数据并将数据放在处理器的系统总线上。系统总线将数据携带到主存储器,处理器 从该主存储器检索和执行指令。由主存储器接收的指令可任选地在被处理器执行之前或之后存储于存储器中。另外,指令可通过通信端口接收为电气、电磁或光学信号,这些信号是承载各种类型的信息的无线通信或数据流的示例性形式。
另一方面中,提供一种用于确定生物系统的网络模型中的节点的度量的计算机系统,该计算系统包括:被配置为或适于接收与生物系统对媒介的响应对应的一组处理数据的第一处理器,其中,生物系统包含多个生物实体,各生物实体与生物实体中的至少一个其他生物实体相互作用;被配置为或适于接收与不暴露于媒介的生物系统对应的一组控制数据的第二处理器;被配置为或适于提供代表生物系统并包含代表生物实体的节点和代表生物实体之间的关系的边的计算因果网络模型的第三处理器,其中,边连接相应的第一节点与相应的第二节点;以及被配置为或适于至少部分地基于网络模型计算节点的子集的扰动指数的第四处理器,其中,扰动指数代表相应节点上的处理数据与控制数据之间的差异和扰动影响相应节点的活动的程度;被配置为或适于至少部分地基于扰动指数计算边的转移概率的第五处理器,其中,边的转移概率代表从相应的第一节点转移到相应的第二节点的可能性;和被配置为或适于至少部分地基于转移概率生成节点的中心度值的第六处理器,其中,中心度值代表相应节点在网络模型中的相对重要性。
在另一方面中,提供一种计算机系统,该计算系统包括:被配置为或适于接收一组第一处理数据的第一处理器;被配置为或适于接收一组第二处理数据的第二处理器;被配置为或适于提供包含代表生物实体的节点和代表生物实体之间的关系的边的计算因果网络模型的第三处理器;被配置为或适于至少部分地基于网络模型计算节点的子集的扰动指数的第四处理器,其中,扰动指数代表相应节点上的第一和第二处理数据之间的差异;被配置为或适于至少部分地基于扰动指数生成相应节点的中心度值的第五处理器,其中,中心度值代表相应节点在网络模型中的相对重要性;以及被配置为或适于计算第一节点的 中心度值关于第二节点的扰动指数的偏导数的第六处理器,其中,偏导数代表网络模型的拓扑敏感度测量。
在另一方面中,提供一种计算机系统,该计算系统包括:被配置为或适于提供包含代表生物实体的节点和代表生物实体之间的关系的边的计算网络模型的第一处理器;被配置为或适于至少部分地基于网络模型生成相应节点的中心度值的第二处理器,其中,中心度值代表相应节点在网络模型中的相对重要性;和被配置为或适于计算中心度值在代表扰动在网络模型上的影响的谱变换矢量上的投影的第三处理器。
在另一方面中,提供用于量化生物系统的扰动的计算机系统,该计算系统包括:被配置为或适于提供包含代表生物实体的节点和代表生物实体之间的关系的边的计算因果网络模型的第一处理器;被配置为或适于至少部分地基于网络模型生成相应节点的中心度值的第二处理器,其中,中心度值代表相应节点在网络模型中的相对重要性;和被配置为或适于聚合中心度值以生成代表生物系统的扰动的网络模型分数的第三处理器。
在另一方面中,提供包括适于执行在这里描述的方法的程序代码的计算机程序产品。
在另一方面中,提供包括计算机程序产品的计算机或计算机可读介质或装置。
虽然参照特定的例子特别表示和描述了公开的实现,但本领域技术人员可以理解,在不背离由所附的权利要求限定的公开的精神和范围的情况下,可在这里提出形式和细节的各种变化。公开的范围由此由所附的权利要求限定,并因此要包括在权利要求的等同意思和范围内出现的所有变化。在这里加入在以上的说明书中提到的所有公开作为参考。

用于表征拓扑网络扰动的系统和方法.pdf_第1页
第1页 / 共50页
用于表征拓扑网络扰动的系统和方法.pdf_第2页
第2页 / 共50页
用于表征拓扑网络扰动的系统和方法.pdf_第3页
第3页 / 共50页
点击查看更多>>
资源描述

《用于表征拓扑网络扰动的系统和方法.pdf》由会员分享,可在线阅读,更多相关《用于表征拓扑网络扰动的系统和方法.pdf(50页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103843000 A (43)申请公布日 2014.06.04 CN 103843000 A (21)申请号 201280041314.5 (22)申请日 2012.08.24 61/527,946 2011.08.26 US G06F 19/00(2011.01) G06F 19/12(2011.01) (71)申请人 菲利普莫里斯生产公司 地址 瑞士纳沙泰尔 (72)发明人 F马丁 A塞沃尔 (74)专利代理机构 中国国际贸易促进委员会专 利商标事务所 11038 代理人 李玲 (54) 发明名称 用于表征拓扑网络扰动的系统和方法 (57) 摘要 这里公开用于确。

2、定生物系统的网络模型中的 节点的度量的系统、 计算机化方法和产品。 这些系 统和计算机化方法可被用于基于生物系统中的实 体的子集的测量的活动数据量化生物系统对一个 或更多个扰动的响应。基于活动数据和生物系统 的网络模型, 导出代表节点在网络中的相对重要 性的中心度值。中心度值被用于表征网络中的拓 扑扰动, 这些拓扑扰动诸如用于执行敏感度分析、 可视化生物系统中的扰动的拓扑影响或导出对生 物系统对诸如暴露给化学媒介的扰动的响应进行 量化的分数。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2014.02.25 (86)PCT国际申请的申请数据 PCT/EP2012/066557 2。

3、012.08.24 (87)PCT国际申请的公布数据 WO2013/030137 EN 2013.03.07 (51)Int.Cl. 权利要求书 2 页 说明书 28 页 附图 19 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书28页 附图19页 (10)申请公布号 CN 103843000 A CN 103843000 A 1/2 页 2 1. 一种用于确定生物系统的网络模型中的节点的度量的计算机化方法, 包括 : 在第一处理器处接收与生物系统对媒介的响应对应的一组处理数据, 其中, 生物系统 包含多个生物实体, 各生物实体与所述多个生物实体中的至少。

4、一个其他生物实体相互作 用 ; 在第二处理器处接收与不暴露于媒介的生物系统对应的一组控制数据 ; 在第三处理器处提供代表生物系统的计算因果网络模型, 所述网络模型包括 : 代表生物实体的节点 ; 代表生物实体之间的关系的边, 其中, 边将相应的第一节点连接到相应的第二节点 ; 和 通过第四处理器至少部分地基于所述网络模型来计算节点的子集的扰动指数, 其中, 扰动指数代表相应节点处的处理数据与控制数据之间的差异和扰动对所述相应节点的活 动的影响程度 ; 通过第五处理器至少部分地基于扰动指数计算边的转移概率, 其中, 边的转移概率代 表从相应的第一节点转移到相应的第二节点的可能性 ; 和 通过第六。

5、处理器至少部分地基于所述转移概率生成节点的中心度值, 其中, 中心度值 代表相应节点在所述网络模型中的相对重要性。 2. 根据权利要求 1 的计算机化方法, 其中, 扰动指数是相应节点的下游节点的活动测 量的线性组合。 3.根据权利要求1或2的计算机化方法, 其中, 边的转移概率是第二节点的扰动指数的 线性函数。 4. 根据前面的权利要求中的任一项的计算机化方法, 还包括通过第七处理器计算代表 随机行走在稳定的状态中访问节点的概率的节点的均衡概率。 5. 根据前面的权利要求中的任一项的计算机化方法, 其中, 第六处理器至少部分地基 于均衡概率生成中心度值。 6. 根据前面的权利要求中的任一项的。

6、计算机化方法, 其中, 第六处理器至少部分地基 于随机行走在对其它节点的连续访问之间对相应节点的期望访问次数来生成所述相应节 点的中心度值。 7. 根据前面的权利要求中的任一项的计算机化方法, 其中, 扰动指数进一步基于代表 相应节点处的处理数据与控制数据之间的差异的倍数变化值。 8. 一种计算机化方法, 包括 : 在第一处理器处接收一组第一处理数据 ; 在第二处理器处接收一组第二处理数据 ; 在第三处理器处提供计算因果网络模型, 所述网络模型包括 : 代表生物实体的节点 ; 和 代表生物实体之间的关系的边 ; 通过第四处理器至少部分地基于所述网络模型计算节点的子集的扰动指数, 其中, 扰 动。

7、指数代表相应节点处的第一和第二处理数据之间的差异 ; 通过第五处理器至少部分地基于扰动指数生成相应节点的中心度值, 其中, 中心度值 代表相应节点在网络模型中的相对重要性 ; 通过第六处理器计算第一节点的中心度值关于第二节点的扰动指数的偏导数, 其中, 权 利 要 求 书 CN 103843000 A 2 2/2 页 3 偏导数代表网络模型的拓扑敏感度测量。 9. 根据权利要求 8 的计算机化方法, 其中, 计算偏导数包含确定第二节点的扰动指数 的变化对第一节点的中心度值的变化的影响。 10. 一种计算机化方法, 包括 : 在第一处理器处提供计算网络模型, 所述网络模型包括 : 代表生物实体的。

8、节点 ; 和 代表生物实体之间的关系的边 ; 通过第二处理器至少部分地基于网络模型生成相应节点的中心度值, 其中, 中心度值 代表相应节点在网络模型中的相对重要性 ; 通过第三处理器计算中心度值在代表扰动在网络模型上的影响的谱变换矢量上的投 影。 11. 根据权利要求 10 的计算机化方法, 其中, 计算中心度值的投影包含对中心度值进 行滤波。 12. 一种用于量化生物系统的扰动的计算机化方法, 包括 : 在第一处理器处提供计算因果网络模型, 所述网络模型包括 : 代表生物实体的节点 ; 和 代表生物实体之间的关系的边 ; 通过第二处理器至少部分地基于网络模型生成相应节点的中心度值, 其中, 。

9、中心度值 代表相应节点在网络模型中的相对重要性 ; 和 通过第三处理器聚合中心度值以生成代表生物系统的扰动的网络模型的分数。 13. 根据权利要求 12 的计算机化方法, 其中, 所述分数是标量值。 14. 根据权利要求 12 或 13 的计算机化方法, 其中, 聚合中心度值包含计算中心度值的 线性组合。 15. 根据权利要求 12 或 13 的计算机化方法, 其中, 聚合中心度值包含计算中心度值的 谱变换的线性组合。 权 利 要 求 书 CN 103843000 A 3 1/28 页 4 用于表征拓扑网络扰动的系统和方法 背景技术 0001 人体经常由于曝露于可能有害的媒介而受到扰动, 这在。

10、长期可能形成严重的健康 风险。曝露于这些媒介可损伤人体内部的生物机制的正常功能。为了理解并量化这些扰动 对人体的影响, 研究人员研究了生物系统对曝露于媒介的响应机制。一些研究组广泛利用 体内动物测试方法, 但在从动物测试获得的响应是否可外推到人体上存在疑问。其它方法 包括通过志愿人员的临床研究评价风险。 但这些风险评价的执行是后验的, 并且, 由于疾病 显露会花费几十年, 因此, 这些评价不足以阐明关联有害的物质与疾病的机制。 另一些方法 包括体外实验。 虽然体外细胞和基于组织的方法作为它们的基于动物的对应方法的全部或 部分替代方法被一般地接受, 但这些方法具有有限的价值。由于体外方法关注细胞。

11、与组织 机构的特定方面, 因此它们不总是考虑在整个生物系统中出现的复杂的相互作用。 0002 在过去的十年, 作为用于阐明许多生物过程的作用机制的手段, 出现了结合常规 的依赖剂量的效力和毒性化验的核酸、 蛋白质和代谢物水平的高产量测量。研究人员尝试 将来自这些互异测量的信息与来自科学文献的关于生物途径的知识相结合, 以组建有意义 的生物模型。 为此, 研究人员开始使用可采集大量的数据的数学和计算技术, 诸如聚类和统 计方法, 以识别可能的生物作用机制。 0003 以前的工作探索以下的可能性 : 发现源自对于生物过程的一个或更多个扰动的基 因表达变化的特性签名并随后在附加的数据集中评分签名的有。

12、无。 这方面的大多数工作包 括识别并评分与疾病显型相关的签名。这些显型导出的签名提供显著的分类能力, 但缺少 单个特定扰动与签名之间的必然或因果关系。因此, 这些签名可代表多个相异的未知的扰 动, 这些扰动通过经常未知的机制导致或者源自同一疾病显型。 0004 一种挑战是理解生物系统中的各种单个生物实体的活动如何使得能够激活或抑 制不同的生物机制。 由于诸如基因的单个实体可能被包含在多个生物过程 (例如, 炎症和细 胞增殖) 中, 因此基因活动的测量不足以识别触发该活动的根本的生物过程。 0005 随机行走方法已被用于网络分析中以表征网络拓扑, 例如, Komurov 等 (PLoS Comp。

13、utational Biology,August2010, 6(8) :e1000889) 描述了数据偏置随机行走被定义 并与单个随机行走相比较的方法。但是 Komurov 方法假定各节点具有相关的数据并且网络 是缺乏方向的, 但不提供概率结果, 并且敏感性分析不可用。 另外, 当使用因果网络模型时, 不是所有实体 (表示为模型中的节点) 都可与实验证据关联。并且, 当收集特定的实验数据 时, 网络可能由于通过实验激活的特定机制而被不平等地扰动。 鉴于以上情况, 在本计算生 物领域中不断需要用于在生物分子网络模型中分析高产量数据集的进一步发展且更好的 方法。 发明内容 0006 这里描述用于基。

14、于从生物系统中的实体的子集测量的活动数据来量化生物系统 对一个或更多个扰动的响应的系统、 方法和产品。这里描述用于基于活动数据和生物系统 的网络模型导出中心度值的系统和方法。 当前可用的技术不基于识别负责生物实体在微尺 说 明 书 CN 103843000 A 4 2/28 页 5 寸上的活动的基础机制, 它们也不提供对这些实体起作用的不同的生物机制响应于潜在有 害的媒介和实验条件的激活的定量评价。因此, 特别需要用于鉴于生物机制来分析系统范 围的生物数据、 并量化生物系统响应于媒介或环境变化的变化的改进的系统和方法。 0007 在一个方面中, 这里描述的系统和方法针对用于量化生物系统的扰动 。

15、(例如, 响应 诸如媒介暴露的处理条件或者响应多种处理条件) 的计算机化方法和一个或更多个计算机 处理器。 计算机化方法可包括在第一处理器处接收与生物系统对媒介的响应对应的一组处 理数据。生物系统包含多个生物实体, 各生物实体与生物实体中的至少一个其他生物实体 相互作用。 该计算机化方法还可包括在第二处理器处接收与不暴露于媒介的生物系统对应 的一组控制数据。 该计算机化方法还可包括在第三处理器处提供代表生物系统的计算因果 网络模型。计算因果网络模型包括代表生物实体的节点和代表生物实体之间的关系的边。 边连接相应的第一节点与相应的第二节点。在一些实现中, 边代表节点之间的因果激活关 系。 000。

16、8 计算机化方法还可包括通过第四处理器计算节点的子集的扰动指数。 可至少部分 地基于网络模型计算扰动指数。 扰动指数代表相应节点处的处理数据与控制数据之间的差 异和扰动影响相应节点的活动的程度。 0009 计算机化方法还可包括通过第五处理器计算边的转移概率。 可至少部分地基于扰 动指数计算边的转移概率。 边的转移概率代表从相应的第一节点转移到相应的第二节点的 可能性。这种转移概率可限定 Markov 链。 0010 最后, 计算机化方法还可包括通过第六处理器生成节点的中心度值。可至少部分 地基于转移概率生成节点的中心度值, 并且, 中心度值代表相应节点在网络模型中的相对 重要性。 0011 在。

17、某些实现中, 扰动指数是相应节点的下游节点的活动测量的线性组合。在某些 实现中, 边的转移概率至少部分地基于相应的第二节点的扰动指数。 在这种实现中, 边的转 移概率可以是第二节点的扰动指数的线性函数。 0012 在某些实现中, 计算机化方法还包括通过第七处理器计算代表随机行走在稳定的 状态中访问节点的概率的节点的均衡概率。在这种实现中, 第六处理器可至少部分地基于 均衡概率生成中心度值。 0013 在某些实现中, 第六处理器至少部分地基于随机行走在对其它节点的连续访问之 间对相应节点的期望访问次数生成相应节点的中心度值。在这种实现中, 中心度值可以是 对网络中的所有节点的期望访问次数的线性组。

18、合。 0014 在某些实现中, 通过至少部分地基于不基于扰动指数的简单的转移概率生成的简 单中心度值来归一化中心度值。 0015 在某些实现中, 第一到第六处理器中的每一个包括在单个处理器或单个计算装置 内。在其它实现中, 第一到第六处理器中的一个或多个分布在多个处理器或计算装置上。 0016 在某些实现中, 计算因果网络模型包含存在于代表潜在因果的节点与代表一个或 更多个测量量的节点之间的一组因果关系。 在这些实现中, 活动测量可包含倍数变化 (fold change) 。倍数变化可以是描述节点测量在控制数据与处理数据之间或者在代表不同的处 理条件的两组数据之间从初始值到最终值变化了多少的数。

19、量。 倍数变化数量可代表两种条 件之间的生物实体的活动的倍数变化的对数。 各节点的活动测量可包含由各节点代表的生 说 明 书 CN 103843000 A 5 3/28 页 6 物实体的处理数据与控制数据之间的差异的对数。在某些实现中, 计算机化方法包括通过 处理器生成生成的分数中的每一个的置信区间。 0017 在某些实现中, 生物系统的子集包含但不限于细胞增殖机制、 细胞应力机制、 细胞 炎症机制、 细胞凋亡机制、 衰老、 自我吞噬或坏死和 DNA 修复机制中的至少一种。媒介可包 含但不限于异质物质, 包含不存在于生物系统中或从生物系统中导出的分子或实体。媒介 还可包含但不限于毒素、 治疗性。

20、化合物、 刺激物、 弛缓剂、 天然产品、 制造产品和食品物质。 媒介可包含但不限于通过加热烟草生成的悬浮微粒、 通过燃烧烟草生成的悬浮微粒、 烟草 烟和雪茄烟中的至少一种。 媒介可包含但不限于镉、 汞、 铬、 尼古丁、 烟草特有亚硝胺和它们 的代谢物 (4-( 甲基亚硝胺 )-1-(3- 吡啶 )-1- 丁酮 (NNK) 、 N - 亚硝基降烟碱 (NNN) 、 N- 亚 硝基新烟碱 (NAT) 、 N- 亚硝基新烟草碱 (NAB) 和 4-( 甲基亚硝胺 )-1-(3- 吡啶 )-1- 丁醇 (NNAL) ) 。在某些实现中, 媒介包含用于尼古丁替代疗法的产品。 0018 在另一方面中, 在。

21、这里描述的系统和方法针对用于量化生物系统的扰动的计算机 化方法和一个或更多个计算机处理。 计算机化方法可包括在第一处理器上接收一组第一处 理数据和在第二处理器上接收一组第二处理数据。 计算机化方法还可包括在第三处理器上 提供计算因果网络模型。 网络模型包含代表生物实体的节点和代表生物实体之间的关系的 边。计算机化方法还可包括通过第四处理器计算节点的子集的扰动指数。可至少部分地基 于网络模型计算扰动指数, 并且扰动指数代表相应节点上的第一和第二处理数据之间的差 异。计算机化方法还可包括通过第五处理器生成相应节点的中心度值。可至少部分地基于 扰动指数生成中心度值, 并且, 中心度值代表相应节点在网。

22、络模型中的相对重要性。 计算机 化方法还可包括通过第六处理器计算第一节点的中心度值关于第二节点的扰动指数的偏 导数。偏导数代表网络模型的拓扑敏感度测量。在某些实现中, 计算偏导数包含确定第二 节点的扰动指数的变化对第一节点的中心度值的变化的影响。 0019 在另一方面中, 在这里描述的系统和方法针对用于可视化生物系统上的扰动影响 的计算机化方法和一个或更多个计算机处理。 计算机化方法可包括在第一处理器上提供计 算因果网络模型。网络模型包括代表生物实体的节点和代表生物实体之间的关系的边。计 算机化方法还可包括通过第二处理器生成相应节点的中心度值, 可至少部分地基于网络模 型生成中心度值, 并且中。

23、心度值代表相应节点在网络模型中的相对重要性。计算机化方法 还可包括通过第三处理器生成中心度值在代表扰动在网络模型上的影响的谱变换矢量上 的投影。在某些实现中, 计算中心度值的投影包含对中心度值进行滤波。在某些实现中, 计 算机化方法还包括显示网络模型并显示中心度值在显示的网络模型上的投影的一个或更 多个分量。在某些实现中, 网络模型中的边是非定向的。 0020 在另一方面中, 在这里描述的系统和方法针对用于量化生物系统的扰动的计算机 化方法和一个或更多个计算机处理。 计算机化方法可包括在第一处理器上接收计算因果网 络模型。网络模型包含代表生物实体的节点和代表生物实体之间的关系的边。计算机化方 。

24、法还可包含通过第二处理器生成相应节点的中心度值。 可至少部分地基于网络模型生成中 心度值, 并且中心度值代表相应节点在网络模型中的相对重要程度。计算机化方法还可包 含通过第三处理器聚合中心度值以生成代表生物系统的扰动的网络模型的分数。 在某些实 现中, 分数是标量值。在某些实现中, 聚合中心度值包含计算中心度值的线性组合。在某些 实现中, 聚合中心度值包含计算中心度值的谱变换的线性组合。 说 明 书 CN 103843000 A 6 4/28 页 7 0021 可在具有分别包含一个或更多个处理器的一个或更多个计算装置的计算机化系 统中实现在这里描述的计算机化方法。一般地, 在这里描述的计算机化。

25、系统可包括包含处 理装置的一个或更多个引擎, 处理装置诸如配有硬件、 固件和软件以实施在这里描述的计 算机化方法中的一个或更多个的计算机、 微处理器、 逻辑器件或其它装置或处理器。 在某些 实现中, 计算化系统包含系统响应轮廓引擎、 网络建模引擎和网络评分引擎。 引擎可偶尔被 互连, 并且, 进一步偶尔与包含扰动数据库、 可测量量数据库、 实验数据数据库和文献数据 库的一个或更多个数据库连接。 在这里描述的计算机化系统可包含具有通过网络接口通信 的一个或更多个处理器和引擎的分布式计算系统。 这种实现可适于在多个计算系统上的分 布计算。 附图说明 0022 结合附图考虑以下的详细的描述, 本公开。

26、的其它特征、 其性质和各种优点将十分 明显, 在这些附图中, 相同的附图标记始终指的是相同的部分。 0023 图 1 是用于量化生物网络对扰动的响应的解释性的计算机化系统的框图。 0024 图 2 是用于通过计算网络扰动振幅 (NPA) 分数量化生物网络对扰动的响应的解释 性的处理的流程图。 0025 图 3 是以包含用于两种媒介、 两个参数和 N 个生物实体的数据的系统响应轮廓为 基础的数据的图示。 0026 图 4A 和图 4B 是具有几个生物实体的和它们的关系的生物网络计算模型的示图。 0027 图 5 是用于生成生物网络中的节点的中心度值的解释性的处理的流程图。 0028 图 6 是图。

27、 5 的一部分的更详细的流程图, 表示用于生成一组节点的扰动指数的解 释性的处理。 0029 图 7 是图 5 的一部分的更详细的流程图, 表示用于限定网络上的增强随机行走的 解释性的处理。 0030 图 8 是图 5 的一部分的更详细的流程图, 表示用于计算一组节点的中心度值的解 释性的处理。 0031 图 9 是用于量化生物扰动的影响的示例性分布计算机化系统的框图。 0032 图 10 是可用于实现在这里描述的任意计算机化系统中的任意部件的示例性计算 装置的框图。 0033 图 11 是因果网络模型的简化示图。 0034 图 12 是因果网络的简化示图。 0035 图 13 和图 14 是。

28、网络中的中心度值的投影的谱分量的简化示图。 0036 图 15 是用于细胞增殖的关注肺部的因果网络的例子的示图。 0037 图 16 是节点细胞增殖的中心度值的实验结果的示图。 具体实施方式 0038 一般赋予在本申请的范围内使用的技术术语和表达在相关领域中通常向它们施 加的意思。词语 “包括” 不排除其它的元素或步骤, 不定冠词 “一种” 或 “一个” 不排除多个。 特别关于属性或值的术语 “基本上” 、“大约” 和 “大致” 等也分别确切地限定属性或确切地 说 明 书 CN 103843000 A 7 5/28 页 8 限定值。这里描述定量评价在通过媒介扰动时的生物系统内的变化的大小的计算。

29、系统、 计 算机化的方法和产品。 某些实现包含用于计算表达生物系统的一部分内的变化的大小的数 值的方法。 计算使用从其中通过媒介扰动生物系统的一组控制实验获得的一组数据作为输 入。数据然后被施加到生物系统的特征的网络模型。网络模型被用作模拟和分析的基础, 并代表实现生物系统中的关注的特征的生物机制和路径。 其机制和路径的特征或一些可有 助于生物系统的疾病和不利影响的病理学研究。 使用在数据库中代表的生物系统的现有知 识, 以建构包含在包括正常条件和媒介扰动的各种条件下关于大量的生物实体的状态的数 据的网络模型。使用的网络模型是动态的, 原因是它代表各种生物实体的状态响应扰动的 变化, 并且可生。

30、成媒介对生物系统的影响的定量和客观评价。也提供用于操作这些计算机 化方法的计算机系统和产品。 0039 由本公开的计算机化方法生成的数值可用于确定由制造的产品 (用于安全评价或 比较) 、 包含营养供给的治疗化合物 (用于确定效力或健康益处) 和环境活性物质 (用于预测 长期暴露的风险和与不利影响和发病的关系) 等中的一个或更多个导致的希望的或不利的 生物效果的大小。 0040 在一个方面中, 这里描述的系统和方法基于扰动的生物机制的网络模型提供代表 扰动的生物系统的变化的大小的计算数值。这里称为网络扰动振幅 (NPA) 分数的数值可被 用于概略地代表限定的生物机制中的各种实体的状态变化。 针。

31、对不同媒介或不同类型的扰 动获得的数值可被用于相对比较不同的媒介或扰动对本身实现或显示为生物系统的特征 的生物机制的影响。因此, NPA 分数可被用于测量生物机制对不同的扰动的响应。这里一 般使用术语 “分数” 以表示提供生物系统中的变化的大小的定量测量的值或一组值。通过 使用从样本或被检体获得的一个或更多个数据集, 通过在本领域中任何已知的各种数学和 计算算法并根据这里公开的方法计算这种分数。 0041 NPA 分数可帮助研究人员和临床医生改善诊断、 实验设计、 治疗决定和风险评价。 例如, NPA 分数可用于在毒理分析中筛查一组候选生物机制, 以识别最可能被暴露给潜在有 害媒介所影响的那些。

32、。通过提供响应于扰动的网络测量, 这些 NPA 分数可允许将分子事件 (通过实验数据测量) 与在细胞、 组织、 器官或有机体水平上出现的显型或生物结果相关联。 临床医生可使用 NPA 值以比较受媒介影响的生物机制与患者的生理状况, 以确定当暴露于 媒介时患者最可能经历什么健康风险或益处 (例如, 免疫受损的患者可能特别易受到导致 强烈的免疫抑制响应的媒介的伤害) 。 0042 图 1 是用于量化网络模型对扰动的响应的计算机化系统 100 的框图。特别地, 系 统 100 包含系统响应轮廓引擎 110、 网络建模引擎 112 和网络评分引擎 114。引擎 110、 112 和114时而被互连, 。

33、并进一步时而与包含扰动数据库102、 可测量数据库104、 实验数据数据 库 106 和文献数据库 108 的一个或更多个数据库连接。如这里使用的那样, 引擎包含配有 硬件、 固件和软件以实施一个或更多个计算操作的处理装置, 诸如计算机、 微处理器、 逻辑 器件或参照图 10 描述的其它器件。 0043 图 2 是根据一个实现的用于通过计算网络扰动振幅 (NPA) 分数量化生物网络对扰 动的响应的处理 200 的流程图。处理 200 的步骤被描述为由图 1 的系统 100 的各种部件实 施, 但可通过局域或远程的任何适当的硬件或软件部件执行或者可按任何适当的次序安排 或并行执行这些步骤中的任意。

34、步骤。在步骤 210 中, 系统响应轮廓 (SRP) 引擎 110 从各种 说 明 书 CN 103843000 A 8 6/28 页 9 不同的来源接收生物数据, 并且数据自身可以是各种不同的类型。数据包含来自其中生物 系统被扰动的实验的数据以及控制数据。在步骤 212 中, SRP 引擎 110 生成代表响应于向 生物系统呈现媒介的、 生物系统内的一个或更多个实体改变的程度的系统响应轮廓 (SRP) 。 在步骤214中, 网络建模引擎112提供包含多个网络模型的一个或更多个数据库, 其中的一 个被选择为与关注的媒介或特征相关。 可基于以系统的生物功能为基础的机制的现有知识 进行选择。在某些。

35、实现中, 网络建模引擎 112 可通过使用系统响应轮廓、 数据库中的网络和 前面在文献中描述的网络来提取系统内的实体之间的因果关系, 由此生成、 提炼或扩展网 络模型。在步骤 216 中, 网络评分引擎 114 通过使用网络建模引擎 112 在步骤 214 中识别 的网络和 SRP 引擎 110 在步骤 212 中生成的 SRP 生成各扰动的 NPA 分数。在生物实体之间 的基础关系 (由网络代表) 的背景中, NPA 分数对扰动或处理的生物响应 (由 SRP 代表) 进行 了量化。 0044 本公开的背景中的生物系统包含有机体或有机体的一部分, 包含功能部分, 有机 体在这里被称为被检体。被。

36、检体一般是哺乳动物, 包括人。被检体可以是人口中的单个的 人。这里使用的术语 “哺乳动物” 包含但不限于人、 非人类的灵长目动物、 老鼠、 黑鼠、 狗、 猫、 母牛、 绵羊、 马和猪。人以外的哺乳动物可有利地用作可用于提供人类疾病的模型的被 检体。 非人类的被检体可以是未改性的或一般改性的动物 (例如, 转基因动物或承载一个或 更多个基因变异或沉默基因的动物) 。被检体可以是雄性或雌性。根据操作的目标, 被检体 可以是已暴露于关注的媒介的。 被检体可以是在长时间段上暴露于媒介的, 可选的, 包括研 究之前的时间段。被检体可以是已经暴露于媒介一段时间, 但在不再与媒介接触的。被检 体可以是已被诊。

37、断或识别为具有疾病。 被检体可以是已经历或正在经历疾病或不利的健康 状况的治疗的。 被检体也可以是表现特定的健康状况或疾病的一种或更种症状或风险因素 的。被检体可以是易患疾病的, 并且可以是有症状和没有症状的。在某些实现中, 讨论中的 疾病或健康状况与长时间段地暴露于媒介或媒介使用相关。根据一些实现, 系统 100(图 1) 包含或生成与关注的扰动或结果的类型相关的一个或更多个生物系统及其功能的机制 的计算机化模型 (统称为 “生物网络” 或 “网络模型” ) 。 0045 根据操作背景, 生物系统可限定于不同的水平, 原因是它涉及群体中的单个有机 体、 一般的有机体、 器官、 组织、 细胞类。

38、型、 细胞器、 细胞成分或特定的个体的细胞的功能。 各 生物系统包含一个或更多个生物机制或路径, 其操作显现为系统的功能特征。再现人健康 状况的限定的特征并适于暴露于关注的媒介的动物系统是优选的生物系统。 反映细胞类型 和包含于疾病病因或病理中的组织的、 细胞和器官系统也是优选的生物系统。可给予尽可 能多地概括了体内人体生物学的原生细胞或器官培养以优先权。将体外人细胞培养与从 体内动物模型导出的最等同的培养进行匹配也是十分重要的。这使得能够通过使用体外 的匹配系统作为基准系统来生成从动物模型到体内人体生物学的翻译连续体。因此, 设想 的与在这里描述的系统和方法一起使用的生物系统可由 (但不限于。

39、) 功能特征 (例如, 生物 功能、 生理功能或细胞功能) 、 细胞器、 细胞类型、 组织类型、 器官、 发育阶段或以上的组合限 定。生物系统的例子包含但不限于肺、 外皮、 骨骼、 肌肉、 神经 (例如, 中枢或周围) 、 内分泌、 心血管、 免疫、 循环系统、 呼吸系统、 泌尿、 肾脏、 肠胃、 结肠直肠、 肝和生殖系统。 生物系统的 其它例子包含但不限于上皮细胞、 神经细胞、 血液细胞、 连接组织细胞、 平滑肌细胞、 骨骼肌 细胞、 脂肪细胞、 卵细胞、 精细胞、 干细胞、 肺细胞、 脑细胞、 心脏细胞、 喉细胞、 咽细胞、 食管 说 明 书 CN 103843000 A 9 7/28 页。

40、 10 细胞、 胃细胞、 肾细胞、 肝脏细胞、 乳房细胞、 前列腺细胞、 胰腺细胞、 胰岛细胞、 睾丸细胞、 膀 胱细胞、 子宫颈细胞、 子宫细胞、 结肠细胞和直肠细胞中的各种细胞功能。细胞中的一些可 以是在适当的培养条件下无限期地体外培养或者体外保持的细胞系的细胞。 细胞功能的例 子包含但不限于细胞增殖 (例如, 细胞分裂) 、 退化、 再生、 衰老、 由细胞核进行的细胞活动的 控制、 细胞对细胞信号传输、 细胞变异、 细胞去变异、 分泌、 迁移、 吞噬、 修复、 细胞凋亡和发 育编程。可视为生物系统的细胞成分的例子包含但不限于细胞质、 细胞骨架、 细胞膜、 核糖 体、 线粒体、 细胞核、 。

41、内质网 (ER) 、 Golgi 体、 溶酶体、 DNA、 RNA、 蛋白质、 肽和抗体。 0046 生物系统中的扰动可由一种或更多种媒介在一段时间上通过暴露于或接触生物 系统的一个或更多个部分而导致。 媒介可以是单一物质或混合物或多种 (例如, 一种或更多 种) 物质, 包括不是所有的成分都被识别或表征的混合物。媒介或其成分的化学和物理性 能可能不被完全表征。媒介可由其结构、 其成分或在某些条件下生成媒介的来源限定。媒 介的例子是异质物质 (即, 不存在于生物系统内或者不从生物系统导出的分子或实体) , 以 及在与生物系统接触之后从中生成的任何中间体或代谢物。媒介可以是碳水化合物、 蛋白 质。

42、、 脂质、 核酸、 生物碱、 维生素、 金属、 重金属、 矿物质、 氧、 离子、 酶、 荷尔蒙、 神经传递素、 无 机化学化合物、 有机化学化合物、 环境媒介、 微生物、 粒子、 环境条件、 环境力或物理力中的 一种或更多种。 媒介的非限制性例子包含但不限于营养物、 新陈代谢废物、 毒物、 麻醉毒品、 毒素、 治疗化合物、 刺激物、 弛缓物、 天然产品、 制造产品、 食品物质、 病菌 (感染性蛋白质、 病 毒、 细菌、 真菌、 原生动物) 、 尺寸处于或低于微米范围的粒子或实体、 以上的副产品或以上 的混合物。物理媒介的非限制性例子包含放射线、 电磁波 (包含太阳光) 、 温度上升或降低、 剪。

43、应力、 流体压力、 放电或它们的序列或创伤。 0047 至少一些媒介或所有媒介, 除非以阈值浓度存在或者与生物系统接触一段时间或 者两者的组合, 否则不会扰动生物系统。 导致扰动的媒介的暴露或接触可在剂量上被量化。 因此, 扰动可源自长期暴露给媒介。暴露时间段可由单位时间、 暴露频率或被检体的实际 或估计寿命跨度内的时间百分比来表达。例如, 扰动也可由从生物系统的一个或更多个部 分扣减媒介 (如上所述) 或者限制向其供给媒介导致。例如, 扰动可由减少供给或缺少一种 或更多种营养物、 水、 碳水化合物、 蛋白质、 脂质、 生物碱、 维生素、 矿物质、 氧、 离子、 酶、 荷尔 蒙、 神经传递素、。

44、 抗体、 细胞活素、 光导致, 或者由限制有机体的某部分的移动或者由约束或 要求锻炼导致。可以考虑它们的组合。 0048 至少一些媒介或所有的媒介可根据生物系统的哪个 (哪些) 部分被暴露以及暴露 条件导致不同的扰动。媒介的非限制性例子可包含通过加热烟草生成的悬浮微粒、 通过 燃烧烟草生成的悬浮微粒、 烟草烟、 雪茄烟和任意的它们的气体成分或微粒成分。媒介的 其它非限制性例子包含镉、 汞、 铬、 尼古丁、 烟草特有亚硝胺和它们的代谢物 (4-( 甲基亚硝 胺 )-1-(3- 吡啶 )-1- 丁酮 (NNK) 、 N - 亚硝基降烟碱 (NNN) 、 N- 亚硝基新烟碱 (NAT) 、 N- 亚。

45、 硝基新烟草碱 (NAB) 、 4-(甲基亚硝胺)-1-(3-吡啶)-1-丁醇 (NNAL) ) 和用于尼古丁替代疗 法的任何产品。媒介或复合刺激物的暴露方案应反映每天设置中的暴露的范围和环境。一 组标准暴露方案可被设计为被系统性地应用于等同地很好地限定的实验系统。 各化验可被 设计为收集依赖于时间和剂量的数据以捕获早期和晚期事件并确保覆盖代表性的剂量范 围。 但是, 本领域技术人员可以理解, 在这里描述的系统和方法可被调整和修改以适于针对 的应用, 并且, 可在其它适当的应用中使用在这里设计的系统和方法, 并且, 这种其它的添 说 明 书 CN 103843000 A 10 8/28 页 1。

46、1 加和修改不背离其范围。 0049 在各种实现中, 在包含各种控制的各种条件下生成针对基因表达、 蛋白质表达或 转换、 microRNA 表达或转换、 翻译后修改、 蛋白质修改、 迁移、 抗体生成代谢物轮廓或以上的 两种或更多种的组合的、 高产量系统范围的测量。功能性结果测量是在这里描述的方法所 希望的, 原因是它们一般可用作评价的基准并表示病因中的清楚的步骤。 0050 这里使用的 “样本” 指的是与被检体或实验系统 (例如, 细胞、 组织、 器官或整个动 物) 隔离的任何生物样本。样本可包含但不限于单个细胞或多个细胞、 部分细胞、 组织切片、 切割组织、 组织提取、 组织、 组织培养提取。

47、、 组织培养介质、 呼出气体、 全血液、 血小板、 血清、 血浆、 红细胞、 白细胞、 淋巴细胞、 嗜中性粒细胞、 巨噬细胞、 B 细胞或它们的子集、 T 细胞或 它们的子集、 造血细胞的子集、 内皮细胞、 滑液、 淋巴液、 腹水、 细胞间液、 骨髓、 脑脊髓液、 胸 腔积液、 肿瘤浸润液、 唾液、 黏液、 痰、 精液、 汗、 尿或任何其它体液。可通过包含但不限于静 脉穿刺、 排泄、 活组织检查、 针吸气、 灌洗、 刮擦、 手术切除的手段或在本领域中已知的其它 手段从被检体获得样品。 0051 在操作中, 对给定的生物机制、 结果、 扰动或以上的组合, 系统 100 可生成网络扰 动振幅 (N。

48、PA) 值, 该网络扰动振幅值是网络中的生物实体的状态响应处理条件的变化的定 量测量。 0052 系统 100(图 1) 包含与关注的健康状况、 疾病或生物结果相关的一个或更多个计 算机化的网络模型。这些网络模型中的一个或更多个基于现有生物知识, 并且可从外部来 源上载并在系统 100 内被管理。也可基于测量在系统 100 内重新生成模型。可测量的元素 通过使用现有知识有因果关系地被集成到生物网络模型中。 以下描述的是代表可用于生成 或精炼网络模型的关注的生物系统的变化或代表对扰动的响应的数据的类型。 0053 参照图 2, 在步骤 210 中, 系统响应轮廓 (SRP) 引擎 110 接收生。

49、物数据。SRP 引擎 110 可从各种不同的来源接收该数据, 并且数据自身可具有各种不同的类型。可从文献、 数 据库 (包含来自药物产品或医疗装置的临床前、 临床和临床后测试的数据) 、 基因组数据库 (基因序列和表达数据, 例如, National Center for Biotechnology Information 的 Gene Expression Omnibus或European Bioinformatics Institute的ArrayExpress (Parkinson 等 .2010,Nucl.Acids Res.,doi:10.1093/nar/gkq1040.Pubmed ID21071405) ) 、 商业可用 数据库 (例如, Gene Logic,Gaithersbug,MD,USA) 或实验工作提取SRP引擎110使用的生物 数据。数据可包含来自诸如利用一种或更多种物种的体外、 先体外后体内或体内实验等一 个或更多个不同来源的原始数据, 这些物种是为研究特定的处理条件或暴露给特定媒介的 影响专门设计的。体外实验系统可包含代表人疾病的关。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1