《动态离群值偏倚减少系统和方法.pdf》由会员分享,可在线阅读,更多相关《动态离群值偏倚减少系统和方法.pdf(29页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104090861A43申请公布日20141008CN104090861A21申请号201410058245X22申请日2014022013/772,21220130220USG06F17/1820060171申请人哈佛蒸汽锅炉检验和保险公司地址美国康涅狄格72发明人RB琼斯74专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人边海梅54发明名称动态离群值偏倚减少系统和方法57摘要本申请涉及动态离群值偏倚减少系统和方法。这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏。
2、倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时,去除离群数据记录。对于优化方法或其他迭代计算,去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值,计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差,直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。30优先权数据51INTCL权利要求书2页说明书19页附图7页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书19页附图7页10申请公布号CN104090861ACN104090861A1/。
3、2页21一种用于减少为设施测量的目标变量中的离群值偏倚的系统,包括计算单元,用于处理数据集合,该计算单元包括处理器和存储子系统;输入单元,用于输入要处理的数据集合,该输入单元包括用于为所述设施测量目标变量并用于提供相应的数据集合的测量设备;输出单元,用于输出经处理的数据集合;由所述存储子系统存储的计算机程序,包括在被执行时使得所述处理器执行以下步骤的指令为所述设施选择目标变量;选择所述目标变量的实际值的集合;为所述设施识别与所述目标变量有关的多个变量;为所述设施获得数据集合,该数据集合包括所述多个变量的值;选择偏倚标准;选择模型系数的集合;(1)为所述数据集合生成预测值的集合;(2)为所述数据。
4、集合生成误差集合;(3)基于所述误差集合和所述偏倚标准生成误差阈值的集合;(4)基于所述误差集合和所述误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用所述新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。2如权利要求1所述的系统,其中,所述测量设备包括一个或多个传感器。3如权利要求2所述的系统,其中,所述传感器为所述设施检测并量化化合物。4一种用于减少为金融工具测量的目标变量中的离群值偏倚的系统,包括计算单元,用于处理数据集合,该计算单元包括处理器和存储子系统;输出单元,用于输出经处理的数据集合;由所述存储子系统存储的计算机程序,包括在被执行时使。
5、得所述处理器执行以下步骤的指令为所述金融工具选择目标变量;选择所述目标变量的实际值的集合;为所述金融工具识别与所述目标变量有关的多个变量;为所述金融工具获得数据集合,该数据集合包括所述多个变量的值;选择偏倚标准;选择模型系数的集合;(1)为所述数据集合生成预测值的集合;(2)为所述数据集合生成误差集合;(3)基于所述误差集合和所述偏倚标准生成误差阈值的集合;(4)基于所述误差集合和所述误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用所述新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。5如权利要求4所述的系统,其中,所述金融工具是普通股,并且所述。
6、目标变量是所述权利要求书CN104090861A2/2页3普通股的价格。6如权利要求5所述的系统,其中,所述金融工具的与所述目标变量有关的多个变量包括以下各项中的至少一个股息、收益、现金流、每股收益、本益比、增长率。权利要求书CN104090861A1/19页4动态离群值偏倚减少系统和方法0001相关申请的交叉引用0002此部分继续专利申请要求2011年8月19日递交的标题为“DYNAMICOUTLIERBIASREDUCTIONSYSTEMANDMETHOD”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。技术领域0003本发明涉及对数据的。
7、分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。背景技术0004在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、。
8、一氧化碳(CO)、氧化氮(NOX)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来去除性能离群值(OUTLIER)。本系统和方法是一种数据驱动的方案,该方案把此任务作为模型开发的一个组成部分来执行,而不是在分析前或模型开发前阶段执行。0005偏倚(BIAS)的去除可以是一个主观过程,其中以某种形式记录认为恰当的理由以证实数据变化。然而,任何形式。
9、的离群值去除都是一种带着改变计算结果的潜在可能性的数据审查。这种数据过滤可能减少或不减少计算中的偏倚或误差,并且本着完全分析公开的精神,严格的数据去除指导方针和去除离群值的证明材料需要与分析结果包括在一起。因此,在现有技术中需要提供一种新的系统和方法,用于利用一种对于数据质量操作、数据验证、统计计算或数学模型开发等等有用的动态统计过程来客观地去除离群数据偏倚。离群值偏倚去除系统和方法还可用于将数据分组成代表性类别,其中数据被应用到为每个群组定制的数学模型开发。在优选实施例中,系数被定义为数学模型中的乘法和加法因子以及在性质上非线性的其他数值参数。例如,在数学模型FX,Y,ZAXBYCDSINE。
10、ZF中,A、B、C、D、E和F全都被定义为系数。这些项的值可以固定或者是数学模型的开发的一部分。发明内容说明书CN104090861A2/19页50006优选实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤选择偏倚标准;提供数据集合;提供模型系数的集合;选择目标值的集合;(1)为完整数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)由处理器基于误差集合和误差阈值的集合生成经审查的数据集合;(5)由处理器生成新模型系数的集合;(6)使用新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。在优选实施例中,可。
11、基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差(STANDARDERROR)和确定系数(COEFCIENTOFDETERMINATION)。0007另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤选择误差标准;选。
12、择数据集合;选择实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;(1)对于完整数据集,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于经过滤的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(5)基于经过滤的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(6)基于模型预测值和实际值的集。
13、合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)(6),除非满足性能终止标准;并且将模型预测值的集合存储在计算机数据介质中。0008另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤为设施选择目标变量;选择目标变量的实际值的集合;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)基于完整数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基。
14、于误差集合和偏倚标准生成误差阈值的集合;(5)由处理器基于数据集合和误差阈值的集合生成经审查的数据集合;(6)由处理器基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)由处理器基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在计算机数据介质中。0009另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤为设施选择目标变量,其中目标变量是关于工业设施的度量,与其生产、金融性能或排放有关;为设施识别多个变。
15、量,其中多个变量包括设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括绝对误差,以及相对误差;为设施获得数据集合,其中数据集说明书CN104090861A3/19页6合包括多个变量的值;选择目标变量的实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的完整集合,其中相对误差是利用如下公式计算的相对误差M预测值M实际值M/实际值M2,其中“M”是参考编号,并且其中绝对误差是利用如下公式计算的绝对误差M预测值M实际值M2;基。
16、于模型预测值的集合和实际值的集合生成模型性能值的集合,其中整体模型性能值的集合包括第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的误差值的数据生成离群值被去除的数据集合,其中过滤是基于完整数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和模型系数的集合生成离群值偏倚减少模型预测值的集合,其中新模型预测值的生成是由计算机处理器执行。
17、的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成整体模型性能值的集合,其中模型性能值的集合包括第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)(6),除非满足了性能终止标准,其中性能终止标准包括标准误差终止值和确定系数终止值,并且其中满足性能终止标准包括标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。0010另一实施例包括一种用于减少离。
18、群值偏倚的由计算机实现的方法,包括以下步骤选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和先前模型预测值生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于新模型预测值的集合和实际值的集合确定误差的集合;在用新模型预测值的集合替代来自先前迭代的模型预测值的集合的同时,重复步骤(1)(4),除非满足了性能终止标准。
19、;以及将离群值偏倚减少模型预测值的集合存储在计算机数据介质中。0011另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤为设施选择目标变量;为设施识别多个变量,其中多个变量包括设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括绝对误差,以及相对误差;获得数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择模型系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括第一标准误差。
20、,以及第一确定系数;(1)对于完整数据集合,基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的相对误差M预测值M实际值M/实际值M2,其中“M”是参考编号,并且其中绝对误差是利用如下公式计算的绝对误差M预测值说明书CN104090861A4/19页7M实际值M2;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的集合的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化。
21、模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中模型预测值的生成是由计算机处理器执行的;(6)基于离群值偏倚减少模型预测值的集合和实际值的集合生成经更新的性能值的集合,其中经更新的性能值的集合包括第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)(6),除非满足了性能终止标准,其中性能终止标准包括标准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间。
22、的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。0012另一实施例包括一种用于评估数据集合用于开发模型的可行性的由计算机实现的方法,包括以下步骤提供包括多个数据值的目标数据集合;基于目标数据集合生成随机目标数据集合;选择偏倚标准值的集合;由处理器基于数据集合和每个所选择的偏倚标准值生成离群值偏倚减少目标数据集合;由处理器基于随机数据集合和每个所选偏倚标准值生成离群值偏倚减少随机数据集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算误差值的集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算相关系数的集合;基于所选偏倚标准值和相应的误差值和相关系数为数据集。
23、合和随机数据集合生成偏倚标准曲线;以及将数据集合的偏倚标准曲线与随机数据集合的偏倚标准曲线相比较。离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合是利用动态离群值偏倚去除方法生成的。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集合,并且其中相关系数的集合包括确定系数值的集合。另一实施例还可包括以下步骤基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成关于目标数据集合支持所开发的模型以及所开发的模型支持目标数据集合的可行性的自动化建议。可基于分析者选择的参数例如相关系数阈值和/或误差阈值来生成建议。另。
24、外一个实施例还包括以下步骤提供实际数据集合,其包括与模型预测值相对应的多个实际数据值;基于实际数据集合生成随机实际数据集合;由处理器基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;由处理器基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。0013优选实施例包括一种系统,其包括服务器,其。
25、包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令选择偏倚标准;提供模型系数的集合;选择目标值的集合;(1)为数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基说明书CN104090861A5/19页8于误差集合和偏倚标准生成误差阈值的集合;(4)基于误差集合和误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,。
26、误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差和确定系数。0014本发明的另一实施例包括一种系统,其包括服务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令选择误差标准;选择实际值的集合;选择。
27、系数的初始集合;从数据集合和系数的初始集合生成模型预测值的完整集合;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(6)基于离群值偏倚减少模型预测值和实际值的集合生成模型性能值的集合。
28、;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)(6),除非满足性能终止标准;并且将整体离群值偏倚减少模型预测值的集合存储在计算机数据介质中。0015另一实施例包括一种系统,其包括服务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括设施的目标变量;目标变量的实际值的集合;设施的与目标变量有关的多个变量;设施的数据集合,该数据集合包括多个变量的值;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令选择偏倚标准;选择模型系数的集合;(1)基于数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性。
29、能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)基于数据集合和误差阈值的集合生成经审查的数据集合;(6)基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在存储子系统中。0016另一实施例包括一种系统,其包括服务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括设施的数据集合。
30、;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令确定目标变量;识别多个变量,其中多个变量包括设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接变量的函数;选择误差标准,包括绝对说明书CN104090861A6/19页9误差,以及相对误差;选择目标变量的实际值的集合;选择系数的初始集合;基于数据集合和系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的相对误差M预测值M实际值M/实际值M2,其中“M”是参考编号,并且其中绝对误差是利用如下公式计算。
31、的绝对误差M预测值M实际值M2;基于模型预测值的集合和实际值的集合确定性能值的集合;其中性能值的集合包括第一标准误差,以及第一确定系数;(1)基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过过滤掉具有误差阈值的集合以外的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化模型预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成新模型预测值的集合,其中离群值偏倚减少模型预测值的生成是由计算机处理器。
32、执行的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成性能值的集合,其中模型性能值的集合包括第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)(6),除非满足了性能终止标准,其中性能终止标准包括标准误差,以及确定系数,并且其中满足性能终止标准包括标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。0017本发明的另一实施例包括一种系统,其包括服。
33、务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和模型预测值的完整集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于离群值偏倚减少模型预测值的集合和实际值的。
34、相应集合确定误差的集合;在用离群值偏倚减少模型预测值的集合替代模型预测值的集合的同时,重复步骤(1)(4),除非满足了性能终止标准;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。0018本发明的另一实施例包括一种系统,其包括服务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令确定目标变量;为设施识别多个变量,其中多个变量包括设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个主设施变量的函数;选择误差标准,包括绝对误差,以及相对误差;获得。
35、数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括第一标准误差,以及第一确定系数;(1)基于模型预测值的集合和实说明书CN104090861A7/19页10际值的集合确定误差的集合,其中相对误差是利用如下公式计算的相对误差K预测值K实际值K/实际值K2,其中“K”是参考编号,并且其中绝对误差是利用如下公式计算的绝对误差K预测值K实际值K2;(2)对于完整数据集合,基于误差的集合和误差标准确定误差阈值的集合;(3)通过去除具有。
36、大于或等于误差阈值的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型值的集合;(5)基于离群值偏倚减少模型预测值的集合和实际值的集合确定经更新的性能值的集合,其中经更新的性能值的集合包括第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)(5),除非满足了性能终止标准,其中性能终止标准包括标。
37、准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。0019另一实施例包括一种用于评估数据集合用于开发模型的可行性的系统,其包括服务器,其包括处理器,以及存储子系统;由存储子系统存储的数据库,其包括目标数据集合,其包括多个模型预测值;由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令生成随机目标数据集合;选择偏倚标准值的集合;基于目标数据集合和每个所选择的偏倚标准值生成离群值偏倚减少数据集合;基于随机目标数据。
38、集合和每个所选偏倚标准值生成离群值偏倚减少随机目标数据集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算误差值的集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算相关系数的集合;对于每个所选偏倚标准,基于相应的误差值和相关系数,对于目标数据集合和随机目标数据集合生成偏倚标准曲线;以及将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较。处理器利用动态离群值偏倚去除方法来生成离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集。
39、合,并且相关系数的集合包括确定系数值的集合。在另一实施例中,该程序还包括在被执行时使得处理器进行以下操作的指令基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成自动化建议。可基于分析者选择的参数例如相关系数阈值和/或误差阈值来生成建议。在另外一个实施例中,系统的数据库还包括实际数据集合,其包括与模型预测值相对应的多个实际数据值,并且程序还包括当被执行时使得处理器进行以下操作的指令基于实际数据集合生成随机实际数据集合;基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选。
40、偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。0020其他实施例包括一种用于减少为设施测量的目标变量中的离群值偏倚的系统,包说明书CN104090861A108/19页11括计算单元,用于处理数据集合,该计算单元包括处理器和存储子系统;输入单元,用于输入要处理的数据集合,该输入单元包括用于测量给定的目标变量并用于提供相应的数据集合的测量设备;输出单元,用于输出经处理的数据集合;由存储子。
41、系统存储的计算机程序,包括在被执行时使得处理器执行以下步骤的指令为设施选择目标变量;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)为数据集合生成预测值的集合;(2)为数据集合生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)基于误差集合和误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。0021此外,其他实施例包括一种用于减少为金融工具测量的目标变量中的离群值偏倚的系统,其中金融工具例如是股票(例如普通股。
42、)或衍生工具合约(例如远期合约、期货、期权和互惠信贷等等),该系统包括计算单元,用于处理数据集合,该计算单元包括处理器和存储子系统;输入单元,用于接收要处理的数据集合,该输入单元包括用于存储关于目标变量(例如股票价格)的数据并用于提供相应的数据集合的存储设备;输出单元,用于输出经处理的数据集合;由存储子系统存储的计算机程序,包括在被执行时使得处理器执行以下步骤的指令为金融工具选择目标变量;为该工具识别与目标变量有关的多个变量(例如,股息、收益、现金流等等);为金融工具获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)为数据集合生成预测值的集合;(2)为数据集合生。
43、成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)基于误差集合和误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用新模型系数的集合,重复步骤(1)(5),除非满足了审查性能终止标准。附图说明0022图1是示出数据离群值识别和去除方法的实施例的流程图。0023图2是示出用于数据质量操作的数据离群值识别和去除方法的实施例的流程图。0024图3是示出用于数据验证的数据离群值识别和去除方法的实施例的流程图。0025图4是用于实现本发明的方法的说明性节点。0026图5是数据集合的定量评估的说明性图线。0027图6A和6B是图5的数据集合的定性评估的说明性图线,。
44、分别示出了整个数据集合的随机化和真实数据集合。0028图7A和7B是图5的数据集合的定性评估的说明性图线,分别示出了在将30的数据作为离群值去除之后的随机化和真实数据集合。0029图8A和8B是图5的数据集合的定性评估的说明性图线,分别示出了在将50的数据作为离群值去除之后的随机化和真实数据集合。0030图9示出了用于减少为设施测量的目标变量中的离群值偏倚的示范性系统。具体实施方式0031以下公开提供了许多不同实施例,或者示例,用于实现用于访问和管理结构化内容的系统和方法的不同特征。描述了组件、过程和实现方式的具体示例来帮助阐明本发明。说明书CN104090861A119/19页12这些只是示。
45、例,而并不打算偏离权利要求中所述地限制本发明。公知的元素在没有详细描述的情况下给出,以免以不必要的细节模糊本发明的优选实施例。大多数情况下,省略了获得对本发明的优选实施例的完整理解所不必要的细节,因为这样的细节在相关领域的普通技术人员的技能范围内。0032动态离群值偏倚减少的一个实施例的数学描述如下所示0033术语0034所有数据记录的集合其中0035第K次迭代的接受数据记录的集合0036第K次迭代的离群(去除)数据记录的集合0037对于计算出的模型预测值的集合0038对于数据记录的离群模型预测值的集合0039模型所基于的实际值(目标值)的集合0040作为使用的模型计算的结果计算出的第K1次迭。
46、代时的模型系数的集合0041从存储模型得出的和用户提供的系数产生的模型计算0042C用户提供的误差标准()0043误差阈值函数0044F,C误差阈值(E)0045迭代终止标准,例如迭代计数、R2、标准误差等等0046初始计算,K00047初始步骤1利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值00480049初始步骤2计算初始模型性能结果0050标准误差,等等0051初始步骤3计算(一个或多个)模型误差阈值00520053初始步骤4过滤数据记录以去除离群值00540055迭代计算,K00056迭代步骤1通过将模型应用到接受数据集合来计算预测值说明书CN104090861A。
47、1210/19页1300570058迭代步骤2计算模型性能结果0059标准误差,等等0060如果达到终止标准,则停止,否则去到步骤30061迭代步骤3利用当前模型为去除的数据计算结果00620063迭代步骤4计算模型误差阈值00640065迭代步骤5过滤数据记录以去除离群值00660067动态离群值偏倚减少的一个实施例的另一数学描述如下所示0068术语0069所有数据记录的集合其中0070第K次迭代的接受数据记录的集合0071第K次迭代的离群(去除)数据记录的集合0072对于计算出的模型预测值的集合0073对于的离群模型预测值的集合0074模型所基于的实际值(目标值)的集合0075作为使用的模。
48、型计算的结果计算出的第K1次迭代时的模型系数的集合0076从存储模型得出的和用户提供的系数的0077产生的模型计算0078CRE用户提供的相对误差标准()0079CAE用户提供的绝对误差标准()0080所有数据记录的相对误差值0081所有数据记录的绝对误差值0082第K次迭代的相对误差阈值,其中0083百分位0084第K次迭代的绝对误差阈值,其中说明书CN104090861A1311/19页140085百分位0086迭代终止标准,例如迭代计数、R2、标准误差等等0087初始计算,K00088初始步骤1利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值00890090初始步骤2。
49、计算初始模型性能结果0091标准误差,等等0092初始步骤3计算模型误差阈值0093百分位0094百分位0095初始步骤4过滤数据记录以去除离群值00960097迭代计算,K00098迭代步骤1通过将模型应用到离群值被去除的数据集合来计算模型预测值00990100迭代步骤2计算模型性能结果0101标准误差,等等0102如果达到终止标准,则停止,否则去到步骤30103迭代步骤3利用当前模型为去除的数据计算结果01040105迭代步骤4计算模型误差阈值0106百分位0107百分位0108迭代步骤5过滤数据记录以去除离群值01090110递增K并去到迭代步骤1。0111在从当前审查的数据集计算新模型系数的每次迭代之后,从先前迭代去除的数据说明书CN104090861A1412/19页15加上当前审查的数据被重组合。此组合涵盖了完整数据集中的所有数据值。随后将当前模型系数应用到完整数据集以计算预测值的完整集合。对于预测值的完整集合计算绝对和相对误差,并且计算新的偏倚标准百分位阈值。通过去除绝对或相对误差大于阈值的所有数据值来创建新的审查数据集,然后向新审查的数据集应用非线性优化模型来计算新的模型系数。此过程使得所有数据值在每一次迭代中都能够被审查以查明其是否可能包括在模型数据集中。随着模型系数收敛在最佳拟合数据的值上,在先前迭代中排除的一些数据值有可能将被包括入后续迭代。