用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf

上传人:奻奴 文档编号:6363907 上传时间:2019-06-04 格式:PDF 页数:13 大小:808.46KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510341140.X

申请日:

2015.06.18

公开号:

CN104978407A

公开日:

2015.10.14

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150618|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

上海交通大学

发明人:

马颖华; 李建华; 胡琦伟

地址:

200240上海市闵行区东川路800号

优先权:

专利代理机构:

上海交达专利事务所31201

代理人:

王毓理; 王锡麟

PDF下载: PDF下载
内容摘要

一种用于高维数据特征属性变化趋势的可视化呈现系统及方法,包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。本发明将多特征趋势变化情况进行静态地呈现,所呈现的数据集的每一个维度即是一个特征,时间作为其中一个参照性的维度特征,每一个特征的属性随时间不同而不同。该可视化方法是一种交互式的可视化方法,可视化内容由时间区间和时间区间内的特征属性的分布决定。

权利要求书

权利要求书
1.  一种用于高维数据特征属性变化趋势的可视化呈现系统,其特征在于,包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。

2.  根据权利要求1所述的系统,其特征是,所述的数据准备模块包括:数据读取单元、数据整理单元和数据存储单元,其中:数据读取单元与数据整理单元相连,读取数据集中的数据并输出初始数据,数据整理单元与数据存储单元相连并传输整理好的数据,数据存储单元与特征初选模块相连并准备为其提供数据。

3.  根据权利要求1所述的系统,其特征是,所述的特征初选模块包括:数据提取单元、计算整理单元和特征存储单元,其中:数据提取单元接收并根据用户的请求从数据准备模块中的数据存储单元提取相应数据,将提取到的数据传输给计算整理单元处理,计算整理单元与特征存储单元相连并传输经过计算处理的特征信息,特征存储单元与可视化模块相连并准备为其提供特征信息;
所述的请求是指:明确指定在数据集中可视化的属性和时间区间,对给定时间区间之间属性取值的变化情况进行统计分析,根据统计结果对特征进行排序并进行初选选择。

4.  根据权利要求1所述的系统,其特征是,所述的可视化模块包括:特征映射子模块、特征描述子模块和绘制单元,其中:特征映射子模块接收来自特征初选模块的特征数据并向绘制单元传输映射后的坐标数据,特征描述子模块接收来自特征初选模块的特征数据并向绘制单元传输特征图标描述数据。

5.  根据权利要求4所述的系统,其特征是,所述的特征映射子模块包括:坐标计算单元和坐标存储单元,其中:坐标计算单元根据特征数据计算出显示的图形在平面上的位置坐标,并将坐标数据传输给坐标存储单元进行保存,坐标存储单元和绘制单元连接并传输给其坐标数据;
所述的特征描述子模块包括:图标生成单元和图标存储单元,其中:图标生成单元根据特征数据计算出特征呈现图标的各个图形特征,并将图形数据传输给图标存储单元进行保存,图标存储单元和绘制单元连接并传输给其图标数据。

6.  根据权利要求5所述的系统,其特征是,所述的特征呈现图标包括:头部、中部和尾部,其中:图标朝向右侧,即时间轴的正方向的一侧称为头部,图标朝向左侧,即时间轴反方向的一侧称为尾部,头部和尾部的中间则是中部。

7.  根据权利要求6所述的系统,其特征是,所述的特征呈现图标与X轴的夹角表示属性值在视野区间前和视野区间内数据总体的变化趋势;
所述的特征呈现图标的头部与水平的夹角表示属性值在观察区间中视野区间后的变化情况;
所述的特征呈现图标的尾部在水平线之上表明该属性值在视野区间之前的属性值变化趋势为下降趋势,该夹角约等于0的情况表明视野区间之前该属性值基本保持常数,尾部在水平线之下表明该属性值在视野区间之前小于视野区间的属性值,说明该属性值的变化趋势一直保持上升趋势;
所述的特征呈现图标的中部所呈现的是在视野区间内的属性值变化。

8.  一种根据上述任一权利要求所述系统的可视化呈现方法,其特征在于,包括以下步骤:
1)针对给定高维数据集中每一维度上的特征数值,根据每一个数据的生成或者采集的时间标记,计算所有的特征随时间变化的属性值;
2)用户指定两个时间区间,其中一个时间区间包含在另一个时间区间内,被包含的时间区间为视野区间,包含另一个时间区间的时间区间为观察区间,用户指定可视化的属性;
3)根据屏幕上定义的可视化区间的大小及其分辨率的大小以及图标的平均大小计算可在可视化区间内清晰呈现的特征数量N,以此为依据以及数据集合各项特征在观察区间的属性值对特征进行筛选;
4)以时间T为横坐标,频率f为纵坐标,视野区间的最小值对应可视化空间最左侧的位置,视野区间的最大值对应可视化空间最右侧的位置,区间内其他值在横轴上均匀分布;筛选出的数据集合A中,可视化特征属性的最小值Amin所代表的数据对应可视化空间的最下方,最大值Amax所代表的数据对应可视化空间的最上方,最大值和最小值之间的数据在纵轴分布;数据集合A中的每一个特征依据其在视野区间中的最大值及其最大值出现的时间来确定该特征的坐标;
5)计算属性值的数值特征,将图标的头部、尾部和中部的长、宽根据数值特征对图标各部分的大小做相应调整;
6)用户在观察区间内部调整视野区间,根据新的视野区间,重复步骤4‐5)。

9.  根据权利要求8所述的方法,其特征是,步骤5)中所述的相应调整是指:根据观察区间边缘时刻的趋势变化情况相应调整图标显示的角度。

10.  根据权利要求8所述的方法,其特征是,当调整视野范围时,用户可以重新选定观察区间,根据新的观察区间,重复步骤2‐5)。

说明书

说明书用于高维数据特征属性变化趋势的可视化呈现系统及方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种可用于新闻热点分析、文献分析、病毒分析等各类多维数据的趋势分析领域的高维数据特征属性变化趋势的可视化呈现系统及方法。这些领域的数据具有如下特点:可抽取的特征数量大,且各特征并不完全独立于其他特征,即特征间存在复杂的关联关系;特征的某些属性随时间不断变化,即某些属性与时间这一特征属性不断变化;并且随着时间的延长,数据集中会有新的特征出现,或者新的特征间关系出现。
背景技术
现有的对随时间变化数据进行可视化的方法都是针对单一维度或者有限数量的维度,显示特征数据的变化趋势,例如折线,或者用动画方式用多个画面来显示不同时刻的多个特征数据的大小,通过动画的变化来显示数据的变化。第一种方法可以全面地呈现较少数量特征的变化趋势,但随着特征数量的增多,数据呈现的可辨识度变差。第二种方法比第一种方法可呈现更多的特征,但由于某一时刻只能显示一个时刻的数据,用户无法获得多时刻的多特征数据变化趋势。一种相对静态和全面的呈现随时间变化数据的可视化方法在很多领域中都有需求。
经对现有技术的文献检索发现,中国专利文献号CN102693294A公开日2012.09.26,公开了一种长时间变化趋势曲线绘制方法,该技术提出一种显示长时间历史曲线的显示方法,但这个技术是对趋势曲线的绘制方法,没有针对趋势可视化提出新的方法。
中国专利文献号CN103733191A,公开日2014.04.16,公开了一种趋势图表的自动生成(方法),该技术提出根据用户指定的数据单元,根据该单元所关联的数据源中的元数据,自动识别时间结构,自动配置轴的设置并绘制趋势线,但这个技术所提及的趋势图是用趋势线来绘制的,不便应用于数据单元特别多的情况。
中国专利文献号CN103677795A公开日2014.03.26,公开了一种趋势图的动态创建,该技术提出如何通过压缩全部数据为可显示数据,从而在显示器中显示时间长度不等的趋势数据,但这个技术并未提出新的趋势显示方法。
发明内容
本发明针对现有技术存在的上述不足,提出一种用于高维数据特征属性变化趋势的可视化呈现系统及方法,能够在指定时间区间内,将多特征趋势变化情况进行静态地呈现,所呈现的数据集的每一个维度即是一个特征,时间作为其中一个参照性的维度特征,每一个特征的属 性随时间不同而不同。通过对所有特征随时间变化属性值的计算和分析,根据属性值的取值和给定的时间区间,对所有特征进行一定的筛选,将选出的特征在二维空间中给予可视化呈现。特征的筛选原则和呈现的时间区间由用户给定。该可视化方法是一种交互式的可视化方法,可视化内容由时间区间和时间区间内的特征属性的分布决定。
本发明是通过以下技术方案实现的:
本发明涉及一种用于高维数据特征属性变化趋势的可视化呈现系统,包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。
所述的数据准备模块包括:数据读取单元、数据整理单元和数据存储单元,其中:数据读取单元与数据整理单元相连,读取数据集中的数据并输出初始数据,数据整理单元与数据存储单元相连并传输整理好的数据,数据存储单元与特征初选模块相连并准备为其提供数据。
所述的数据集中的数据的属性值包括但不限于时间特征、词频特征等,通过从数据中抽取其他特征并分析计算各个特征随时间特征变化的属性值,随时间变化的属性值是指数据集中的某个特征的具体属性的量化值,该量化值具有随时间变化而变化的特点。文本数据中词汇出现的次数是一个随时间变化的属性。
所述的特征初选模块包括:数据提取单元、计算整理单元和特征存储单元,其中:数据提取单元接收并根据用户的请求从数据准备模块中的数据存储单元提取相应数据,将提取到的数据传输给计算整理单元处理,计算整理单元与特征存储单元相连并传输经过计算处理的特征信息,特征存储单元与可视化模块相连并准备为其提供特征信息。
所述的请求是指:明确指定在数据集中可视化的属性和时间区间,对给定时间区间之间属性取值的变化情况进行统计分析,根据统计结果对特征进行排序并进行初选选择。由于多维数据中特征数量众多,且每一个特征又有多个属性随时间变化,对特征进行初选可以降低可视化特征的数量。例如在文本热点分析中,用户可选择词汇出现频率的变化作为要呈现的属性,在给定时间区间前和时间区间内的词汇频率发生较大变化的词汇将被选择作为要呈现的特征。
所述的特征初选模块输出的经过筛选和计算的数据,其特征的选择是动态的,用户可以选择将所有的特征都显示在可视化空间中,也可以通过设置一定的属性阈值来增减可视化的特征数量,使得可视化结果在保证可辨识度高的情况尽可能多的呈现更多特征;
所述的可视化模块包括:特征映射子模块、特征描述子模块和绘制单元,其中:特征映射子模块接收来自特征初选模块的特征数据并向绘制单元传输映射后的坐标数据,特征描述子模块接收来自特征初选模块的特征数据并向绘制单元传输特征图标描述数据。
所述的特征映射子模块包括:坐标计算单元和坐标存储单元,其中:坐标计算单元根据特征数据计算出显示的图形在平面上的位置坐标,并将坐标数据传输给坐标存储单元进行保存,坐标存储单元和绘制单元连接并传输给其坐标数据。
所述的坐标计算单元根据属性值在用户指定的视野区间内随时间的变化情况,将特征映射到二维空间中各自位置,该位置通过待呈现的属性值在视野区间内的峰值来确定。
所述的视野区间是指:在用户指定可视化时间区间,即观察区间内范围更小的时间区间。
例如,用横坐标表示时间,纵坐标表示某属性值,在某一时刻该特征属性的值达到了最大,那么用以表示这个特征的横坐标就是该时刻,纵坐标就是这个峰值的值。因此在新闻热点分析中,视野区间内的热点将显示在二维空间的最上面,最新的热点将显示在前面(视野区间的右侧),即时间轴正方向位置。
所述的特征描述子模块包括:图标生成单元和图标存储单元,其中:图标生成单元根据特征数据计算出特征呈现图标的各个图形特征,并将图形数据传输给图标存储单元进行保存,图标存储单元和绘制单元连接并传输给其图标数据。
所述的图标生成单元根据特征及其随时间变化的属性值改变对应特征呈现图标的内部呈现特征,使其能够描述更多的属性变化情况。在将特征映射到二维空间中具体的位置之后,根据待呈现属性值在观察区间中的具体取值,确定表示特征的图标具体形状或者颜色。
所述的特征呈现图标包括:头部、中部和尾部,其中:图标朝向右侧,即时间轴的正方向的一侧称为头部,图标朝向左侧,即时间轴反方向的一侧称为尾部,头部和尾部的中间则是中部。
所述的特征呈现图标与X轴的夹角表示属性值在视野区间前和视野区间内数据总体的变化趋势。夹角为正,表明在观察区间内视野区间之前的区间内数据属性值相比于视野区间内的属性值总体偏小,表明属性值总体呈现增大的趋势。夹角为负,则表明属性值总体呈现降低的趋势。
所述的特征呈现图标的头部与水平的夹角表示属性值在观察区间中视野区间后的变化情况。头部在水平线之上,表明该属性值在视野区间后继续变大,该夹角约等于0的情况表明视野区间后该属性值仍保持不变,头部在水平线之下,则表明该属性值在视野区间之后发生下降。头部指向的Y轴位置可以表示视野区间之后的属性均值。图标尾部与水平的夹角表示属性值在视野区间之前的变化情况。
所述的特征呈现图标的尾部在水平线之上表明该属性值在视野区间之前的属性值变化趋势为下降趋势,该夹角约等于0的情况表明视野区间之前该属性值基本保持常数,尾部在水平线之下表明该属性值在视野区间之前小于视野区间的属性值,说明该属性值的变化趋势一直 保持上升趋势。
所述的特征呈现图标的中部所呈现的是在视野区间内的属性值变化。区间内属性值变化和缓的,中部显示长且窄。属性值变化剧烈的,中部显示短且宽。
所述的特征呈现图标的头部、尾部和中部的颜色可用以显示其他属性值的变化情况。
本发明所呈现的特征以及特征的属性变化在给定的两个时间区间内都有表达。在观察区间之内,视野区间之前和之后的属性变化情况也有一定的呈现,相当于在整个观察的时间维度上截取了一段进行显示。由于采取了峰值定位的方法,当移动视野区间时,相当于在时间轴上左右移动,处于各自峰值位置的特征相对于时间轴来说大部分处于相对静止的状态,所以呈现特征对象的位置具有一定的连续性,可视化呈现的变化结果具备动画的效果。例如用户可以选择某一年作为一个观察区间,选择某一个月作为视野区间。那么当前的二维空间中则显示进入视野月份中最热门的新闻话题,当视野月份移至下一个月份时,有些热点由于在新的月份中没有受到更多关注,会留在上一个月份,而有些新的热点会因为在新的月份中受到比上一个月份更多的关注,而呈现在新的月份中。但整个观察区间内的特征变化仍可在任何一个视野中有所呈现。
技术效果
与现有技术相比,本发明的技术效果包括:
1、相对于传统的静态可视化空间,本发明的可视化空间是动态可调的,从而可以根据特定需求调整观察的时间区间,还能在视野区间内详细地了解每一段时间的特征属性值,又能同时从宏观上把握整体的特征变化趋势;
2、通过可视化方法表现的主要是数据特征的峰值和变化趋势,这样可以避免数据量过大导致图像过于复杂,同时可以将多维数据的各个特征同时显示在一个图像中。值得一提的是,这样虽然对原数据集造成了一定量的信息损失,但可以通过改变视野提取到用户想要的信息,在某些特定情况下,甚至可以将视野区域缩小到尽量小,从而得到具体时刻的特征属性值;
3、本发明采用峰值定位的方法,由于峰值往往是用户最关注和最能体现特征的属性间复杂关系的值,所以采用峰值定位,可以通过可视化的手段集中表现各个特征变化趋势,帮助用户更方便地理解观察变化趋势;
4、对屏幕分辨率,计算机硬件设施等要求低,可以在低分辨率的屏幕上通过缩小时间区间等方法来完成可视化功能,本发明并不涉及特别复杂的数学算法,动态生成可视化图像的延迟小,调整时间区间的时候具有类似动画的效果;
5、该发明的呈现方法简单,容易理解,便于用户在无培训或者少培训的情况下使用。
附图说明
图1为本发明实现系统的结构框图;
图2为本发明可视化图标定位示意图;
图3为本发明观察区间变化的示意图;
图4为本发明可视化图标内部结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例要实现的可视化的高维数据集为新闻文本集W,该新闻文本集合中的每一个文本都有一个特征为发布时间T,在分辨率为L*H的二维屏幕上实现可视化,其中L为屏幕宽,H为屏幕高,如图2所示(图2中的所有图标都表示一个特征)。
如图1所示,本实施例包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。
本实施例根据上述系统完成可视化的具体步骤分如下几步:
1)数据准备模块中的数据提取单元在给定文本集中抽取词作为特征,数据整理单元根据数据集中每一篇文本的发布时间标记,计算所有的词在各个时期出现的频率,然后保存在数据存储单元中。
2)用户指定两个时间区间,其中之一包含在另一个之内。较长的时间区间为观察区间,较短的时间区间为视野区间。观察区间缺省是整个数据集合所在区间。这里假设观察区间是某一年的时间,视野区间为观察区间内的某两个周或者某个月,时间T的单位取决于数据分析的粒度和数据分布自身的特点,这里我们假设是天。用户可以选择词汇出现频率的变化率作为呈现的属性。那么可视化呈现的内容可以是给定一年中某一个月的新闻中词汇出现频率与其他年份数据有较大差异的词。特征初选模块中的数据提取单元读取用户指定的时间区间,并从数据保存单元中提取相应数据,传输至计算整理单元。
3)根据屏幕及其分辨率的大小以及图标的平均大小计算可在屏幕上清晰呈现的特征数量N。计算整理单元对给定月份的数据进行排序,根据用户设置选择其中的N个词进行呈现。在这个月中,这N个词对应的每一天的变化频率是不同的,选择其变化率的峰值,以及该峰值对应的时间T,组成一个数对(Ti,fi),将这N个数对组成一个集合,记为A。接着将该集合作为特征数据传输给特征存储单元,等待可视化模块使用。
4)可视化模块中的特征映射子模块提取特征存储单元中的特征数据,并进行计算。以时间T为横坐标,频率f为纵坐标。视野区间的最小值对应可视化空间最左侧的位置,视野区间的最大值对应可视化空间最右侧的位置,区间内其他值在横轴上均匀分布;筛选出的数据集合A中,可视化特征属性的最小值Amin所代表的数据对应可视化空间的最下方,最大值Amax所代表的数据对应可视化空间的最上方,最大值和最小值之间的数据在纵轴分布;数据集合A中的每一个特征依据其在视野区间中的最大值及其最大值出现的时间来确定该特征的坐标。如图2中的各个点:A1在整个视野区间内属性值均匀的上升,所以坐标在视野区间的最右侧;A2在视野区间的左侧达到极大值,之后f一直减小,所以坐标临近观察区间的左端;A3的f值在视野区间内有所波动,但整个视野区间内的最大值发生在最后,所以纵坐标取最大值,坐标点靠近观察区间右端;A4和A5在观察区间内有多个单调区间,所以将各个单调区间内的最大值相比较来确定整个观察区间内的f极大值。坐标计算完毕后,将坐标数据传输给坐标存储模块。
5)可视化模块中的特征描述子模块计算属性值的变化趋势等数值特征,将图标的头部、尾部和中部的长、宽等(如图4)根据这些特征对图标各部分的大小做相应调整,即分别对图标的头部、尾部和中部进行拉伸处理,然后将图标显示在步骤4所确定的坐标上。例如,图标中部的大小用来显示该词在所有数据中的平均出现频率,如果图标中部大,表明该词平均出现频率高,否则表明该词平均出现频率低。头部和尾部用来表示视野区间之外的的数据发展趋势。例如头部大尾部短的情况表明视野区间之后数据发展变化较大,而视野区间之前属性值变化较小,趋势持续时间短,头小尾部长的情况可以表明视野区间之后数据发展变化稳定,而视野区间之前词的出现频率一直持续增大,趋势持续时间长。
6)根据观察区间边缘时刻的趋势变化情况,调整图标显示的角度。例如图2中,经过计算发现A1在上个月和下个月出现的频率变化一直保持匀速增高,所以图标的尾部和头部与水平线的夹角都接近于0。A3在之前的月份中频率变化较慢,而在之后的月份频率变化的更快,所以A3图标的头部在水平线之上,而尾部在水平线之下。确定图标数据之后传输给图标存储单元,绘制单元同时提取坐标存储单元和图标存储单元中的数据,在屏幕上绘制图形。
7)当调整视野范围时,用户可以重新选定目标的月份,即选择新的观察区间(如图3),根据新的观察区间,重复步骤2‐5。如图3中,A的位置以及属性在改变了视野区间之后也发生了相应的变化。
本实施例可以呈现多维数据集在给定观察时间区间范围内符合筛选条件的特征属性的总体变化情况,以及在更小的视野时间区间内的特征属性的具体取值和变化情况。在可视化呈现中,特征所处的位置是属性值的峰值位置,随着时间的变化,这个位置可能固定不动,也可跟随时间方向不断演变。这种对特征属性趋势变化的可视化呈现,有利于用户在数量众多的特 征中找出符合趋势变化要求的特征,帮助用户把握众多特征随时间变化的情况,在多类高维数据分析系统中应用广泛。

用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf_第1页
第1页 / 共13页
用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf_第2页
第2页 / 共13页
用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf》由会员分享,可在线阅读,更多相关《用于高维数据特征属性变化趋势的可视化呈现系统及方法.pdf(13页珍藏版)》请在专利查询网上搜索。

一种用于高维数据特征属性变化趋势的可视化呈现系统及方法,包括:数据准备模块、特征初选模块以及可视化模块,其中:数据准备模块与特征初选模块相连,从数据集中读取数据并输出经过格式处理的数据,特征初选模块与可视化模块相连并传输经过筛选和计算的数据,可视化模块与计算机显示硬件相连并传输图形信息。本发明将多特征趋势变化情况进行静态地呈现,所呈现的数据集的每一个维度即是一个特征,时间作为其中一个参照性的维度特。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1