《一种基于标签云的位置关联文本信息可视化方法.pdf》由会员分享,可在线阅读,更多相关《一种基于标签云的位置关联文本信息可视化方法.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410466976.8 (22)申请日 2014.09.12 G06F 17/30(2006.01) (71)申请人 中国人民解放军信息工程大学 地址 450052 河南省郑州市陇海中路 66 号 (72)发明人 华一新 李响 赵婷 王丽娜 张晶 王培 (74)专利代理机构 郑州睿信知识产权代理有限 公司 41119 代理人 胡泳棋 (54) 发明名称 一种基于标签云的位置关联文本信息可视化 方法 (57) 摘要 本发明涉及一种基于标签云的位置关联文本 信息可视化方法, 属于电子技术领域。 本发明从普 通地图和地理位置关联的文本信息。
2、获取数据, 根 据点要素和面要素生成算法得到得到统计地图, 针对大量非结构化文本信息, 进行词法分析和过 滤以提取关键词和相应的词频, 本发明滤除了普 通地图上不相关的细节信息, 只保留了主要的信 息, 并根据不同的尺度信息的详略程度不同, 不仅 适用于点状要素, 也适用于面状要素, 标签云没有 使用行政区域的轮廓, 避免了由于标签位置而产 生的误解, 便于用户浏览与地理位置关联的文本 信息, 减少了一些不必要的操作, 并能够帮助用户 在在大量的位置关联文本信息中把握信息的总体 特征和趋势。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说。
3、明书5页 附图4页 (10)申请公布号 CN 104376038 A (43)申请公布日 2015.02.25 CN 104376038 A 1/1 页 2 1. 一种基于标签云的位置关联文本信息可视化方法, 其特征在于, 该可视化方法包括 以下步骤 : 1) 将普通地图中的各个地理位置划分成离散的点 ; 2) 根据点要素和面要素生成算法对划分的各离散点进行调整, 使其不相互压盖, 并能 保持相对位置的准确性 ; 3) 对地理位置关联的文本信息进行词法分析和过滤以提取关键词和相应的词频, 按照 各地理位置对应的词频为与各地理位置对应的离散点设置权重 ; 4) 按照权重的不同对各离散单元按照标签。
4、云的显示规则进行显示。 2. 根据权利要求 1 所述的基于标签云的位置关联文本信息可视化方法, 其特征在于, 所述的步骤2)是采用Cartogram生成算法实现, 该算法是根据某种属性值将各离散单位圆 按照水平和垂直方向重新布局, 保持位置的相对正确。 3. 根据权利要求 2 所述的基于标签云的位置关联文本信息可视化方法, 其特征在于, 所述步骤 2) 中 Cartogram 算法的实现过程如下 : a) 将得到的所有离散点都分布于规则的网格交叉点上 ; b) 按照设定的方向对相邻两个离散点之间的距离进行简化, 保留两点 X 轴和 Y 轴方向 上距离较大的, 并且将较大的距离调整为标准单位 1。
5、, 较小的简化为 0。 4. 根据权利要求 2 所述的基于标签云的位置关联文本信息可视化方法, 其特征在于, 所述步骤 4) 中的标签云显示规则包括面向不同尺度的显示规则和面向不同时间的显示规 则。 5. 根据权利要求 4 所述的基于标签云的位置关联文本信息可视化方法, 其特征在于, 所述面向不同尺度的显示规则是用离散的若干模型表达不同尺度上的相同对象。 6. 根据权利要求 5 所述的基于标签云的位置关联文本信息可视化方法, 其特征在于, 所述面向不同时间的显示规则包括两种, 第一种是类似于 “sprakclouds 的思想, 该方式是 用户移动鼠标至某一个关键词时, 该更关键词就会浮动出来且。
6、放大显示 ; 第二种方式是使 用 “瀑布” 的隐喻, 随时间变化的文本以瀑布飞流之下的形式分布, 用户点击图上的任何一 个模型, 就会显示出一个 “瀑布” 式的标签云。 权 利 要 求 书 CN 104376038 A 2 1/5 页 3 一种基于标签云的位置关联文本信息可视化方法 技术领域 0001 本发明涉及一种基于标签云的位置关联文本信息可视化方法, 属于电子技术领 域。 背景技术 0002 以地理信息为主的可视化方法。传统的地理信息系统 ( 如 ArcGIS、 SuperMap 等 ) 根据不同类型的文本信息进行可视化。结构化的文本信息作为地理要素的属性信息存储 在关系表中, 点击某一。
7、个地理要素时, 与之关联的文本信息会以数据表格的形式呈现出来。 而对于非结构化的文本信息, 则采用一种外部链接的方法, 即该地理区域保存了所有与之 关联的文本存储位置, 当点击该区域时, 由相应的文本程序 ( 如记事本、 Word 等 ) 打开该文 本。 由于地图上存在大量的地理要素, 浏览这些文本信息需要频繁地进行缩放、 漫游和点击 对话框操作, 不便于用户浏览。 并且, 用户也难以从这种可视化的形式中探索和发现出有用 的信息。 0003 以文本信息为主的可视化方法, 大百科全书软件 ( 如微软的 Encarta、 维基百科以 及百度百科等 ), 采用的是与地理信息系统截然不同的思路, 以文。
8、字为主体, 文字所关联的 地理空间位置则由偏安一隅的地图来表示, 如图 1 所示, 这种以文本信息为主的可视化方 法侧重表达文本信息, 空间信息的表达过于简略。 0004 基于标签云的可视化方法, 作为非空间文本信息表达的有效方法, 标签云 (TagCloud 或 Word Cloud) 最早是以 “潜意识文档 (subconscious fi le)”一词出现在 Douglas Coupland 的 Microserfs一书中, 此后经 Flicker 网站首次应用之后便得到 广泛使用, 如图 2 所示。Stanley Milgram 最早将标签云应用到地理信息可视化研究中。 Alexand。
9、ar Jaffe 等通过标签云的方法, 将具有地理标签的海量照片信息与地图关联, 并进 行可视化。 此后, 也有学者在Alexandar Jaffe的思想基础上利用mash-up工具将标签和标 签云叠加在地图上。 Michael Stryker等以新闻和科技文献为研究对象, 通过标签云的方法 进行地理可视化从而能及时感知公众健康情况。 但是以上几种研究都是简单地将标签云叠 加在地图上, 或者以单独的窗口形式将标签云与地图关联起来。这种方法最突出的问题是 标签云会和地图上原有的注记产生冲突, 同时普通地图上包含太多用户并不关注的详细信 息, 容易分散用户对兴趣点和兴趣区域的注意力。 Dinh-Q。
10、uyen Nguyen省略了用户不关心的 细节, 设计了一种名为Taggram的地图, 如图3所示, 它仅保留了国家行政区划的面状要素, 然后将 Flicker 等网站上的标签按照流行程度以不同字体、 大小放置在相应的国家行政区 划中。但是 Taggram 明显存在两点不足 : (1) 它仅适用于面状要素, 对于点状要素则无能为 力 ; (2) 由于 Taggram 保留了行政区划形状的真实性, 标签的位置容易让读图者产生误解。 0005 因此目前使用以地理信息为主的可视化方法时操作繁琐且难以发现有效信息 ; 以 文本信息为主的可视化方法过于测量表达文本信息, 空间信息的表达过于简略 ; 以及。
11、使用 基于标签云的 Taggram 地图仅适用于面状要素, 且标签的位置容易让读者产生误解 说 明 书 CN 104376038 A 3 2/5 页 4 发明内容 0006 本发明的目的是提供一种基于标签云的位置关联文本信息可视化方法, 以解决目 前可视化方法所出现上述的问题。 0007 本发明为解决上述技术问题而提供一种基于标签云的位置关联文本信息可视化 方法, 该可视化方法包括以下步骤 : 0008 1) 将普通地图中的各个地理位置划分成离散的点 ; 0009 2) 根据点要素和面要素生成算法对划分的各离散点进行调整, 使其不相互压盖, 并能保持相对位置的准确性 ; 0010 3) 对地理。
12、位置关联的文本信息进行词法分析和过滤以提取关键词和相应的词频, 按照各地理位置对应的词频为与各地理位置对应的离散点设置权重 ; 0011 4) 按照权重的不同对各离散单元按照标签云的显示规则进行显示。 0012 所述的步骤2)是采用Cartogram生成算法实现, 该算法是根据某种属性值将各离 散单位圆按照水平和垂直方向重新布局, 保持位置的相对正确。 0013 所述步骤 2) 中 Cartogram 算法的实现过程如下 : 0014 a) 将得到的所有离散点都分布于规则的网格交叉点上 ; 0015 b) 按照设定的方向对相邻两个离散点之间的距离进行简化, 保留两点 X 轴和 Y 轴 方向上距。
13、离较大的, 并且将较大的距离调整为标准单位 1, 较小的简化为 0。 0016 所述步骤 4) 中的标签云显示规则包括面向不同尺度的显示规则和面向不同时间 的显示规则。 0017 所述面向不同尺度的显示规则是用离散的若干模型表达不同尺度上的相同对象。 0018 所述面向不同时间的显示规则包括两种, 第一种是类似于 “sprakclouds 的思想, 该方式是用户移动鼠标至某一个关键词时, 该更关键词就会浮动出来且放大显示 ; 第二种 方式是使用 “瀑布” 的隐喻, 随时间变化的文本以瀑布飞流之下的形式分布, 用户点击图上 的任何一个模型, 就会显示出一个 “瀑布” 式的标签云。 0019 本发。
14、明的有益效果是 : 本发明从普通地图和地理位置关联的文本信息获取数据, 根据点要素和面要素生成算法得到得到统计地图, 针对大量非结构化文本信息, 进行词法 分析和过滤以提取关键词和相应的词频, 本发明滤除了普通地图上不相关的细节信息, 只 保留了主要的信息, 并根据不同的尺度信息的详略程度不同, 不仅适用于点状要素, 也适用 于面状要素, 标签云没有使用行政区域的轮廓, 避免了由于标签位置而产生的误解, 便于用 户浏览与地理位置关联的文本信息, 减少了一些不必要的操作, 并能够帮助用户在在大量 的位置关联文本信息中把握信息的总体特征和趋势。 附图说明 0020 图 1 是目前以文本信息为主的可。
15、视化示意图 ; 0021 图 2 是现有标签云的应用示例示意图 ; 0022 图 3 是现有 Taggram 地图的应用实例示意图 ; 0023 图 4 是本发明的基于标签云的位置关联文本信息可视化方法的流程图 ; 0024 图 5 是以中国及其周边 19 国为例的标签云地图实现流程 ; 0025 图 6 是 cartogram 算法中两点之间距离的简化示意图 ; 说 明 书 CN 104376038 A 4 3/5 页 5 0026 图 7-a 是压缩过程示意图 ; 0027 图 7-b 是原始位置与转换位置的示意图 ; 0028 图 8-a 是所有点的原始位置示意图 ; 0029 图 8-。
16、b 是所有点经 cartogram 算法调整后的位置示意图 ; 0030 图 9-a 是原始地图 ; 0031 图 9-b 是根据原是地图中心位置将所有面要素转换成点要素后的示意图 ; 0032 图 9-c 是对点要素实施 cartogram 算法调整后的示意图 ; 0033 图 9-d 是将位置具有相邻关系的点用直线连接后的示意图 ; 0034 图 10 是本发明实施例中所采用的用于获取微博信息的工具截图 ; 0035 图 11 是本发明实施例中所得到文本的关键词和词频统计结果图 ; 0036 图 12 是本发明实施例中面向不同尺度显示规则的标签云显示示意图 ; 0037 图 13 是本发明。
17、实施例中随时间变化的 “sparkclouds” 式标签云显示示意图 ; 0038 图 14 是本发明实施例中随时间变化的 “瀑布” 式标签云显示示意图。 具体实施方式 0039 下面结合附图对本发明的具体实施方式作进一步的说明。 0040 本发明的一种基于标签云的位置关联文本信息可视化方法是将与空间位置关联 的文本信息以标签云的形式和地图结合起来的可视化方法, 如图 4 所示, 该可视化方法具 体实现过程如下 : 0041 1. 从普通地图和与地理位置关联的文本信息获取数据。 0042 2. 利用点要素 cartogram 生成算法、 面要素 cartogram 生成算法得到统计地图。 Ca。
18、rtogram 算法是一种根据某种属性值将对象形状进行夸大或缩小的地图, 它保持位置的 相对正确, 基于属性进行夸张变形, 直观地传递某种特定信息。 用户在微薄网站上发布的部 分消息会同时包含其位置信息, 如城市和城市街区。 在小比例尺地图上, 可将城市看作点状 要素, 城市街区在大比例尺地图上看作面状要素。 0043 本发明中 cartogram 算法关注的是点状和面状要素。针对点状要素, 该算法的首 要规则是所有点都分布于规则的网格交叉点上, 这样便于浏览, 实现有序的可视化布局, 同 时这也是与认知地图学的结论相吻合的, 人们倾向于在水平方向或者垂直方向上来记忆位 置之间的关系, 对原本。
19、分布密度不规则的两个相邻点之间的距离进行简化, 根据两点之间 夹角 的大小, 只保留两点 X 轴和 Y 轴方向上距离较大的, 并且将较大的距离调整为标准 单位 1, 较小的简化为 0, 如图 6 所示, 也即是如果两个点之间水平方向的距离比较大, 这样 可以认为两个点在同一水平线上, 垂直方向的距离简化为0。 下面给出该算法实现的具体过 程 : 0044 首先进行横向压缩, 然后进行纵向压缩, 如图 7-a 所示, 方向是从左至右, 上至下, 假设 l1是一个 n 个 X 坐标相同的位置点的集合, l2是与 l1在 X 轴上相邻的一个集合, 和定义为 l1上的点 Vk和 l2上的分别位于点 V。
20、k的上面和下面且距离 Vk最近的两个点 Ui-1和 Ui的夹角, 如图 7-b 所示。只有当所有夹角都不小于阈值角度 ( 设为 45 ) 时, l1 和 l2两个数据集合便可以压缩成相同的 X 值。在 Y 轴上重复该过程完成纵向压缩, 这样就 说 明 书 CN 104376038 A 5 4/5 页 6 将所有的位置点置于规则的单元网格的交叉点上, 如图 8-a 和 8-b 所示。 0045 0046 对于面要素, 首先根据其中心点位置将所有面要素转换成点要素, 然后, 实施点要 素的 cartogram 生成算法, 最后, 将位置具有相邻关系的点用直线连接起来, 如图 9-a 至图 9-d 。
21、所示。 0047 3. 获取发布信息, 进行词法分析和过滤以提取关键词和相应的词频。很多流行的 微博网站, 比如新浪和腾讯, 都会提供 API 接口。根据这些 API 接口, 获取用户发布的信息, 如图 10 所示, 获取每条发布信息的时间、 地点、 用户名、 粉丝数量、 转发数量、 评论数量以及 全文内同等信息。 0048 将获取的数据结构化存储于数据库中, 通过构造不同的 SQL 语句获得其中的任何 一个子集, 例如, 提取从 2013-03-14 到 2013-03-17 在武汉市发布的信息, SQL 语句如下 : 0049 select wb_content from weibo_ta。
22、b where wb_time between2013-03-14and 2013-03-17and wb_address like武汉 0050 对于大数据量的文本数据, 可通过现有的工具如 ICTCLAS 进行分词和过滤, 从而 获得文本的关键词和词频统计, 如图 11 所示。 0051 4. 关于标签云的生成已经有很多成熟的算法和工具 ( 如 Wordle 和 Tagxedo 等 ), 因此 cartogram 和标签云结合的关键在于显示规则的设计, 本实施例以两种显示规则为 例, 一种是面向不同尺度, 另一种是面向不同时间。 0052 1) 面向不同尺度的显示规则 0053 该规则是用。
23、离散的几个模型表达不同尺度上的相同对象, 从国家级别到地区级 别。本实施例给出了 4 中不同的离散模型, 如图 12-a 到图 12-d, 用户逐渐放大地图, 比例 尺越来越大, 标签云显示的内容会愈加详细。 首先显示出来的是所有城市, 每一城市用模型 用 a 表示, 接着至放大模型 b, 最后是模型 c, 当用户继续放大至市级级别, 便会显示出城市 的不同地区, 用模型 d 表示, 在模型 d 中, 相邻的地区用直线连接起来。如果用户继续放大, 每一个地区又会重复该过程。 0054 不同地区的信息量是有差异的, 为了表示出这种差异, 首先采用归一化的方法计 算出每个地区所对应的标准信息量, 。
24、然后使用不同的颜色来表示。具体的计算过程如下, M 表示地区的信息量。 0055 对于每一个模型, 关键字则使用模型填充颜色的相近色系来表示, 如图 12-d 所 示, 表 1 中给出每一个模型的实验参数。 0056 表 1 0057 说 明 书 CN 104376038 A 6 5/5 页 7 0058 面向不同时间的显示规则 0059 本实施例中给出两种时间标签云的显示方法, 第一种类似于 “sparkclouds” 的思 想, 用户移动鼠标至某一个关键词上时, 它就会浮动出来的并且放大显示。 文字下面的波线 图表示的是在一段时间内该关键词出现的频率, 如图 13 所示。第二种方法是使用 。
25、“瀑布” 的 隐喻, 随时间变化的文本以瀑布飞流直下的形式分布, 如图 14 所示, 用户点击图上任何一 个模型, 右栏就会显示出一个 “瀑布” 式的标签云。 0060 以中国及其周边 19 个国家为例, 具体说明该流程完整的实现过程。图 5 中 (1) 是 普通的行政区划图,以各行政区划的中心点生成离散单位圆(图5(2), 将这些离散单位圆 按照水平和垂直方向重新布局, 使其不相互压盖 ( 图 5(3), 并且保持相对位置的一定准确 性。按照权重的不同为离散单位圆设置大小不同的直径, 图 5(4) 中是依据百度百科对各国 描述的文字数量所计算的权重。不同单位圆之间建立连接关系, 图 5(5)。
26、 中是将陆上边界相 邻的国家之间以直线相连。图 5(6-9) 是依不同比例尺对各单位圆所进行的显示控制, 当标 签云地图随比例尺放大时, 首先显示出国名 ( 图 5(6), 依次显示出国名和 50 个标签 ( 图 5(7), 国名和 100 个标签 ( 图 5(8), 国名和 200 个标签 ( 图 5(9)。 0061 本发明是一种将与空间位置关联的文本信息以标签云的形式和地图结合起来的 可视化, 该方法滤除了普通地图上不相关的细节信息, 只保留了主要的信息, 并根据不同的 尺度信息的详略程度不同 ; 本发明既使用于点状要素, 又能适用于面状要素, 标签云没有使 用行政区域的轮廓, 避免了由。
27、于标签云位置而产生的误解, 便于用户浏览与地理位置关联 的文本信息, 减少了一些不必要的操作, 并能够帮助用户在大量的位置关联文本信息中把 握信息的总体特征和趋势。 说 明 书 CN 104376038 A 7 1/4 页 8 图 1 图 2 图 3 图 4 图 5 说 明 书 附 图 CN 104376038 A 8 2/4 页 9 图 6 图 7-a 图 7-b 图 8-a 图 8-b 图 9-a 说 明 书 附 图 CN 104376038 A 9 3/4 页 10 图 9-b 图 9-c 图 9-d 图 10 图 11 图 12 图 13 说 明 书 附 图 CN 104376038 A 10 4/4 页 11 图 14 说 明 书 附 图 CN 104376038 A 11 。