一种基于大数据的智能交通平台数据集成方法.pdf

摘要
申请专利号：	CN201410626644.1	申请日：	2014.11.10
公开号：	CN104320486A	公开日：	2015.01.28
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04L 29/08申请日:20141110\|\|\|公开
IPC分类号：	H04L29/08; G06F17/30	主分类号：	H04L29/08
申请人：	连云港杰瑞电子有限公司
发明人：	张锋鑫; 项俊平; 王帅; 母万国; 刘建华
地址：	222000 江苏省连云港市新浦区圣湖路18号
优先权：
专利代理机构：	连云港润知专利代理事务所 32255	代理人：	刘喜莲
PDF下载：	PDF下载

内容摘要

一种基于大数据的智能交通平台数据集成方法，该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据被持久化为标准化流；生产者向引擎推送数据；消费者是主动拉取引擎上数据专题内容。本发明提供给智能交通子系统统一的数据接入服务，能够支撑大规模数据不间断稳定传输。自身转发效率高，能够提供实时数据转发和历史数据暂储功能，实现对智能交通大数据分析、处理的支撑。

权利要求书

1.  一种基于大数据的智能交通平台数据集成方法，其特征在于：该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向Hdfs文件存储系统转储；数据被持久化为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。

2.  根据权利要求1所述的方法，其特征在于：段文件多个文件复本所在服务器被划分为Master和Slave两类角色，Master负责数据写操作、转发读操作、通知Slave进行数据同步；Slave负责转发写操作、与Master同步、提供读取服务；Master是从Slave中选举出来，在集群发现Master不能提供正常服务后会发起选举， Slave的数量必须满足2*n+1才能保证选举成功，选举采用fast paxos算法。

3.  根据权利要求1所述的方法，其特征在于：该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。

4.  根据权利要求1所述的方法，其特征在于：数据存储转发引擎生产数据处理流程如下：
引擎获取生产者连接，接收生产者发送的数据到临时队列，引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作；
由于数据持久化是通过Master来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的Master是否正常，如果正常则进行下一步写入段文件操作；则转入Master选举流程；
Master选举流程选用fast paxos算法，该算法对参与选举的服务器数要求必须是2*n+1个；选举是由当前写入服务器发起，并由其统计每个Slave得票数，其他的Slave服务器负责投票，直到Master产生；
Master产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项；
结束数据上传流程，并发布到专题，供消费者拉取消费。

5.  根据权利要求1所述的方法，其特征在于：数据存储转发引擎消费数据处理流程如下：
引擎获取消费者连接，接收消费者拉取数据的请求；该请求中包括消费者要消费的专题项信息、段文件起始地址、内部数据偏移量等；
引擎从页面缓存中直接将数据转递到socket缓存，发送给消费者；
段文件中的每条数据都会有一个递增的唯一ID标识；Slave服务器会定期向Master发送最大标识ID，询问Master是否需要同步数据，Master收到标识后会给出应答，同步采用增量同步方式，每次同步的增量Master在应答中会告知Slave，Slave收到后就启动同步线程，执行同步；
每次消费者拉取的数据多少，引擎端不做任何的记录；需要消费者在本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。

说明书

一种基于大数据的智能交通平台数据集成方法
技术领域
本发明涉及一种基于大数据的智能交通平台数据集成引擎设计和实现,它根据智能交通平台与子系统之间数据交换类型和交换方式，提出一种新型数据采集、存储、交互的应用服务集群构建方法，属于智能交通大数据应用领域。
背景技术
智能交通集成平台作为城市交通管理的中心：它以警用地理信息系统为依托，综合治安卡口、电子警察、视频监控、交通信号控制、警车警员GPS、交通流检测、交通设备设施管理、交通信息发布等多个子系统功能为一体。
目前国内厂家在做子系统集成时候大多会按照每个子系统数据类型将数据划分为以下几种：结构化数据（关系型数据库表结构数据）、非结构化数据（图片、音频、视频、文本等）、空间数据（地理信息数据等）。
传统划分数据类型带来的结果是：集成平台数据接入方法会与子系统数据类型强相关，必然在做数据接入服务时候会依据不同类型数据，考虑不同接入方法甚至是不同的软件架构。
智能交通集成平台所面对的数据符合大数据的特点：数量大、有用的信息少。所以采用大数据技术来处理交通海量数据成了此类应用的新需求。
发明内容
本发明所要解决的技术问题是针对现有技术的不足，提出一种基于大数据的智能交通平台数据集成方法。该方法设计合理，采用统一的系统架构对数据接入流程进行重新设计和优化，提供了一个具有高稳定性、高吞吐的数据接入、存储、转发层。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于大数据的智能交通平台数据集成方法，其特点是：该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向Hdfs文件存储系统转储；数据被持久化为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。
本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是：段文件多个文件复本所在服务器被划分为Master和Slave两类角色，Master负责数据写操作、转发读操作、通知Slave进行数据同步；Slave负责转发写操作、与Master同步、提供读取服务；Master是从Slave中选举出来，在集群发现Master不能提供正常服务后会发起选举， Slave的数量必须满足2*n+1才能保证选举成功，选举采用fast paxos算法。
本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是：该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。
本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是：数据存储转发引擎生产数据处理流程如下：
（1）引擎获取生产者连接，接收生产者发送的数据到临时队列。引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作；
（2）由于数据持久化是通过Master来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的Master是否正常，如果正常则进行下一步写入段文件操作；则转入Master选举流程；
（3）Master选举流程选用fast paxos算法，该算法对参与选举的服务器数要求必须是2*n+1个；选举是由当前写入服务器发起，并由其统计每个Slave得票数，其他的Slave服务器负责投票，直到Master产生；
（4）Master产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项；
（5）结束数据上传流程，并发布到专题，供消费者拉取消费。
本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是：数据存储转发引擎消费数据处理流程如下：
（1）引擎获取消费者连接，接收消费者拉取数据的请求；该请求中包括消费者要消费的专题项信息、段文件起始地址、内部数据偏移量等；
（2）引擎从页面缓存中直接将数据转递到socket缓存，发送给消费者；
（3）段文件中的每条数据都会有一个递增的唯一ID标识；Slave服务器会定期向Master发送最大标识ID，询问Master是否需要同步数据，Master收到标识后会给出应答，同步采用增量同步方式，每次同步的增量Master在应答中会告知Slave，Slave收到后就启动同步线程，执行同步；
（4）每次消费者拉取的数据多少，引擎端不做任何的记录；需要消费者在本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。
智能交通集成指挥平台分为以下五层：用户界面层、应用层、数据集成层、网络层、设备层，参见图1。本发明主要完成数据存储转发引擎集群设计和实现。集群设计的目标是：单个引擎功能设计如图2数据存储转发引擎功能图所示。本发明从对数据到达消费者的时效性要求的高低，将智能交通集成平台数据划分为两类：实时消费数据和历史消费数据。为了实现统一设计，就要统一这两类数据处理方法。通常只要能满足消费实时数据要求，同时增加数据缓存队列保存历史数据，就可以满足消费历史数据要求。本发明采用集群的方式实现高稳定性、高性能。引擎集群能够自动感知集群新进引擎并上线提供服务。老引擎停止服务时通知生产者和消费者，重新选取引擎服务来处理数据。引擎中的数据由生产者推送过来，为了避免频繁的IO操作，生产者是按批次推送数据，引擎成批的接收数据，消费者成批的拉取数据。
引擎为了提高数据转发、转储的效率，对数据内容不进行任何解析操作。生产者将数据格式化为统一结构（例如：google buffer、json等）然后序列化为标准文件流。标准化文件流就可以方便在网络层、引擎服务器、消费者之间进行传输，这种数据只有到达真正的使用者时才会被解析，反序列化出来。传输采用零拷贝技术，减少数据在用户空间缓存与内核空间缓存的拷贝。如图3零拷贝与传统发送数据流程对比图。
在引擎服务器内存维护一张段文件索引表，存储每个段文件起始地址。持久化生产者发送的数据到引擎服务器段文件中，段文件采用FIFO队列组织。提供多个段文件在不同引擎服务器上的数据复本，保证持久化数据安全。
每一个段文件多个复本分别存放在不同的物理服务器上，物理服务器会被划分为两类角色：Master和Slave。Master负责段文件的写操作、并通知Slave数据同步；Slave负责向Master转发写操作，提供应用层读取服务。Master是采用paxos动态选举产生，一旦一个Master失效，会从Slave中重新选举一个Master,此算法需要段文件复本数大于2*N+1个。
自动在引擎集群之间同步数据，保证所有消费者在任意一个引擎上看到的数据都是一致的。引擎向生产者提供发布数据专题接口，将专题关联到无限多个段文件上，从而保证专题内容可以横向扩展；通过不同专题向应用层提供不同协议类型的数据。协调生产者推送数据速度和消费者拉取数据速度，避免当消费者由于资源限制不能及时处理生产者发送数据，而引起消费者服务器资源耗尽的拒绝服务攻击。引擎提供数据访问连接池，生产者和消费者每次连接到引擎时会初始化连接池，当推送或拉取数据时会从连接池中优选一条连接传输数据。
消费者保存当前的数据专题信息，包括专题中段文件的起始地址和段文件中已经读取数据的偏移量。每次读取都会根据当前偏移加上数据长度来拉取数据。由于数据读取偏移是记录在消费者，所以消费者通过回退偏移量，可以重新拉取以前使用的数据。这个特性可以保证历史上被错误处理的数据，可以在修复消费逻辑后重新处理一遍。在实际中如车流量数据在纠偏时采用算法得到进一步完善，就可以在实施新算法后采用回退机制重新获取一遍原始数据进行纠偏。当然历史数据保留期限可以在引擎上设置，引擎会自动清理过期数据，防止历史数据占满引擎存储空间。
本发明是一种基于大数据的智能交通平台数据集成引擎，引擎提供给智能交通子系统统一的数据接入服务，能够支撑大规模数据不间断稳定传输。引擎通过集群设计和优化数据存取模式提高自身转发效率，能够提供实时数据转发和历史数据暂储功能，通过原生支持HDFS文件转储，实现对智能交通大数据分析、处理的支撑。
附图说明
图1为基于大数据集成平台结构图；
图2为数据存储转发引擎功能图；
图3为零拷贝与传统发送数据流程对比图；
图4为基于大数据与传统数据处理流程图对比图；
图5为数据存储转发引擎生产数据处理流程图；
图6为数据存储转发引擎消费数据处理流程图。
具体实施方式
以下参照附图，进一步地对本发明的技术方案进行描述，以使本领域技术人员进一步地理解本发明，而不构成对本发明权利的限制。
实施例1，参照图1-3，一种基于大数据的智能交通平台数据集成方法，该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向Hdfs文件存储系统转储；数据被持久化为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。
实施例2，实施例1所述的方法中：段文件多个文件复本所在服务器被划分为Master和Slave两类角色，Master负责数据写操作、转发读操作、通知Slave进行数据同步；Slave负责转发写操作、与Master同步、提供读取服务；Master是从Slave中选举出来，在集群发现Master不能提供正常服务后会发起选举， Slave的数量必须满足2*n+1才能保证选举成功，选举采用fast paxos算法。
实施例3，实施例1所述的方法中：该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。
实施例4，如图4基于大数据与传统数据处理流程对比图所示，基于大数据的存储系统来设计数据接入层。从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理技术和方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。图4中与传统方法相比，本设计避开数据转储的过程，将数据接入层直接与大数据存储层对接，实现了对大数据处理原生支持。减少数据处理流程，避免数据格式来回转换造成服务器资源开销，将有限服务器资源集中到集成平台上层更关注的大数据应用上。
实施例5，实施例1所述的方法中：如图5数据存储转发引擎生产数据处理流程图：
1)  引擎获取生产者连接，接收生产者发送的数据到临时队列。引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作。
2)  由于数据持久化是通过Master来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的Master是否正常，如果正常则进行下一步写入段文件操作。否则转入Master选举流程。
3)  Master选举流程选用fast paxos算法，该算法对参与选举的服务器数要求必须是2*n+1个。选举是由当前写入服务器发起，并由其统计每个Slave得票数，其他的Slave服务器负责投票，直到Master产生。
4)  Master产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项。
5)  结束数据上传流程，并发布到专题，供消费者拉取消费。
实施例6，实施例1所述的方法中：如图6数据存储转发引擎消费数据处理流程图：
1)  引擎获取消费者连接，接收消费者拉取数据的请求。该请求中包括消费者要消费的专题项信息、段文件起始地址、内部数据偏移量等。
2)  引擎从页面缓存中直接将数据转递到socket缓存，发送给消费者。
3)  段文件中的每条数据都会有一个递增的唯一ID标识。Slave服务器会定期向Master发送最大标识ID，询问Master是否需要同步数据，Master收到标识后会给出应答，同步采用增量同步方式，每次同步的增量Master在应答中会告知Slave，Slave收到后就启动同步线程，执行同步。
4)  每次消费者拉取的数据多少，引擎端不做任何的记录。需要消费者在本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。
以上实现了基于大数据智能交通平台数据集成引擎设计，本引擎能提供高性能的智能交通平台大数据接入服务，能够支撑智能交通平台大数据分析、处理的要求。

资源描述

《一种基于大数据的智能交通平台数据集成方法.pdf》由会员分享，可在线阅读，更多相关《一种基于大数据的智能交通平台数据集成方法.pdf（14页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104320486A43申请公布日20150128CN104320486A21申请号201410626644122申请日20141110H04L29/08200601G06F17/3020060171申请人连云港杰瑞电子有限公司地址222000江苏省连云港市新浦区圣湖路18号72发明人张锋鑫项俊平王帅母万国刘建华74专利代理机构连云港润知专利代理事务所32255代理人刘喜莲54发明名称一种基于大数据的智能交通平台数据集成方法57摘要一种基于大数据的智能交通平台数据集成方法，该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；通。

2、过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据被持久化为标准化流；生产者向引擎推送数据；消费者是主动拉取引擎上数据专题内容。本发明提供给智能交通子系统统一的数据接入服务，能够支撑大规模数据不间断稳定传输。自身转发效率高，能够提供实时数据转发和历史数据暂储功能，实现对智能交通大数据分析、处理的支撑。51INTCL权利要求书2页说明书5页附图6页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图6页10申请公布号CN104320486ACN10。

3、4320486A1/2页21一种基于大数据的智能交通平台数据集成方法，其特征在于该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向HDFS文件存储系统转储；数据被持久化为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置。

4、；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。2根据权利要求1所述的方法，其特征在于段文件多个文件复本所在服务器被划分为MASTER和SLAVE两类角色，MASTER负责数据写操作、转发读操作、通知SLAVE进行数据同步；SLAVE负责转发写操作、与MASTER同步、提供读取服务；MASTER是从SLAVE中选举出来，在集群发现MASTER不能提供正常服务后会发起选举，SLAVE的数量必须满足2N1才能保证选举成功，选举采用FASTPAXO。

5、S算法。3根据权利要求1所述的方法，其特征在于该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。4根据权利要求1所述的方法，其特征在于数据存储转发引擎生产数据处理流程如下引擎获取生产者连接，接收生产者发送的数据到临时队列，引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作；由于数据持。

6、久化是通过MASTER来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的MASTER是否正常，如果正常则进行下一步写入段文件操作；则转入MASTER选举流程；MASTER选举流程选用FASTPAXOS算法，该算法对参与选举的服务器数要求必须是2N1个；选举是由当前写入服务器发起，并由其统计每个SLAVE得票数，其他的SLAVE服务器负责投票，直到MASTER产生；MASTER产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项；结束数据上传流程，并发布到专题，供消费者拉取消费。5根据权利要求1所述的方法，其特征在于数据存储。

7、转发引擎消费数据处理流程如下引擎获取消费者连接，接收消费者拉取数据的请求；该请求中包括消费者要消费的专题项信息、段文件起始地址、内部数据偏移量等；引擎从页面缓存中直接将数据转递到SOCKET缓存，发送给消费者；权利要求书CN104320486A2/2页3段文件中的每条数据都会有一个递增的唯一ID标识；SLAVE服务器会定期向MASTER发送最大标识ID，询问MASTER是否需要同步数据，MASTER收到标识后会给出应答，同步采用增量同步方式，每次同步的增量MASTER在应答中会告知SLAVE，SLAVE收到后就启动同步线程，执行同步；每次消费者拉取的数据多少，引擎端不做任何的记录；需要消费者在。

8、本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。权利要求书CN104320486A1/5页4一种基于大数据的智能交通平台数据集成方法技术领域0001本发明涉及一种基于大数据的智能交通平台数据集成引擎设计和实现,它根据智能交通平台与子系统之间数据交换类型和交换方式，提出一种新型数据采集、存储、交互的应用服务集群构建方法，属于智能交通大数据应用领域。背景技术0002智能交通集成平台作为城市交通管理的中心它以警用地理信息系统为依托，综合治安卡口、电子警察、视频监控、交通信号控制、警车警员GPS、交通流检测、交通设备设施管理、交通信息发布等多个子系统功。

9、能为一体。0003目前国内厂家在做子系统集成时候大多会按照每个子系统数据类型将数据划分为以下几种结构化数据（关系型数据库表结构数据）、非结构化数据（图片、音频、视频、文本等）、空间数据（地理信息数据等）。0004传统划分数据类型带来的结果是集成平台数据接入方法会与子系统数据类型强相关，必然在做数据接入服务时候会依据不同类型数据，考虑不同接入方法甚至是不同的软件架构。0005智能交通集成平台所面对的数据符合大数据的特点数量大、有用的信息少。所以采用大数据技术来处理交通海量数据成了此类应用的新需求。发明内容0006本发明所要解决的技术问题是针对现有技术的不足，提出一种基于大数据的智能交通平台数据集。

10、成方法。该方法设计合理，采用统一的系统架构对数据接入流程进行重新设计和优化，提供了一个具有高稳定性、高吞吐的数据接入、存储、转发层。0007本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于大数据的智能交通平台数据集成方法，其特点是该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向HDFS文件存储系统转储；数据被持久化。

11、为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。0008本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是段文件多个文件复本所在服务器被划分为MASTER和SLAVE两类角色，MASTER负责数据写操作、转发读操作、通知SLAVE进行数。

12、据同步；SLAVE负责转发写操作、与说明书CN104320486A2/5页5MASTER同步、提供读取服务；MASTER是从SLAVE中选举出来，在集群发现MASTER不能提供正常服务后会发起选举，SLAVE的数量必须满足2N1才能保证选举成功，选举采用FASTPAXOS算法。0009本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到。

13、不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。0010本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是数据存储转发引擎生产数据处理流程如下（1）引擎获取生产者连接，接收生产者发送的数据到临时队列。引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作；（2）由于数据持久化是通过MASTER来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的MASTER是否正常，如果正常则进行下一步写入段文件操作；则转入MASTER选举流程；（3）MASTER选举流程选用F。

14、ASTPAXOS算法，该算法对参与选举的服务器数要求必须是2N1个；选举是由当前写入服务器发起，并由其统计每个SLAVE得票数，其他的SLAVE服务器负责投票，直到MASTER产生；（4）MASTER产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项；（5）结束数据上传流程，并发布到专题，供消费者拉取消费。0011本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现。本发明所述的方法，其特点是数据存储转发引擎消费数据处理流程如下（1）引擎获取消费者连接，接收消费者拉取数据的请求；该请求中包括消费者要消费的专题项信息、段文件起。

15、始地址、内部数据偏移量等；（2）引擎从页面缓存中直接将数据转递到SOCKET缓存，发送给消费者；（3）段文件中的每条数据都会有一个递增的唯一ID标识；SLAVE服务器会定期向MASTER发送最大标识ID，询问MASTER是否需要同步数据，MASTER收到标识后会给出应答，同步采用增量同步方式，每次同步的增量MASTER在应答中会告知SLAVE，SLAVE收到后就启动同步线程，执行同步；（4）每次消费者拉取的数据多少，引擎端不做任何的记录；需要消费者在本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。0012智能交通集成指挥平台分为以下五层用户界面。

16、层、应用层、数据集成层、网络层、设备层，参见图1。本发明主要完成数据存储转发引擎集群设计和实现。集群设计的目标是单个引擎功能设计如图2数据存储转发引擎功能图所示。本发明从对数据到达消费者的时效性要求的高低，将智能交通集成平台数据划分为两类实时消费数据和历史消费数说明书CN104320486A3/5页6据。为了实现统一设计，就要统一这两类数据处理方法。通常只要能满足消费实时数据要求，同时增加数据缓存队列保存历史数据，就可以满足消费历史数据要求。本发明采用集群的方式实现高稳定性、高性能。引擎集群能够自动感知集群新进引擎并上线提供服务。老引擎停止服务时通知生产者和消费者，重新选取引擎服务来处理数据。。

17、引擎中的数据由生产者推送过来，为了避免频繁的IO操作，生产者是按批次推送数据，引擎成批的接收数据，消费者成批的拉取数据。0013引擎为了提高数据转发、转储的效率，对数据内容不进行任何解析操作。生产者将数据格式化为统一结构（例如GOOGLEBUFFER、JSON等）然后序列化为标准文件流。标准化文件流就可以方便在网络层、引擎服务器、消费者之间进行传输，这种数据只有到达真正的使用者时才会被解析，反序列化出来。传输采用零拷贝技术，减少数据在用户空间缓存与内核空间缓存的拷贝。如图3零拷贝与传统发送数据流程对比图。0014在引擎服务器内存维护一张段文件索引表，存储每个段文件起始地址。持久化生产者发送的数。

18、据到引擎服务器段文件中，段文件采用FIFO队列组织。提供多个段文件在不同引擎服务器上的数据复本，保证持久化数据安全。0015每一个段文件多个复本分别存放在不同的物理服务器上，物理服务器会被划分为两类角色MASTER和SLAVE。MASTER负责段文件的写操作、并通知SLAVE数据同步；SLAVE负责向MASTER转发写操作，提供应用层读取服务。MASTER是采用PAXOS动态选举产生，一旦一个MASTER失效，会从SLAVE中重新选举一个MASTER,此算法需要段文件复本数大于2N1个。0016自动在引擎集群之间同步数据，保证所有消费者在任意一个引擎上看到的数据都是一致的。引擎向生产者提供发布。

19、数据专题接口，将专题关联到无限多个段文件上，从而保证专题内容可以横向扩展；通过不同专题向应用层提供不同协议类型的数据。协调生产者推送数据速度和消费者拉取数据速度，避免当消费者由于资源限制不能及时处理生产者发送数据，而引起消费者服务器资源耗尽的拒绝服务攻击。引擎提供数据访问连接池，生产者和消费者每次连接到引擎时会初始化连接池，当推送或拉取数据时会从连接池中优选一条连接传输数据。0017消费者保存当前的数据专题信息，包括专题中段文件的起始地址和段文件中已经读取数据的偏移量。每次读取都会根据当前偏移加上数据长度来拉取数据。由于数据读取偏移是记录在消费者，所以消费者通过回退偏移量，可以重新拉取以前使用。

20、的数据。这个特性可以保证历史上被错误处理的数据，可以在修复消费逻辑后重新处理一遍。在实际中如车流量数据在纠偏时采用算法得到进一步完善，就可以在实施新算法后采用回退机制重新获取一遍原始数据进行纠偏。当然历史数据保留期限可以在引擎上设置，引擎会自动清理过期数据，防止历史数据占满引擎存储空间。0018本发明是一种基于大数据的智能交通平台数据集成引擎，引擎提供给智能交通子系统统一的数据接入服务，能够支撑大规模数据不间断稳定传输。引擎通过集群设计和优化数据存取模式提高自身转发效率，能够提供实时数据转发和历史数据暂储功能，通过原生支持HDFS文件转储，实现对智能交通大数据分析、处理的支撑。附图说明说明书C。

21、N104320486A4/5页70019图1为基于大数据集成平台结构图；图2为数据存储转发引擎功能图；图3为零拷贝与传统发送数据流程对比图；图4为基于大数据与传统数据处理流程图对比图；图5为数据存储转发引擎生产数据处理流程图；图6为数据存储转发引擎消费数据处理流程图。具体实施方式0020以下参照附图，进一步地对本发明的技术方案进行描述，以使本领域技术人员进一步地理解本发明，而不构成对本发明权利的限制。0021实施例1，参照图13，一种基于大数据的智能交通平台数据集成方法，该方法将数据集成层部署在网络层和应用层之间；实现集成平台与子系统之间数据转发、数据暂存、数据转储功能；能够支持大数据应用；通。

22、过连接池形式提供生产者和消费者连接；引擎采用服务器集群提供数据服务，集群中有新服务器加入能够自动注册并上线运行，有服务器故障会通知客户端并清理连接池；引擎能够提供数据转发，数据持久化，向HDFS文件存储系统转储；数据被持久化为标准化流，保存到FIFO文件队列，同时在内存中维持一张文件头索引表；生产者向引擎推送数据，并发布数据专题；消费者是主动拉取引擎上数据专题内容，并自己记录已经拉取的数据位置；引擎向消费者发送其请求的数据时，采用零拷贝方法；据专题作为消费者识别数据类型的依据；数据专题可以和多个段文件进行关联，实现专题数据内容的横向扩展；每个段文件在多台服务器上有复本，从而保证数据文件安全。0。

23、022实施例2，实施例1所述的方法中段文件多个文件复本所在服务器被划分为MASTER和SLAVE两类角色，MASTER负责数据写操作、转发读操作、通知SLAVE进行数据同步；SLAVE负责转发写操作、与MASTER同步、提供读取服务；MASTER是从SLAVE中选举出来，在集群发现MASTER不能提供正常服务后会发起选举，SLAVE的数量必须满足2N1才能保证选举成功，选举采用FASTPAXOS算法。0023实施例3，实施例1所述的方法中该方法基于大数据的存储系统来设计数据接入层；从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储。

24、系统来存取，需要进一步处理的数据采用大数据处理方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。0024实施例4，如图4基于大数据与传统数据处理流程对比图所示，基于大数据的存储系统来设计数据接入层。从集成平台接入层就对数据进行了分类，实时数据直接分发到集成平台客户端显示；历史消费的数据由支持大数据处理的文件存储系统来存取，需要进一步处理的数据采用大数据处理技术和方法，将数据按需转换到不同的数据仓库中供集成平台调取；无需处理的数据直接按照原始的数据格式进行留存。图4中与传统方法相比，本设计避开数据转储的过程，将数据接入层直接与大数据存储层对接，实。

25、现了对大数据处理原生支持。减少数据处理流程，避免数据格式来回转换造成服务器资源开销，将有限服务器资源集中到集成平台上层更关注的大数据应用上。0025实施例5，实施例1所述的方法中如图5数据存储转发引擎生产数据处理流程说明书CN104320486A5/5页8图1引擎获取生产者连接，接收生产者发送的数据到临时队列。引擎会根据配置文件中设置的数据缓存长度或者缓存时长，检查接收到的数据量，达到配置文件要求时，会执行数据持久化操作。00262由于数据持久化是通过MASTER来完成，所以数据在持久化到段文件之前，引擎会判断该段文件所在的MASTER是否正常，如果正常则进行下一步写入段文件操作。否则转入MA。

26、STER选举流程。00273MASTER选举流程选用FASTPAXOS算法，该算法对参与选举的服务器数要求必须是2N1个。选举是由当前写入服务器发起，并由其统计每个SLAVE得票数，其他的SLAVE服务器负责投票，直到MASTER产生。00284MASTER产生后将负责把文件写入到段文件中，根据生产者要求将段文件关联到指定专题，同时在内存索引表中添加该段文件地址索引项。00295结束数据上传流程，并发布到专题，供消费者拉取消费。0030实施例6，实施例1所述的方法中如图6数据存储转发引擎消费数据处理流程图1引擎获取消费者连接，接收消费者拉取数据的请求。该请求中包括消费者要消费的专题项信息、段文。

27、件起始地址、内部数据偏移量等。00312引擎从页面缓存中直接将数据转递到SOCKET缓存，发送给消费者。00323段文件中的每条数据都会有一个递增的唯一ID标识。SLAVE服务器会定期向MASTER发送最大标识ID，询问MASTER是否需要同步数据，MASTER收到标识后会给出应答，同步采用增量同步方式，每次同步的增量MASTER在应答中会告知SLAVE，SLAVE收到后就启动同步线程，执行同步。00334每次消费者拉取的数据多少，引擎端不做任何的记录。需要消费者在本地记录已经读取的数据地址和偏移，当然消费者也可以通过修改地址和偏移的方式，重复读取引擎端的数据。0034以上实现了基于大数据智能交通平台数据集成引擎设计，本引擎能提供高性能的智能交通平台大数据接入服务，能够支撑智能交通平台大数据分析、处理的要求。说明书CN104320486A1/6页9图1说明书附图CN104320486A2/6页10图2说明书附图CN104320486A103/6页11图3说明书附图CN104320486A114/6页12图4说明书附图CN104320486A125/6页13图5说明书附图CN104320486A136/6页14图6说明书附图CN104320486A14。

展开阅读全文