一种基于数据挖掘的推送方法技术领域
本发明涉及数据处理技术领域,具体公开了一种基于数据挖掘的推送方法。
背景技术
近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大
数据可以大有作为的一个重要应用领域,大数据将给教育带来革命性的变化。
数据显示,移动互联网网民增速迅猛。全球PC、职能手机和平板电脑出货量规模对
比中,智能移动终端出货量超过了PC。可预见的未来,移动终端将成为主要的互联网入口。
同时,移动端便携式以及即时性的功能特点,也为数据的采集提供了便利条件。
着力于打造基于移动等智能终端教学系统,通过对海量规模的大数据的分析和挖
掘、用户行为的细分等,通过一系列的学习管理支撑策略,完成精准学习引导的支撑,进而
为学生获取丰富、即时、准确、个性化的学习资源提供必要的技术支撑,提高教学质量。然而
目前尚未有一个有效的,基于数据挖掘的,为在校学生推送丰富、即时、准确、个性化的教学
信息的方法。
发明内容
本发明意在提供一种基于数据挖掘的推送方法,以解决上述问题。
本方案中的一种基于数据挖掘的推送方法,包括:利用云计算平台将用户的学习
计划数据以及教学资源数据汇总;
从用户移动设备的各传感器收集原始数据;
对原始数据进行数据预处理并获得数据序列;
根据驻留点检测方式获得驻留点序列;
对所述驻留点序列进行聚类分析,得到地点历史序列;
对地点历史序列中的每一条数据进行教学资源搜索,并对地点历史进行标记;
根据数据序列、标记后的地点历史以及学习计划数据,匹配生成基于时间、位置以及教
学资源数据的消息推送给用户。
进一步,所述原始数据包括定位数据。
进一步,所述定位数据包括蜂窝塔三角定位数据、Wi-Fi 节点数据库查询数据和
GPS 定位数据。
进一步,所述根据各传感器的数据特点和能耗特点对原始数据进行数据预处理并
获得数据序列的步骤包括:对收集到的定位数据进行坐标变换;将变换后的坐标进行校内
地理标引;将用户ID、经纬度、时间戳、校内地理标引结果以及记录ID 写入数据库中。
进一步,所述学习计划数据,包括用户在学习周期开始时选定的课程,学生当前所
选课程的必须需技能、书籍、资料的列表。
进一步,所述教学资源数据,包括课程、课时安排、教师安排、教室安排、课程用图
书信息、当前可用座位,当前可用实验室资源。
本发明可以运行在大多数人每天都随身携带的智能手机上,具有较好的灵活性和
可移植性;从移动设备内置的各种传感器来收集原始数据,能够有效地对用户的行为模式
信息做出识别和推断,进而自动针对用户生成个性化的教学信息推送方案;该推送方案将
针对用户的行为轨迹进行相应的优化处理,除了可以针对用户已制定学习计划,还有根据
用户的行为模式信息针对性地生成基于时间、位置和各类教学资源的推送信息,且随着用
户行为模式的改变能够自适应地进行教学信息推送方案的调整,而不需额外的配置;并且,
该方案实现的软件可利用相应接口与系统内置提醒软件相互交互,使得生成的事务提醒能
够自动同步到用户的其他设备上,较为方便,用户体验好。
附图说明
图1为本发明实施例中数据挖掘的方法流程图;
图2为发明实施例方法所涉及到的软件基本架构示意图;
图3为定位数据的预处理过程的示意图;
图4为驻留点检测过程示意图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
移动设备中通常都内置有各种传感器,它们记录了大量的原始数据,有待从中发掘更
有价值的信息。目前,大量用户习惯于每天随身携带智能手机或平板电脑,其传感器数据很
好地记录了用户的行为模式。在本发明中,从移动设备中各传感器收集到的原始数据入手,
针对不同传感器的特点,建立相应的数据处理的模型。
首先对数据进行预处理,然后进行数据挖掘,从中提取用户与学校学习有关的行
为模式,进而可以利用获取的行为模式信息,再结合用户某段时间内的学习计划以及学校
自身的教学资源对用户有针对性推送各类教学信息。
本实施例用于目前绝大多数的移动智能终端,故具有较好的普适性。
软件为C-S 架构,在移动设备平台上开发客户端,在公有云平台上开发其服务器
端。首先,服务器端汇总用户的学习计划数据以及学校的教学数据资源数据;
软件由移动设备内置的GPS、加速计、陀螺仪、麦克风、距离感应等传感器收集信息,结
合进程监控获取用户信息并上传至服务器。
一方面,服务器端会根据用户在学习周期开始时选定的课程、用户当前所选课程
的必须需技能列表信息,以及与前两种信息相关的教学资源信息,向用户推送定制化的信
息,包括课程、课时安排、教师安排、教室安排、课程用图书信息、当前可用座位,当前可用实
验室资源等。
另一方面,服务器端综合分析所获得的信息,进化数据集的信息,不断靠近该用户
的行为模式,逐步训练后可以自动为用户生成基于时间、位置和各类教学资源的个性化推
送信息,并自动写入内置提醒软件。
图1是本发明实施例的数据挖掘的方法,如图1所示,该方法包括:
S101,从移动设备的各传感器收集原始数据;
S102,对原始数据进行数据预处理并获得数据序列;
S103,根据驻留点检测方式获得驻留点序列;
S104,对驻留点序列进行聚类分析,得到地点历史序列;
S105,对地点历史序列中的每一条数据进行教学资源搜索,并对地点历史进行标记;
如图2 所示,本发明实施例方法所涉及到的软件基本架构,在IOS操作系统的框架下
为:
服务器负责持久保存用户数据,以便用户方便地使用不同设备进行数据收集;
CoreMotion
框架负责获取用户的加速度计、陀螺仪和电子罗盘等传感器的数据;CoreLocation 框
架负责从蜂窝塔、Wi-Fi 接入点以及GPS 卫星来获取用户的位置数据;ShareKit 框架获取
用户社
交网络账户发送的文本信息并上传至SAE 服务器进行保存。当收集到足够量的数据
后,客
户端请求下载数据后在本地进行处理和分析。
在S101 中,IOS操作系统的智能手机采用CoreLocation 框架收集定位数据,定位
数据包括蜂窝塔三角定位数据、Wi-Fi 节点数据库查询数据和GPS 定位数据。根据不同的
环境情况使用这三种方式中的一种或几种,从而在保证较高精度的同时。通过CoreMotion
框架还可以收集来自加速度计、陀螺仪、电子罗盘等传感器的运动状态原始数据。
在本发明实施例中,定位数据的预处理过程如图3所示,首先对收集到的定位原始
数据进行坐标变换;然后将变换后的坐标进行校内地理标引,用以辅助判断;最后,将用户
ID、经纬度、时间戳、校内地理标引结果以及记录ID 写入数据库中。下面将具体针对其中的
详细进行阐述。
具体实施中,将GPS 收集到的地理坐标数据记为(latitude,longitude)。由于该
数据是基于WGS-84 坐标系的,而需要依照国家测绘局对地理坐标信息进行非线性加偏处
理,以符合国测局的加密标准算法。变换后的坐标系为GCJ-02 坐标系(Guojia CehuiJu-
02Coordinate System),将变换后的坐标记为(latitude’,longitude’) ;对变换后的坐标
(latitude’,longitude’)进行校内地理标引,从而得到更加丰富的信息,如该坐标位置所
属的教室号,教学楼记为(roomno,building),类似的标引还可以是校内道路、操场等;这些
信息对后期数据的分析以及对用户位置的判断起到辅助的作用;并将用户ID、变换后的经
纬度、时间戳、校内地理标引结果连同记录ID一同写入数据库。
本实施里中智能手机每10秒更新一次原始数据;
在获取一次用户位置更新后就立即请求服务器对经纬度进行坐标变换。每条记录包含
记录ID、用户ID、变换后的经纬度、时间戳和校内地理标引等数据。在服务器端建立了包含
用户信息表和数据记录表的数据库,用以存储用户的相关信息。
下面对S103 进一步阐述。
在本发明实施例中,对驻留点(Stay Point)探测算法进行了改进,使其在单个用
户多天传感器数据处理的场景中能够有效地对用户不同日期的传感器数据序列一次性地
进行处理。图4为驻留点检测过程示意图。
本发明实施例中,实现了适用于单用户多天数据的驻留点(Stay Point)检测算
法,以便对多天的数据一次性进行处理。改进的驻留点监测算法的输入为地理坐标信息,输
出为驻留点坐标和相应的时间戳,将驻留点序列信息存入终端的本地文件。考虑在实际情
况中,用户收集全天数据通常始于早上起床,终止于晚上睡觉前关机之时。在原始的驻留点
检测中,如果移动设备采集到的最后的数据点正是用户到家之时,那么由于用户没有超出
该算法中的距离阈值,故最后的一个驻留点将丢失。在驻留点的检测过程中,对不同日期的
数据进行区分,并对数据序列中最后是否存在驻留点进行了单独判断,有效地避免了驻留
点数据的缺失。对变换后的地理坐标进行驻留点检测,进而生成驻留点序列。
下面对S104 进行详细阐述。
由于考虑的是单个用户的传感器数据的聚类分析,并不期望得到层次聚类结果,
且在本发明实施例所述的场景中,数据集合中的点有可能构成各种不规则的形状,数据中
也不可避免的会包含一些噪点。综合考虑这些问题以及计算量等方面的因素,这里采用适
合处理这些问题的DBSCAN 聚类(Density-Based Spatial Clustering of
Applicationswith Noise)算法对驻留点进行聚类分析,相当于对输入数据点进行了单一
层面的划分。
然而,由于该算法对各个维度采用的是同样的参数Epsilon 和MinimumPoints,故
需要对不同维度上的数据进行“归一化”处理,使得不同数据范围甚至是不同单位的数据能
够在相同的参数标准下进行有效地聚类分析。DBSCAN 聚类分析实际上对数据集中所有的
点实际上进行了一个划分,这些点要么属于算法生成的某一个簇,要么就为噪点。对DBSCAN
算法的输出结果进行了进一步处理,分别计算各个簇中的点的经度和纬度的平均值作为各
簇中心点坐标。对簇中各点按照记录中的时间戳进行排序,计算出簇中各点在数组中下标
中位数的点的标记,作为该簇中心点的标记。
对数据点在三个维度上进行聚类分析,这三个维度分别为经度(Latitude)、纬度
(Longitude)和到达时间(ArrivingTime)。由于时间信息并不是浮点类型,在此先进行了预
处理,定义特征值为,计算各点时间戳的特征值作为时间维度数值大小的考量。聚类后得到
各个聚类的中心和相应的时间戳信息,将其存入本地文件。
另外,S105 的具体实施过程如下:
首先,以各个驻留点变换后的GCJ-02 坐标为中心点,以其相应的时间戳和校内地理标
引和用户身份等信息为依据,相应的向服务器发起搜索请求,而服务器端得到当前校内地
理标引在相应时间段内对应的教学资源结果后,将结果异步的返回给客户端;客户端把搜
索结果的名称作为该驻留点的历史(Location History)的标记。
在发明实施例中,通过教学资源信息,来推断用户当前行为。结合用户信息(如所
学专业、入学时间以及学习周期开始时选定的课程、当前所选课程的必须需技能列表等),
在推断用户行为时采用不同的策略,从而提高再次推断行为时的准确度,使得自动生成的
推送信息更为准确。
下面结合本发明实施例所提供的方法对几个潜在的应用场景进行说明。
A.基于学习计划的定制化信息推送和自动事务提醒的生成
当用户在学习周期开始时,制定好了课程表等学习计划上传后,服务器根据课程表内
的时间节点(包括作业/报告上交的节点)、教室安排等信息自动生成提醒信息上传Apple服
务器从而在用户的不同设备内实现自动同步。
服务器在收到课程表内的某课程安排变化的信息后,会推送信息给用户,提醒客
户注意,同时修改之前上传给Apple服务器的提醒信息。
B.基于时间和地点的信息推送和自动事务提醒的生成
采用EventKit 框架与iOS 系统内置的Reminders软进行交互。根据用户信息为用户制
定相应的提醒内容;建立推理规则库,其判别依据包括数据点的时间戳信息、反向地理编码
信息、用户专业信息等各类以分析得到的信息。
例如,如果用户路过图书馆,可以在该用户到达图书馆附近时,提醒他借阅课程内
所需书籍、资料,并从教学资源数据库内调出书籍编号,可用;借阅后,该借阅信息会被服务
器记录并自动的生成归还提醒上传到Apple 服务器,从而在用户的不同设备内实现自动同
步。
C.个性化的课程/可用资源推送服务
可以通过分析用户的传感器数据,从而获取用户的行为习惯和个人爱好,比如说某用
户有在课余时间去图书馆看书的习惯,可以根据这些信息来更有针对性地制定并推送图书
馆的新书、新期刊信息。
又如,某用户喜欢在课余时间参加各类培训/报告会,或是其课程要求掌握某些技
能,可以根据这些信息来更有针对性地制定并推送校内或附近最新开设的相关技能培训课
程/报告会的信息。
再如,客户习惯于去学校公用计算机房/院系计算机室,可以根据用户的习惯,在
某时间段给客户推荐某些有空位置的计算机房/室,以及用户是否有这些计算机房/室的使
用权限。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作
过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的
普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手
段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施
本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请
的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作
出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效
果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具
体实施方式等记载可以用于解释权利要求的内容。