《一种具有智能检测功能的数据处理方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种具有智能检测功能的数据处理方法及系统.pdf(20页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104133839A43申请公布日20141105CN104133839A21申请号201410291108022申请日20140624G06F17/3020060171申请人国家电网公司地址100031北京市西城区西长安街86号申请人国网山东省电力公司电力科学研究院山东亿云信息技术有限公司72发明人吴观斌李红梅李勇许乃媛陈素红傅蓬王慧慧74专利代理机构济南圣达知识产权代理有限公司37221代理人张勇54发明名称一种具有智能检测功能的数据处理方法及系统57摘要本发明公开了一种具有智能检测功能的数据处理方法及系统,步骤一采集申报项目的数据;步骤二读取项目申报库主数据表及各子数据。
2、表中数据,判断数据是否符合要求;步骤三将步骤二中符合要求的项目数据从项目申报数据库同步到评审数据库;对符合要求的项目进行三次次筛选,将存储在评审数据库中的第三缓存区中的最终获奖项目的数据输出。数据判断优势在于系统自动提取查重因素,进行复杂匹配计算,减少人为因素,提高查重结果的正确性,减轻工作人员工作量,极大提高工作效率。51INTCL权利要求书4页说明书12页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书12页附图3页10申请公布号CN104133839ACN104133839A1/4页21一种具有智能检测功能的数据处理方法,其特征是,包括如下步骤步骤一通过JS脚。
3、本自动检测当前用户使用浏览器版本,对于非IE系列浏览器给予提示,并关闭;检测使用浏览器符合要求即进入系统进行数据采集;步骤二将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库,采集的申报项目的数据信息存储到网络服务器的缓存区,主计算机调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区;采集的图片、WORD和PDF文档数据以文件形式存储至主计算机的第二缓存区,将文档相对路径存储至项目申报数据库附件子数据表中;步骤三主计算机读取第一缓存区中的申报项目的信息,判断数据是否符合要求;对于图片文档,利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档,利用。
4、图像识别模块读取图片文档内容,识别完成人笔迹与笔迹特征库进行比对,完成单位盖章与完成单位数据表完成单位名称是否相符,如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四,如果不符合就返回步骤二;步骤四将步骤三中符合要求的项目数据从项目申报数据库同步到评审数据库,该同步过程采取单向同步;对评审数据库的申报信息进行三次筛选,并将最终数据输出在服务器的浏览页面上;所述步骤二中具体为将与项目直接相关的数据存储到项目申报库主数据表中,每条数据对应唯一项目编号,与项目间接相关的数据存储到项目申报库各子数据表中,子数据表中将唯一项目编号设置为外键与主数据表关联;申报数据库。
5、的子数据表中还存储有历史项目申报信息。2如权利要求1所述一种具有智能检测功能的数据处理方法,其特征是,所述步骤二中,对项目申报库各子数据表存储的数据进行分词或者直接匹配,利用判断模块判断当前的申报项目的信息是否为项目名称或论文论著名称,如果是就进入关键词比较模块,如果不是,再进行判断是否为项目的完成人姓名及身份证号或知识产权号,如果是,则进入直接匹配模块;利用关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复;利用直接匹配模块将当前的申报项目的信息项目的完成人姓名及身份。
6、证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配,如果相同判定重复,否则不重复;利用存储模块将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区,将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。3如权利要求2所述一种具有智能检测功能的数据处理方法,其特征是,所述关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复,具体过程为权利要求书CN104133839A2/4页3利用关键词。
7、提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,将分解出的关键词分别存储到主计算机中项目申报数据库对应的两个数组中;利用关键词匹配模块对项目申报数据库对应的两个数组中的关键词进行遍历循环比较,得出相同关键词数及各组关键词数;根据相似度模块得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度,将该相似度与设定值比较,如果相似度不低于设定值,判定重复,否则不重复;所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,采用SHOOTSEARCH组件分词;所述相似度模块具体用于比较项目申报数据库对应的两个数组中关键词数大小。
8、,取出较小关键词数,用相同关键词数除以较小关键词数得出相似度。4如权利要求1所述一种具有智能检测功能的数据处理方法,其特征是,所述步骤三中对评审数据库的申报信息进行三次筛选,具体为对符合要求的评审数据库中的项目进行第一次筛选,根据项目信息遴选对应的网络评审专家,通过网络评审对同步到评审数据库中的数据进行筛选;将筛选出的申报项目数据存储到评审数据库中的第三缓存区;对存储到第三缓存区中的申报项目数据进行第二次筛选;根据项目信息遴选资深专家,对第一次筛选取出的数据进行专家投票,从投票结果中取出初步获奖项目,将初步获奖项目的数据存储到评审数据库中的第四缓存区;对存储到第四缓存区中的申报项目数据进行第三。
9、次筛选;根据项目信息遴选科技委员会专家,对第二次筛选中取出的数据进行专家审核,从审核结果中取出最终获奖项目,将最终获奖项目存储到评审数据库中的第五缓存区。5如权利要求1所述一种具有智能检测功能的数据处理方法,其特征是,所述三次筛选中,专家的遴选的过程具体为S1将科技项目学科信息以数据集A的形式存储在评审数据库的子数据表中,评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息;S2在数据集B中选取专家学科信息并作为条件因素,判断该专家学科信息的条件因素是否为一级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目学科信息的关键因素匹配,遍历专家学科信息中的条件因素是否包含关键。
10、因素,如果包含则匹配,并进入步骤S5,否则不匹配,进入步S3;S3判断该专家信息的条件因素是否为二级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,进入步骤S5,否则不匹配,进入步骤S4;S4判断该专家信息的条件因素是否为三级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,进入S5,否则不匹配;S5从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量,并将取出的数据存储至评审数据库。6如权利要求1所述一。
11、种具有智能检测功能的数据处理系统,其特征是,包括权利要求书CN104133839A3/4页4系统校验模块,用于通过JS脚本自动检测当前用户使用浏览器版本,对于非IE系列浏览器给予提示,并关闭;检测使用浏览器符合要求即进入系统进行数据采集;远程数据采集终端,用于将采集的申报项目的数据信息存储到网络服务器的缓存区,将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库;主计算机,用于调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区;采集的图片、WORD和PDF文档数据以文件形式存储至主计算机的第二缓存区,将文档相对路径存储至项目申报数据库附件子数据表中;查重判断模块,用于。
12、根据主计算机读取第一缓存区中的申报项目的信息,判断数据是否符合要求;对于图片文档,利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档,利用图像识别模块读取图片文档内容,识别完成人笔迹与笔迹特征库进行比对,完成单位盖章与完成单位数据表完成单位名称是否相符,如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入筛选模块,如果不符合就重新采集数据;输出模块,用于将符合要求的项目数据从项目申报数据库同步到评审数据库;对评审数据库的申报信息进行三次筛选,并将最终数据输出在服务器的浏览页面上;所述数据处理系统还包括数据分配模块,具体用于将与项目直接相关的数。
13、据存储到项目申报库主数据表中,与项目间接相关的数据存储到项目申报库各子数据表中,子数据表之间通过项目主键关联;申报数据库的子数据表中还存储有历史项目申报信息。7如权利要求6所述一种具有智能检测功能的数据处理系统,其特征是,所述查重判断模块中,具体还包括选择模块,选择模块用于对主计算机读取第一缓存区中的项目申报库各子数据表存储的数据进行分词或者直接匹配,利用判断当前的申报项目的信息是否为项目名称或论文论著名称,如果是就进入关键词比较模块,如果不是,再进行判断是否为项目的完成人姓名及身份证号或知识产权号,如果是,则进入直接匹配模块;关键词比较模块,用于将当前的申报项目的信息的项目名称或论文论著名称。
14、与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复;直接匹配模块,用于将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配,如果相同判定重复,否则不重复;存储模块,用于将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区,将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。8如权利要求7所述一种具有智能检测功能的数据处理系统,其特征是,所述关键词比较模块,具体包括关键词提取模块,用于取出当前申报项目。
15、的信息及历史项目申报信息中的一个,对取出的信息进行分词,将分解出的关键词分别存储到主计算机中项目申报数据库对应的两个数组中;相似度模块,用于得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度,将该相似度与设定值比较,如果相似度不低于设定值,判定重复,否则不重复;权利要求书CN104133839A4/4页5所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,采用SHOOTSEARCH组件分词;所述相似度模块具体用于比较项目申报数据库对应的两个数组中关键词数大小,取出较小关键词数,用相同关键词数除以较小关键词数得出相似度。9如权利要求6所述一种具。
16、有智能检测功能的数据处理系统,其特征是,所述筛选模块包括一次筛选模块、二次筛选模块及三次筛选模块,所述一次筛选模块用于对符合要求的项目进行第一次筛选,根据项目信息遴选对应的网络评审专家,通过网络评审对同步到评审数据库中的数据进行筛选;将筛选出的申报项目数据存储到评审数据库中的第三缓存区;所述二次筛选模块用于对存储到第三缓存区中的申报项目数据进行第二次筛选;根据项目信息遴选资深专家,对一次筛选模块中取出的数据进行专家投票,从投票结果中取出初步获奖项目,将初步获奖项目的数据存储到评审数据库中的第四缓存区;所述三次筛选模块用于对存储到第四缓存区中的申报项目数据进行数据第三次筛选;根据项目信息遴选科技。
17、委员会专家,对二次筛选模块中取出的数据进行专家审核,从审核结果中取出最终获奖项目,将最终获奖项目存储到评审数据库中的第五缓存区;将存储在评审数据库中的第五缓存区中的最终获奖项目的数据输出。10如权利要求6所述一种具有智能检测功能的数据处理系统,其特征是,所述筛选模块,具体包括筛选存储模块,用于调用科技项目学科信息并以数据集A的形式存储在评审数据库的子数据表中,评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息;一级学科提取模块,用于在数据集B中选取专家学科信息并作为条件因素,判断该专家学科信息的条件因素是否为一级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目学科信息。
18、的关键因素匹配,遍历专家学科信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;二级学科提取模块,用于判断该专家信息的条件因素是否为二级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;三级学科提取模块,用于判断该专家信息的条件因素是否为三级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;随机数据生成模块,用于从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量,并将取出。
19、的数据存储至评审数据库。权利要求书CN104133839A1/12页6一种具有智能检测功能的数据处理方法及系统技术领域0001本发明涉及一种具有智能检测功能的数据处理方法及系统。背景技术0002目前的科技奖励管理项目在数据处理上具有以下缺点0003科技奖励管理项目的数据量大,每年都有大量的数据需要处理,在处理的过程中,数据的筛选不够合理,另外,现有的系统缺乏自动查重、自动处理的功能。0004大量、繁琐数据的筛选难度大,处理过程不够合理,原有系统对数据进行一次筛选,筛选依据单一,人为干预因素多,缺乏公平合理性。人工处理数据工作量大、效率低,原有系统需要人工进行数据的查阅比对,工作效率低,任务繁重。
20、。0005在申报科技奖励时,填报的申报材料较多,当申报材料填写的为项目名称或论文论著名称时及项目完成人及专利文献时,需要根据名称判断是否存在重复申请的嫌疑,目前,该工作均是通过人为识别,由于申报数据的量大,人为识别精确度不够。发明内容0006本发明的目的就是为了解决上述问题,提供一种项目申报数据处理方法及系统,本发明的数据判断优势在于系统自动提取查重因素,进行复杂匹配计算,减少人为因素,提高查重结果的公正和正确性,减轻工作人员工作量,极大提高工作效率。0007为了实现上述目的,本发明采用如下技术方案0008一种具有智能检测功能的数据处理方法,包括如下步骤0009步骤一通过JS脚本自动检测当前用。
21、户使用浏览器版本,对于非IE系列浏览器给予提示,并关闭;检测使用浏览器符合要求即进入系统进行数据采集;0010步骤二将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库,采集的申报项目的数据信息存储到网络服务器的缓存区,主计算机调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区;采集的图片、WORD和PDF文档数据以文件形式存储至主计算机的第二缓存区,将文档相对路径存储至项目申报数据库附件子数据表中;0011步骤三主计算机读取第一缓存区中的申报项目的信息,判断数据是否符合要求;对于图片文档,利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档,利用。
22、图像识别模块读取图片文档内容,识别完成人笔迹与笔迹特征库进行比对,完成单位盖章与完成单位数据表完成单位名称是否相符,如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四,如果不符合就返回步骤二;0012步骤四将步骤三中符合要求的项目数据从项目申报数据库同步到评审数据库,该同步过程采取单向同步;对评审数据库的申报信息进行三次筛选,并将最终数据输出在服务器的浏览页面上。说明书CN104133839A2/12页70013所述步骤二中具体为将与项目直接相关的数据存储到项目申报库主数据表中,每条数据对应唯一项目编号,与项目间接相关的数据存储到项目申报库各子数据表中,子。
23、数据表中将唯一项目编号设置为外键与主数据表关联;申报数据库的子数据表中还存储有历史项目申报信息。0014所述直接相关的数据包括项目基本信息;间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件;0015所述项目基本信息包括项目名称、项目学科、技术领域、项目来源及所属国民经济行业等;所述知识产权包括专利申请号、专利名称、发明人和专利授权日;所述完成人包括完成人的姓名、身份证号和完成人顺序。所述步骤一中数据存储形式包括数据表、图片、WORD文档及PDF文档。存储为不同格式数据,数据表便于查询、统计,图片及PDF文。
24、档确保数据真实性,WORD文档为了便于保持数据原有格式,便于查看。0016所述步骤三中,对项目申报库各子数据表存储的数据进行分词或者直接匹配,利用判断模块判断当前的申报项目的信息是否为项目名称或论文论著名称,如果是就进入关键词比较模块,如果不是,再进行判断是否为项目的完成人姓名及身份证号或知识产权号,如果是,则进入直接匹配模块。0017利用关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复;0018利用直接匹配模块将当前的申报项目的信息项目的完成人姓名及身份证号或知识产。
25、权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配,如果相同判定重复,否则不重复;0019利用存储模块将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区,将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。0020所述关键词比较模块将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复,具体过程为0021利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,将分解出的关键词。
26、分别存储到主计算机中项目申报数据库对应的两个数组中;0022利用关键词匹配模块对项目申报数据库对应的两个数组中的关键词进行遍历循环比较,得出相同关键词数及各组关键词数;0023根据相似度模块得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度,将该相似度与设定值比较,如果相似度不低于设定值,判定重复,否则不重复。0024所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,采用SHOOTSEARCH组件分词。0025所述相似度模块具体用于比较项目申报数据库对应的两个数组中关键词数大小,取出较小关键词数,用相同关键词数除以较小关键词数得出相似度。说。
27、明书CN104133839A3/12页80026所述利用直接匹配模块将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产权号直接进行匹配,具体为0027将远程数据采集终端采集的申报项目的信息与申报数据库的子数据表中历史项目申报信息直接进行遍历循环匹配,判断是否匹配,如果匹配,则判定重复,否则,不重复。0028所述申报项目的信息包括项目名称、论文论著名称、项目的完成人姓名及身份证号及知识产权号,历史项目申报信息包括当前年度其他项目或近三年所有项目中的项目名称、论文论著名称、项目的完成人姓名及身份证号及知识产权号。知识产权。
28、号为专利申请号或者专利公开号。0029用相似度计算方式查重,是为了更大程度上查询出重复项目,避免重新组合项目重复申报;所述分词的数据包括项目名称和论文论著名称;所述直接匹配的数据包括完成人的姓名及身份证号和知识产权号。数据查重是整个科技奖励系统中的重要环节,数据处理过程复杂,处理手段不同。针对不同数据采取不同方式查重,是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识,不存在组合的可能。项目名称及论文论著名称可分解重组,进行分词计算相似度可更精确的查询重复项目。0030所述步骤三中对评审数据库的申报信息进行三次筛选,具体为0031对符合要求的评审数据库中的项目进行第一次筛选,根据项。
29、目信息遴选对应的网络评审专家,通过网络评审对同步到评审数据库中的数据进行筛选;将筛选出的申报项目数据存储到评审数据库中的第三缓存区;0032对存储到第三缓存区中的申报项目数据进行第二次筛选;根据项目信息遴选资深专家,对第一次筛选取出的数据进行专家投票,从投票结果中取出初步获奖项目,将初步获奖项目的数据存储到评审数据库中的第四缓存区;0033对存储到第四缓存区中的申报项目数据进行第三次筛选;根据项目信息遴选科技委员会专家,对第二次筛选中取出的数据进行专家审核,从审核结果中取出最终获奖项目,将最终获奖项目存储到评审数据库中的第五缓存区。0034在筛选时,设置评分指标的权重,遴选专家,对同步的数据进。
30、行专家评分,依据权重对专家评分进行加和得到项目得分,依据项目得分从高到低进行排序,从排序结果中取出设定数目的项目。投票包括一等奖、二等奖、三等奖和不评奖。审核包括有异议和无异议。0035所述三次筛选中,专家的遴选的过程具体为0036S1将科技项目学科信息以数据集A的形式存储在评审数据库的子数据表中,评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息;0037S2在数据集B中选取专家学科信息并作为条件因素,判断该专家学科信息的条件因素是否为一级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目学科信息的关键因素匹配,遍历专家学科信息中的条件因素是否包含关键因素,如果包含则。
31、匹配,并进入步骤S5,否则不匹配,进入步S3;0038S3判断该专家信息的条件因素是否为二级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,进入步骤S5,否则不匹配,进入步骤S4;说明书CN104133839A4/12页90039S4判断该专家信息的条件因素是否为三级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,进入S5,否则不匹配;0040S5从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量,并。
32、将取出的数据存储至评审数据库;0041所述步骤S5具体为,根据RANDOM随机函数返回的零到指定数目的随机数,选取数据,直到选够指定数目。0042三次筛选是不同的,对数据的评价不同,第一次筛选是打分、第二次筛选是投票分等级、第三次筛选是投票表决。但是三次筛选中专家遴选的过程是相同的。筛选出的数据输出,输出形式为WORD格式文档。WORD格式文档输出,便于用户自行调整数据格式。0043一种具有智能检测功能的数据处理系统,包括系统校验模块,用于通过JS脚本自动检测当前用户使用浏览器版本,对于非IE系列浏览器给予提示,并关闭;检测使用浏览器符合要求即进入系统进行数据采集;0044远程数据采集终端,用。
33、于将采集的申报项目的数据信息存储到网络服务器的缓存区,将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库;0045主计算机,用于调用网络服务器的缓存区的申报项目的数据信息并存储到主计算机的第一缓存区;采集的图片、WORD和PDF文档数据以文件形式存储至主计算机的第二缓存区,将文档相对路径存储至项目申报数据库附件子数据表中;0046查重判断模块,用于根据主计算机读取第一缓存区中的申报项目的信息,判断数据是否符合要求;对于图片文档,利用项目申报数据库附件子数据表中文档路径调用主计算机的第二缓存区图片文档,利用图像识别模块读取图片文档内容,识别完成人笔迹与笔迹特征库进行比对,完成单位盖章与完。
34、成单位数据表完成单位名称是否相符,如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入筛选模块,如果不符合就重新采集数据;0047输出模块,用于将符合要求的项目数据从项目申报数据库同步到评审数据库;对评审数据库的申报信息进行三次筛选,并将最终数据输出在服务器的浏览页面上。0048所述数据处理系统还包括数据分配模块,具体用于将与项目直接相关的数据存储到项目申报库主数据表中,与项目间接相关的数据存储到项目申报库各子数据表中,子数据表之间通过项目主键关联;申报数据库的子数据表中还存储有历史项目申报信息。0049所述查重判断模块中,具体还包括选择模块,选择模块用于对主计算。
35、机读取第一缓存区中的项目申报库各子数据表存储的数据进行分词或者直接匹配,利用判断当前的申报项目的信息是否为项目名称或论文论著名称,如果是就进入关键词比较模块,如果不是,再进行判断是否为项目的完成人姓名及身份证号或知识产权号,如果是,则进入直接匹配模块;0050关键词比较模块,用于将当前的申报项目的信息的项目名称或论文论著名称与历史项目申报信息中的另一申报项目的项目名称或论文论著名称的关键词比较,如果相似度不低于设定值,判定重复,否则不重复;0051直接匹配模块,用于将当前的申报项目的信息项目的完成人姓名及身份证号或知识产权号与历史项目申报信息中的另一申报项目的项目完成人姓名及身份证号或知识产说。
36、明书CN104133839A5/12页10权号直接进行匹配,如果相同判定重复,否则不重复;0052存储模块,用于将关键词比较模块及直接匹配模块判定不重复申报项目的信息存储到主计算机的缓存区,将判定重复的申报项目的信息存储到主计算机中的项目申报数据库查重表中。0053所述关键词比较模块,具体包括0054关键词提取模块,用于取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,将分解出的关键词分别存储到主计算机中项目申报数据库对应的两个数组中;0055相似度模块,用于得出当前申报项目的信息与历史项目申报信息中的项目信息的相似度,将该相似度与设定值比较,如果相似度不低于设定值,判定。
37、重复,否则不重复。0056所述利用关键词提取模块取出当前申报项目的信息及历史项目申报信息中的一个,对取出的信息进行分词,采用SHOOTSEARCH组件分词。0057所述相似度模块具体用于比较项目申报数据库对应的两个数组中关键词数大小,取出较小关键词数,用相同关键词数除以较小关键词数得出相似度。0058所述直接匹配模块,具体包括0059匹配模块,用于将远程数据采集终端采集的申报项目的信息与申报数据库的子数据表中历史项目申报信息直接进行遍历循环匹配,判断是否匹配,如果匹配,则判定重复,否则,不重复。0060所述筛选模块,具体包括0061筛选存储模块,用于调用科技项目学科信息并以数据集A的形式存储在。
38、评审数据库的子数据表中,评审数据库的子数据表中还存储有以数据集B的形式存储的专家学科信息;0062一级学科提取模块,用于在数据集B中选取专家学科信息并作为条件因素,判断该专家学科信息的条件因素是否为一级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目学科信息的关键因素匹配,遍历专家学科信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;0063二级学科提取模块,用于判断该专家信息的条件因素是否为二级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;0064三级学科提取模块,。
39、用于判断该专家信息的条件因素是否为三级学科,如果是,则将该条件因素与以数据集A的形式存储的科技项目信息的关键因素匹配,遍历专家信息中的条件因素是否包含关键因素,如果包含则匹配,否则不匹配;0065随机数据生成模块,用于从存储的专家学科信息的数据集B中随机选取与科技项目相匹配的专家数量,并将取出的数据存储至评审数据库;0066所述随机数据生成模块具体为,根据RANDOM随机函数返回的零到指定数目的随机数,选取数据,直到选够指定数目。0067所述筛选模块包括一次筛选模块、二次筛选模块及三次筛选模块,所述一次筛选模块用于对符合要求的项目进行第一次筛选,根据项目信息遴选对应的网络评审专家,通过网络评审。
40、对同步到评审数据库中的数据进行筛选;将筛选出的申报项目数据存储到评审说明书CN104133839A106/12页11数据库中的第三缓存区;0068所述二次筛选模块用于对存储到第三缓存区中的申报项目数据进行第二次筛选;根据项目信息遴选资深专家,对一次筛选模块中取出的数据进行专家投票,从投票结果中取出初步获奖项目,将初步获奖项目的数据存储到评审数据库中的第四缓存区;0069所述三次筛选模块用于对存储到第四缓存区中的申报项目数据进行数据第三次筛选;根据项目信息遴选科技委员会专家,对二次筛选模块中取出的数据进行专家审核,从审核结果中取出最终获奖项目,将最终获奖项目存储到评审数据库中的第五缓存区;将存储。
41、在评审数据库中的第五缓存区中的最终获奖项目的数据输出。0070直接相关的数据包括项目基本信息;间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件;采集数据包括项目基本信息、项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件;所述项目基本信息包括项目名称、项目学科、技术领域、项目来源及所属国民经济行业等;所述知识产权包括知识产权号、知识产权名称、知识产权人和知识产权取得时间;所述完成人包括完成人的姓名、身份证号和完成人顺序。0071所述项目。
42、采集模块中数据存储形式包括数据表、图片、WORD文档及PDF文档,存储为不同格式数据,数据表便于查询、统计,图片及PDF文档确保数据真实性,WORD文档为了便于保持数据原有格式,便于查看。0072所述一次筛选模块、二次筛选模块和三次筛选模块是不同的,对数据的评价不同,一次筛选模块用于打分、二次筛选模块用于投票分等级、三次筛选模块用于投票表决。但是一次筛选模块、二次筛选模块和三次筛选模块中专家遴选的过程是相同的。0073本发明的有益效果0074数据判断优势在于系统自动提取查重因素,进行复杂匹配计算,减少人为因素,提高查重结果的公正和正确性,减轻工作人员工作量,极大提高工作效率。数据查重是整个科技。
43、奖励系统中的重要环节,数据处理过程复杂,处理手段不同。针对不同数据采取不同方式查重,是避免误查和漏查。完成人姓名及身份证号及知识产权号是完整的标识,不存在组合的可能。项目名称及论文论著名称可分解重组,进行分词计算相似度可更精确的查询重复项目。0075通过网络评审进行数据筛选的优势,减少工作成本,筛选过程减少其他因素的干扰使筛选更客观。专家遴选优势是随机选取专家且依据项目学科与专家学科关联,使专家遴选公平公正、专家更具针对性,评审结果质量更高。附图说明0076图1为本发明的主流程示意图;0077图2为本发明的数据判断流程示意图;0078图3本发明的数据判断关键词比较流程示意图;0079图4为本发。
44、明的数据判断直接匹配流程示意图;0080图5为本发明的专家遴选流程示意图。说明书CN104133839A117/12页12具体实施方式0081下面结合附图与实施例对本发明作进一步说明。0082如图1所示,一种具有智能检测功能的数据处理方法,包括如下步骤0083步骤一系统检测,使用浏览器打开网站,通过JS脚本自动检测当前用户使用浏览器版本,对于非IE系列浏览器给予提示,并关闭;检测使用浏览器符合要求即进入系统进行数据采集;0084步骤二采集申报项目的数据;将远程数据采集终端通过手写板采集完成人笔迹存储至笔迹特征库,将采集的与项目直接相关的数据存储到项目申报库主数据表中,每条数据对应唯一项目编号,。
45、与项目间接相关的数据存储到项目申报库各子数据表中,子数据表中设置项目编号作为外键与主数据表关联;采集的图片、WORD和PDF文档数据以文件形式存储至服务器缓存区,将文档相对路径存储至项目申报库附件子数据表中;0085步骤三读取项目申报库主数据表及各子数据表中数据,判断数据是否符合要求;对于图片文档,利用项目申报库附件子数据表中文档路径调用服务器缓存区图片文档,利用图像识别模块读取图片文档内容,识别完成人笔迹与笔迹特征库进行比对,完成单位盖章与完成单位数据表完成单位名称是否相符,如果笔迹特征库中笔迹信息、项目申报数据表中申报项目的信息及图片文档均符合要求就进入步骤四,如果不符合就返回步骤二;00。
46、86步骤四将步骤二中符合要求的项目数据从项目申报数据库同步到评审数据库,该同步过程为单向同步;0087步骤五对符合要求的项目进行多次筛选,根据项目信息遴选对应的网络评审专家,通过网络评审对同步到评审数据库中的数据进行筛选;将筛选出的申报项目数据存储到评审数据库中的第一缓存区;对存储到第一缓存区中的申报项目数据进行第二次筛选;根据项目信息遴选资深专家,对步骤四中取出的数据进行专家投票,从投票结果中取出初步获奖项目,将初步获奖项目的数据存储到评审数据库中的第二缓存区;对存储到第二缓存区中的申报项目数据进行数据第三次筛选;根据项目信息遴选科技委员会专家,对步骤五中取出的数据进行专家审核,从审核结果中。
47、取出最终获奖项目,将最终获奖项目存储到评审数据库中的第三缓存区;0088步骤六将存储在评审数据库中的第三缓存区中的最终获奖项目的数据输出。0089所述步骤二中,直接相关的数据包括项目基本信息;0090间接相关的数据包括项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件;0091采集数据包括项目基本信息、项目简介、主要科技创新、第三方评价、社会经济效益、曾获科技奖励、完成人、完成单位、推荐单位意见、知识产权、论文论著及附件;0092所述项目基本信息包括项目名称、项目学科、技术领域、项目来源及所属国民经济行业等;0093所述知识。
48、产权包括知识产权号、知识产权名称、知识产权人和知识产权取得时间;0094所述完成人包括完成人的姓名、身份证号和完成人顺序。0095所述步骤二中数据存储形式包括数据表、图片、WORD文档及PDF文档,存储为不同格式数据,数据表便于查询、统计,图片及PDF文档确保数据真实性,WORD文档为了便于说明书CN104133839A128/12页13保持数据原有格式,便于查看。0096所述步骤三中,对步骤二中存储的数据进行分词或者直接匹配,计算相似度,如果相似度低于设定值,就判断为符合要求,否则,判断为不符合要求。用相似度计算方式查重,是为了更大程度上查询出重复项目,避免重新组合项目重复申报;所述分词的数。
49、据包括项目名称和论文论著名称;所述直接匹配的数据包括完成人的姓名及身份证号和知识产权号。0097所述步骤五中具体过程为设置评分指标的权重,遴选专家,对步骤三中同步的数据进行专家评分,依据权重对专家评分进行加和得到项目得分,依据项目得分从高到低进行排序,从排序结果中取出设定数目的项目。0098所述步骤五中的投票包括一等奖、二等奖、三等奖和不评奖。0099所述步骤五中审核包括有异议和无异议。0100所述步骤六,将步骤六筛选出的数据输出,输出形式为WORD格式文档。WORD格式文档输出,便于用户自行调整数据格式。0101如图2所示,所述步骤三取项目申报库主数据表及各子数据表中数据,判断数据是否符合要。
50、求的步骤包括0102步骤31从项目申报库主数据表及各子数据表提取因素;所述因素包括项目名称、项目的完成人姓名及身份证号、知识产权号、论文论著名称;0103步骤32判断因素是否为项目名称和论文论著名称,如果是就进入步骤33,否则就进入步骤34;0104步骤33将项目名称和论文论著名称与另一项目中关键词比较,如果相同,则判断项目重复,否则项目不重复;0105步骤34将项目的完成人姓名及身份证号、知识产权号与另一项目直接匹配,如果相同,则判断项目重复,否则项目不重复;0106步骤35结果存储;对步骤33和步骤34比较和匹配结果存储到项目申报数据库。0107数据查重是整个科技奖励系统中的重要环节,数据。