《一种学科特征值算法及基于其的项目评审专家推荐算法.pdf》由会员分享,可在线阅读,更多相关《一种学科特征值算法及基于其的项目评审专家推荐算法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103823896 A (43)申请公布日 2014.05.28 CN 103823896 A (21)申请号 201410092584.X (22)申请日 2014.03.13 G06F 17/30(2006.01) (71)申请人 蚌埠医学院 地址 233030 安徽省蚌埠市东海大道 2600 号 (72)发明人 王晓华 张超 张钰 (74)专利代理机构 蚌埠鼎力专利商标事务所有 限公司 34102 代理人 王琪 (54) 发明名称 一种学科特征值算法及基于其的项目评审专 家推荐算法 (57) 摘要 本发明提供一种学科特征值算法及基于其 的项目评审专家推荐算法, 。
2、该基于学科特征值算 法的项目评审专家推荐算法包括以下步骤 :(1) 文本相似度计算 : 1)项目研究内容和评审专家 研究方向文本信息的分词处理 ; 2)项目研究内 容和评审专家研究方向的文本特征向量模型建 立 ; 3) 项目研究内容和评审专家研究方向的文本 特征向量的相似度计算 ;(2)学科特征值算法 ; (3)项目评审专家推荐值计算, 计算公式如下 : ProSim(V,U)=w(c)expsim(V,U) ;(4) 将步骤 (3) 计算出的项目评审专家推荐值进行排序。本 发明优点在于 : 应用本项目评审专家推荐算法的 处理程序在无人干涉的情况下自动计算科研项目 与不同评审专家的推荐值, 节。
3、省用户时间。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图4页 (10)申请公布号 CN 103823896 A CN 103823896 A 1/2 页 2 1. 一种学科特征值算法, 包括以下步骤 : (1) 项目与评审专家的学科建模 : 根据国家标准 学科分类与代码 , 使用建立向量的模式对项目学科和评审专家学科进 行建模, 项目学科和评审专家学科构成基于如下表征的特征向量 : p c1,c2,c3 其中 c1、 c2、 c3分别代表学科分类中的一级学科代码、 二。
4、级学科代码和三级学科代码 ; (2) 项目与评审专家的学科特征值计算 : 计算公式如下 : 其中 Nc1、 Nc2、 Nc3 分别表示所需评审的项目在学科分类中分属各个级别学科的学科 数量, B1、 B2、 B3 分别用于表示项目和评审专家之间相同级别学科的代码是否相同, 相同则 取值为 1, 不同则取值为 0, 指数 n 为特征值, 表示对具有不同级别学科是否相同的惩罚。 2. 如权利要求 1 所述的学科特征值算法, 其特征在于 : 所述指数 n 取值为 2。 3. 一种基于权利要求 1 或 2 所述的学科特征值算法的项目评审专家推荐算法, 包括以 下步骤 : (1) 文本特征向量的相似度计。
5、算 : 1) 项目研究内容和评审专家研究方向的文本信息分词处理 : 从项目研究内容和评审专 家研究方向中提取关键词并进行语义重构 ; 2) 项目研究内容和评审专家研究方向的文本特征向量模型建立 : 使用基于关键词权重 的向量空间模型 TF-IDF 算法, 通过提取并计算目标文本中关键词出现的频率及在全体文 本集中出现的逆文本频率产生根据加权词项组成的向量 ; 3) 项目研究内容和评审专家研究方向的文本特征向量的相似度计算, 计算公式如下 : 其中 V 和 U 分别代表项目申请内容和评审专家信息提取出的 n 维特征向量, 通过计算 其向量余弦值从而获得文本相似度计算结果 ; (2) 学科特征值算。
6、法 : 1) 项目与评审专家的学科建模 : 根据国家标准 学科分类与代码 , 使用建立向量的模式对项目学科和评审专家学科进 行建模, 项目学科和评审专家学科构成基于如下表征的特征向量 : p c1,c2,c3 其中 c1、 c2、 c3分别代表学科分类中的一级学科代码、 二级学科代码和三级学科代码 ; 2) 项目与评审专家的学科特征值计算 : 计算公式如下 : 其中 Nc1、 Nc2、 Nc3 分别表示所需评审的项目在学科分类中分属各个级别学科的学科 数量, B1、 B2、 B3 分别用于表示项目和评审专家之间相同级别学科的代码是否相同, 相同则 权 利 要 求 书 CN 103823896 。
7、A 2 2/2 页 3 取值为 1, 不同则取值为 0, 指数 n 为特征值, 表示对具有不同级别学科是否相同的惩罚 ; (3) 项目评审专家推荐值计算, 计算公式如下 : ProSim(V,U) w(c)expsim(V,U) 上式中 w(c) 是步骤 (2) 计算出的项目与评审专家的学科特征值, sim(V,U) 是步骤 (1) 计算出的项目研究内容和评审专家研究方向文本特征向量的相似度值, expsim(V,U) 代 表以 e 为底 sim(V,U) 为值的指数函数 ; (4) 将步骤 (3) 计算出的项目评审专家推荐值进行排序。 权 利 要 求 书 CN 103823896 A 3 1。
8、/10 页 4 一种学科特征值算法及基于其的项目评审专家推荐算法 技术领域 0001 本发明涉及推荐算法领域, 具体地说是一种学科特征值算法及基于其的项目评审 专家推荐算法, 用于使用计算机自动完成科研项目评审专家的推荐工作。 背景技术 0002 有效的科研项目是我国科技发展组织与实施的最基本条件, 是关系到我国科技战 略发展的一项有力保证。 目前对于科技项目的评审, 其最关键的是对评审专家的选取, 所谓 找 “合适的人, 做合适的事” , 在评审专家的选取上却达不到。 究其原因是目前尚无一套统一 的自动选取模型, 还仍旧停留在由科研管理人员查看科研项目申请书然后依照经验和直觉 选取评审专家的。
9、模式。 0003 这种模式老旧且准确度有待商榷, 特别是在申请书数目众多而评审专家的选取也 在是一个较大范围时, 科研项目管理人员对有些评审专家的研究方向和擅长领域并不熟 悉, 往往会选择错误的评审专家而使得具有较好立意和方向的科研项目在评审阶段被取 消。 因此根据科研项目本身与评审专家的信息自动进行最优化匹配从而进行推荐是一项函 待解决的问题。 0004 建立一个科学合理有效的科研项目评审专家推荐系统的核心是设计一套完整有 效的评审专家推荐算法, 在目前关于推荐算法研究现状方面, 各种推荐算法日趋完善。包 含了认知学、 心理学、 信息检索、 管理学等众多研究领域。相关的评审专家学者提出了多种。
10、 推荐方法, 基于内容的推荐、 协同过滤推荐、 混合推荐等, 使用不同的数学模型, 例如文本聚 类、 反向神经网络、 关联规则等实现不同的推荐方法。 0005 但是以上这些推荐算法基本上是基于商业化推荐算法模型而诞生, 基本上是基于 “用户-目标” 这二维空间度量的, 如基于项目研究内容和评审专家研究方向的算法, 其通过 提取关键词计算文本特征向量的相似度, 从而忽略了相关其他信息。然而实际中科研项目 与评审专家的选择往往涉及到其他因素, 最重要的是基于不同级别学科分类的项目与评审 专家选择。 发明内容 0006 本发明所要解决的技术问题是提供一种可应用于计算机程序, 能快速准确自动计 算出项。
11、目评审专家的推荐值, 节省人力和时间的项目评审专家推荐算法。 0007 为了解决上述技术问题, 本发明采用如下技术方案 : 首先, 提供一种学科特征值算 法, 该算法是一种基于学科分类的项目与评审专家的学科特征值算法, 包括以下步骤 : 0008 (1) 项目与评审专家的学科建模 : 0009 根据国家标准 学科分类与代码 , 使用建立向量的模式对项目学科和评审专家学 科进行建模, 项目学科和评审专家学科构成基于如下表征的特征向量 : 0010 p c1,c2,c3 0011 其中 c1、 c2、 c3 分别代表学科分类中的一级学科代码、 二级学科代码和三级学科 说 明 书 CN 103823。
12、896 A 4 2/10 页 5 代码 ; 0012 (2) 项目与评审专家的学科特征值计算 : 计算公式如下 : 0013 0014 其中 Nc1、 Nc2、 Nc3 分别表示所需评审的项目在学科分类中分属各个级别学科的 学科数量, B1、 B2、 B3 分别用于表示项目和评审专家之间相同级别学科的代码是否相同, 相 同则取值为 1, 不同则取值为 0, 指数 n 为特征值, 表示对具有不同级别学科是否相同的惩 罚。 0015 相比现有的基于项目研究内容和评审专家研究方向的算法, 其通过提取关键词计 算文本特征向量的相似度, 而本发明提供的学科特征值算法是基于国家标准 学科分类与 代码 , 。
13、国家标准 学科分类与代码 本身是一种科学合理的分类标准, 本发明通过这一分类 标准对项目和评审专家进行比较, 可以在学科层面准确地进行计算, 且本发明所设计的计 算公式充分考量了每一级学科的比重, 侧重于学科的细分程度, 随着学科细分程度的加深, 不同次级学科的区别也越大, 这样计算结果更加合理有效。 0016 优选的, 所述指数 n 取值为 2。这样计算过程清晰, 方便比较。 0017 本发明提供一种基于学科特征值算法的项目评审专家推荐算法, 包括以下步骤 : 0018 (1) 文本特征向量的相似度计算 : 0019 1) 项目研究内容和评审专家研究方向的文本信息分词处理 : 从项目研究内容。
14、和评 审专家研究方向中提取关键词并进行语义重构 ; 0020 2) 项目研究内容和评审专家研究方向的文本特征向量模型建立 : 使用基于关键词 权重的向量空间模型 TF-IDF 算法, 通过提取并计算目标文本中关键词出现的频率及在全 体文本集中出现的逆文本频率产生根据加权词项组成的向量 ; 0021 3) 项目研究内容和评审专家研究方向的文本特征向量的相似度计算, 计算公式如 下 : 0022 0023 其中 V 和 U 分别代表项目申请内容和评审专家信息提取出的 n 维特征向量, 通过 计算其向量余弦值从而获得文本相似度计算结果 ; 0024 (2) 学科特征值算法 : 0025 1) 项目与。
15、评审专家的学科建模 : 0026 根据国家标准 学科分类与代码 , 使用建立向量的模式对项目学科和评审专家学 科进行建模, 项目学科和评审专家学科构成基于如下表征的特征向量 : 0027 p c1,c2,c3 0028 其中 c1、 c2、 c3分别代表学科分类中的一级学科代码、 二级学科代码和三级学科代 码 ; 0029 2) 项目与评审专家的学科特征值计算 : 计算公式如下 : 0030 说 明 书 CN 103823896 A 5 3/10 页 6 0031 其中 Nc1、 Nc2、 Nc3 分别表示所需评审的项目在学科分类中分属各个级别学科的 学科数量, B1、 B2、 B3 分别用于。
16、表示项目和评审专家之间相同级别学科的代码是否相同, 相 同则取值为 1, 不同则取值为 0, 指数 n 为特征值, 表示对具有不同级别学科是否相同的惩 罚 ; 0032 (3) 项目评审专家推荐值计算, 计算公式如下 : 0033 ProSim(V,U) w(c)expsim(V,U) 0034 上式中 w(c) 是步骤 (2) 计算出的项目与评审专家的学科特征值, sim(V,U) 是步骤 (1) 计算出的项目研究内容和评审专家研究方向文本特征向量的相似度值, expsim(V,U) 代表以 e 为底 sim(V,U) 为值的指数函数 ; 0035 (4) 将步骤 (3) 计算出的项目评审专。
17、家推荐值进行排序。 0036 与现有技术相比, 本发明具有明显优势, 主要体现在 : 相比现有的基于项目研究内 容和评审专家研究方向的算法来计算文本特征向量的相似度, 本发明基于学科特征值算法 的项目评审专家推荐算法综合考量了研究内容和学科分类, 利用现有的文本特征向量的相 似度算法和本发明提供的学科特征值算法, 从项目研究内容、 评审专家研究方向和项目与 评审专家的学科特征这三个方面进行比较, 这样计算出的推荐值更加科学合理, 且本发明 基于学科特征值算法的项目评审专家推荐算法条理清晰、 步骤明确, 具有非常好的可执行 性, 能够通过编写代码的形式实际部署在计算机程序中执行, 使得应用本发明。
18、基于学科特 征值算法的项目评审专家推荐算法的处理程序能够在无人干涉的情况下自动、 快速、 准确 地计算出项目评审专家的推荐值, 完成项目评审专家的推荐, 节省了人力物力并节省用户 的时间。 附图说明 0037 图 1 是本发明基于学科特征值算法的项目评审专家推荐算法步骤图。 0038 图 2 是 Top 关键词百分比对 F 度量值影响线形图。 0039 图 3 是不同 值对 F 度量值影响线形图。 0040 图 4 是不同学科特征值对 F 度量值影响直方图。 0041 图 5 是不同学科特征值与研究内容协同计算对 F 度量值影响直方图。 0042 图 6 是不同 值和 Top 关键词百分比对 。
19、F 度量值影响线形图。 0043 图 7 是重构数据后不同学科特征值与研究内容协同计算对 F 度量值影响直方图。 具体实施方式 0044 下面结合附图对本发明的实施方式作具体的描述 : 0045 如图 1 所示, 本发明基于学科特征值算法的项目评审专家推荐算法包括以下步 骤 : 0046 (1) 文本特征向量的相似度计算 0047 1) 项目研究内容和评审专家研究方向的文本信息的分词处理 0048 研究内容向量模型的建立基础是对研究内容文本进行关键词处理。 在本算法中预 处理的主要内容是进行文本分词处理。由于中文词语的特殊断句结构, 本算法实施方案中 采用的是中国科学院的 ICTCLAS(ht。
20、tp:/www.ictclas.org) 作为确定的分词工具。其主要 说 明 书 CN 103823896 A 6 4/10 页 7 作用是两个, 分别是去除停用词以及对提取的关键词做语义重构。 0049 去除停用词主要是去除一些常用的辅助词, 这些词的存在不会对文章的意义产生 任何影响。例如常用的副词、 介词, 以及设定的一些文本中出现的特定地名、 单位或组织机 构名称等。以便在对文本进行特征选择时, 将其忽略而避免对特征向量的建立产生影响。 0050 其次是对提取的关键词做语义重构。 由于科研项目内容申请中会出现较多由普通 名词构成的专有名词, 例如 “数据挖掘” 和 “数据结构” 这是两。
21、个不同的词语, 表示两个完全 不同的学科。 但是在语义分析时, 分词器往往由于规则设定的不同, 将其拆分成 “数据” 、“挖 掘” 、“数据” 、“结构” 这四个词语。这在后续的分析中, 由完全不同的两个文本被标记成具有 50% 相似度的文本, 这样是非常严重的一项错误。因此必须对设定规则进行重构, 区分不同 的概念。 0051 一般来说, 评审专家的基本信息获得方法是通过填报调查表的形式获取, 其中会 包括评审专家的姓名、 年龄、 学科、 研究关键词以及研究内容构成。在项目选择评审专家时 一般更为关注的是评审专家的学科、 研究关键词以及研究内容等, 因此我们从这些内容中 提取关键词, 然后对。
22、关键词做语义重构。 0052 2) 项目研究内容和评审专家研究方向的文本特征向量模型建立 0053 2.1) 项目研究内容文本特征向量模型建立 0054 对研究内容和方向的分词过后是关键词抽取和权重计算。 使用的是基于关键词权 重的向量空间模型 TF-IDF 算法, 其通过提取并计算目标文本中关键词出现的频率及在全 体文本集中出现的逆文本频率从而产生根据加权词项组成的向量。 0055 其计算公式如下 : 0056 TF-IDF(wd) tf(wd)idf(wd) tf(wd)logN/df(wd) 0057 其中 tf(w d) 是某一特征关键词在目标文本中出现的频率 ; idf(wd) 是当。
23、前关键 词的逆文本频率 ; df(w d) 表示总的文本集中有多少文本出现过关键词 wd ; 大写 N 表示文 本集中文本的总数。通过对所有目标关键词进行上述计算后, 获得一个基于关键词和关 键词权重的特征向量 v(t,d)=t1,w(d1),t2,w(d2),t3,w(d3),ti,w(di),。其中 ti,i=1,2,3n 为提取关键词 ; w(di) 为使用 TF-IDF 计算后获得的关键词权重 ; v(t,d) 为基 于整个研究内容所提取的关键词构成的一个特征向量。 0058 需要注意的是, 对于不同的文本信息, 经过 TF-IDF 确定的关键词向量后, 其中可 能包含较多数目的特征关。
24、键词, 因此选取不同数目的可信关键词会对结果造成一定程度的 影响。 一般认为, 选取的关键词数目偏少, 代表的信息熵不足 ; 而过多的话, 则可能会给关键 词向量引入较多的噪声项, 降低文本信息相似度计算的准确性。本算法会通过试验获得最 优化 Top 关键词百分比为 60%, 相似度阈值 为 0.8。 0059 2.2) 评审专家研究方向文本特征向量模型建立 0060 一般来说, 评审专家的基本信息获得方法是通过填报调查表的形式获取, 其中会 包括评审专家的姓名、 年龄、 学科、 研究关键词以及研究内容构成。在项目选择评审专家时 一般更为关注的评审专家的学科、 研究关键词以及研究内容等。因此可。
25、以仿照项目研究内 容文本特征向量建模的形式予以建立基于研究内容与学科方向的特征向量。 0061 评审专家研究方向特征向量建模方式与项目研究内容文本特征向量建模方式类 似, 首先从评审专家库中获取评审专家的基本信息, 分词后使用 TF-IDF 算法提取计算关键 说 明 书 CN 103823896 A 7 5/10 页 8 词权重, 构建基于评审专家关键词的个人信息特征向量 u(t,d)=t1,w(d1),t2,w(d2), t3,w(d3),ti,w(di),。其中 ti,i=1,2,3n 为提取关键词 ; w(di) 为使用 TF-IDF 计算 后获得的关键词权重。 0062 3) 项目研究。
26、内容和评审专家研究方向的文本特征向量的相似度计算 0063 对于关键特征向量的相似度计算, 本发明通过 TF-IDF 算法提取后构建的关键词 向量模型进行余弦相似度计算方法获得的相似度结果, 最能够明确表现特征向量之间关 系。其计算公式如下所示 : 0064 0065 其中 V 和 U 分别代表项目申请内容和评审专家信息提取出的 n 维特征向量。通过 计算其向量余弦值从而获得相似度计算结果。 0066 (2) 学科特征值算法 0067 1) 项目与评审专家的学科建模 0068 国家标准 学科分类与代码 (GB/T13745-2009) 是学科分类的权威性规定, 其对 一、 二、 三级学科进行分。
27、类。一级学科用三位数字表示, 二、 三级学科分别用两位数字表示, 一、 二级学科中间用点隔开, 代码结构为 XXXXXXX, 例如 5702520, 其中 570 为一级学 科 ,25 为二级学科 ,20 为三级学科。 0069 对于项目申请中本身注明的所属学科文本和评审专家所属学科给出的处理方式 同样是使用建立向量的模式对之进行处理。基于 学科分类与代码 , 项目学科和评审专家 学科可构成基于如下表征的特征向量 : 0070 p c1,c2,c3 0071 其中 c1、 c2、 c3分别代表学科分类中的一级学科代码、 二级学科代码和三级学科代 码。 0072 2) 项目与评审专家的学科特征值。
28、计算 0073 提取学科所属类别并比较作为项目与评审专家的特征依据, 目前还没有专门的文 献和研究提出相应的算法。因此为了解决将学科属性作为特征参考值的目的, 本发明提出 基于全学科值的特征值算法。计算公式如下 : 0074 0075 其中 Nc1、 Nc2、 Nc3 分别表示所需评审的项目在学科分类中分属各个级别学科的 学科数量, 例如某一个申请项目所属的学科, 二级学科有5个, 三级学科有10个。 那么Nc1、 Nc2、 Nc3 的分别取为 1、 5、 10 ; B1、 B2、 B3 分别用于标示项目和评审专家之间相同级别学科的 代码是否相同, 相同则 Bn 取值为 1, 不同则 Bn 取。
29、值为 0, 例如项目和评审专家之间一级学科 代码相同, 则 B1 取值为 1, 不同则 B1 取值为 0, 同样的 B2 的取值取决于项目和评审专家之 间二级学科代码是否相同, B3 的取值取决于项目和评审专家之间三级学科代码是否相同 ; 指数 n 为特征值, 表示对具有不同级别学科是否相同的惩罚。 0076 这样做的好处在于侧重于学科的细分程度, 随着学科细分程度的加深, 不同次级 学科的区别也越大。 说 明 书 CN 103823896 A 8 6/10 页 9 0077 例如学科分类中 520 代表 “计算机科学技术” 学科, 其中 52010 到 52060, 以及单独 的 52099。
30、 分别代表 7 种不同的二级学科, 而此基础上三级学科的数目又达到 45 个。 0078 基于此算法的相似度计算, 若在本文中需要计算编码为 5202010 所代表的 “计算 机人工智能” 和 5202040 为代表学科 “模式识别” 之间的相似度, 可以根据其对应的归属分 别设定 B1 为 1, B2 为 1, 而 B3 由于最终的三级学科不相同所以其值为 0。 0079 借用公式的算法最终结果如下 0080 0081 指数 n 作为特征值, 标示对具有不同级别学科是否相同的惩罚, n 的不同标示惩罚 力度也不近相同。一般情况下取 1,2, 在本发明中 n 的值优选为 2。 0082 因此最。
31、终结果 : 0083 0084 仿照如此计算公式, 可以获得一个基于项目与评审专家对应的相似度矩阵, 如表 1 所示 : 0085 表 1 : 单项目与单评审专家相似度 0086 P0P1P2P3 T00.00036 0.0180.74 0087 这里 P0、 P1、 P2、 P3 分别代表与评审项目 T 完全不同学科、 归属于相同一级学科、 归属于相同二级学以及所有学科完全相同的评审专家。 0088 对于多个项目与评审专家不同相似度计算可以获得如表 2 所示相似度矩阵 : 0089 表 2 : 多项目与多评审专家相似度 0090 P1P2P3P4Pn T1W(1,1)W(1,2) W(1,3。
32、)W(1,4)W(1,n) T2W(2,1)W(2,2) W(2,3)W(2,4)W(2,n) T3W(3,1)W(3,2) W(3,3)W(3,4)W(3,n) TnW(4,1)W(4,2) W(4,3)W(4,4)W(4,n) 0091 这里表 2 相似度矩阵分别代表不同的评审项目对应不同评审专家计算出的相似 值。 0092 需要说明的是此相似度矩阵为一稀疏矩阵, 可以在后续的整体相似度计算时删除 大量值为 0 的相似度计算值从而节省计算资源。 0093 (3) 项目评审专家推荐值计算 说 明 书 CN 103823896 A 9 7/10 页 10 0094 在获得项目与评审专家学科特征。
33、值后, 依据提取出对应项目研究内容和评审专家 研究方向的文本特征向量的相似度结果, 下一步就是计算项目与评审专家之间的推荐值。 0095 一般情况下, 学科特征值为一个稀疏矩阵。 对于大部分的项目来说, 都可以计算出 不同的学科特征值。而对于根据关键词特征向量计算的关键词相似度值却较为困难, 因为 即使学科特征值较高, 而由于具体研究方向的不同, 其值也有较大可能为 0。因此不能够简 单的加以计算。 0096 本发明定义的推荐值计算公式为 : 0097 ProSim(V,U) w(c)expsim(V,U) 0098 上式中 w(c) 是研究项目与评审专家计算出的学科特征值 ; sim(V,U。
34、) 是项目信 息与评审专家信息之间根据关键词向量计算出的相似度值 ; expsim(V,U) 代表以 e 为 底 sim(V,U) 为值的指数函数。这样做的目的是随着 sim(V,U) 增大, 而整体计算值呈现 一个上升非常快速的正向曲线, 从而更好的突出文本相似度对于整个计算结果的贡献。 ProSim(V,U) 表示根据基于学科特征值与文本相似度共同协作算出的最终值。 0099 (4) 将步骤 (3) 计算出的项目评审专家推荐值进行排序 0100 将步骤 (3) 计算出的项目评审专家推荐值由高到低或由低到高进行排序。 0101 实验部分 : 0102 下面结合附图对本发明提供的算法通过实验进。
35、行验证 : 0103 数据集说明 : 0104 由于目前对科研评审推荐算法研究为空白, 缺乏一个公共的通用项目评审专家库 对各种推荐算法进行评估分析, 因此最好的检测方法只能是从现有的已评审科研项目中进 行选择。 0105 依据中华人民共和国国家标准所确定的 学科分类与代码 , 共设 58 个一级学科、 573 个二级学科、 近 6000 个三级学科。由于学科过多, 本实验选择 20 个较为热门的三级学 科作为实验数据学科来源。 0106 本实验的数据集来自某较高等级科研项目库, 在既定的三级学科评审专家中随机 抽取了 300 位评审专家, 其中包含自然科学评审专家 248 名、 社会科学评审。
36、专家 58 名。又 根据评审专家, 随机抽取961份已评审的科研项目, 确保每名评审专家至少有2项评审项目 包含在抽取的项目库中。学科分类结构、 评审专家数及分类项目数如表 3 所示 : 0107 表 3 : 学科分类结构、 评审专家数及分类项目数 说 明 书 CN 103823896 A 10 8/10 页 11 0108 0109 评价指标的确定 : 0110 对于算法最终结果的验证, 目前并没有一个直接有效的验证算法。借助此算法的 实际应用对象, 一般情况下要求算法最终推荐出的评审专家与人工选择推荐评审专家越接 近, 则说明结果越准确。 0111 为了达到此目的, 本实验借用测试文本相似。
37、度算法中常用的 F- 度量值来衡量。 F- 度量值是文本相似度算法中常用的检查召回率 (Recall) 和准确率 (Precision) 的一种 平衡指标, 其值介于 0 和 1 之间。经过计算的实验结果能够检验每一项科研项目是否能够 被分配给人工认定的正确评审专家。F 度量值越大, 选择结果与真实情况越接近。 0112 设 Rc 为算法推荐评审专家集, Pc 为人工选择的推荐评审专家集。则召回率、 准确 率及 F 值计算公式如下 : 0113 说 明 书 CN 103823896 A 11 9/10 页 12 0114 0115 0116 实验结果及分析 0117 实验首先采用选择的自然语言。
38、处理工具 ICTCLAS 对所有项目内容及评审专家研 究内容进行预处理, 之后应用 TF-IDF 算法对所有关键词进行计算, 从而获得对应的关键词 特征向量 ; 学科特征值是根据本发明提出的项目与评审专家学科特征值算法计算获得 , 最 后使用本发明定义的项目评审专家推荐算法计算最终的推荐值。 0118 实验 1 0119 Top 关键词比例与相似度阈值的选择 0120 实验为了更为客观的反映本发明提出的项目评审专家推荐算法, 需要确定文本分 类中的 Top 关键词语相似度阈值, 从而解决文本聚类的问题。 0121 在实验一中首先要确定不同的 Top 关键词比例对文本聚类的影响。基于项目的实 际。
39、分析, 设置相似度阈值=0, 即将文本中所有语义相似度看做同等重要。 图2给出了不同 Top 关键词百分比状态下 F 度量值的试验结果。实验表明如果选取文本中 60% 的 Top 关键 词, 能够取得较好的结果。 0122 在确定 Top 关键词比例后, 为了获得最佳文本聚类效果, 下一步是确定相似度阈 值。 在此部分实验中选择上一步获得的60%Top关键词比例进行计算, 研究不同阈值下对 文本聚类的影响。 0123 图 3 展示了不同 值下的对 F 度量值的影响, 从图可知, 随着 的增高, F 度量 值不停的增长, 当达到 0.8 左右时, F 度量值最大。继续提高反而会引起 F 度量值下。
40、降。 0124 实验 2 0125 不同学科特征值对 F 度量值影响 0126 实验二是单独使用本发明提供的项目与评审专家学科特征值算法对项目和评审 专家进行 F 度量值验证, 而不涉及研究内容的文本分类计算部分。本项实验分三次进行, 第 一次是根据算法提出的完整学科特征值计算方法, 计算全部三级学科后带入推荐值计算公 式, 求得最终 F 值 ; 第二次是采用二级学科计算学科特征值带入计算公式求取 F 值。第三次 则只计算一级学科作为结算结果获取 F 值。最终结果如图 4 所示。 0127 从实验二中可以发现一个非常有意思的现象, 使用本发明提供的项目与评审专家 学科特征值算法计算的结果为 :。
41、 计算一级学科作为结算结果, F 度量值为 0.19 ; 随着学科分 类级别的增高, 也就是由三级学科升为二级学科后, F 度量值升高为 0.55, 这依旧与样本结 果有一定的差异。而当只使用一级学科作为分类特征计算基础时, F 度量值升高为 0.93, 基 本上可以较好地与样本实际结果相吻合。 0128 实验 3 0129 不同学科特征值与研究内容协同计算的推荐值 0130 实验三是在设定Top关键词比例为60%, 相似度阈值为0.8的条件下, 利用本发 明提供的项目评审专家推荐算法计算推荐值。此项实验采用实验二的试验方法, 使用不同 的学科分类级别进行 F 度量值的计算。其结果如图 5 所。
42、示。计算全部三级学科后带入推荐 说 明 书 CN 103823896 A 12 10/10 页 13 值计算公式, 最终 F 度量值为 0.12 ; 而学科分类上升二级学科后, F 度量值升高为 0.19 ; 当 使用一级学科作为计算依据时, F 度量值最高 0.39。 0131 对于结果的分析, 从实验二可以看到, 若单独使用基于学科特征的 F 度量值计算 方法, 在一级学科分类基础上与实际结果基本吻合, 而随着学科细分的加强, F 度量值显著 下降。 可能是由于科研项目在进行评审专家分配时, 更多的是侧重于对于一级学科的分类, 而忽略了二级和三级学科的分类情况。 0132 而对于实验三的结。
43、果与实际相差较大的情况, 可能是由于引入了对研究内容的文 本相似度计算, 使得文本计算结果成为一定的干扰项, 使得最终结果与原始数据相差大。 0133 实验 4 0134 重构数据源测试推荐算法 0135 本实验重构了科研项目与评审专家数据源。在原有的科研项目库中抽取了 7 个三 级学科的112份科研项目, 之后由人工重新选择了37名相关评审专家组成一个新的人工选 择数据源, 严格对应其学科分类与研究方向。数据源如表 4 所示 : 0136 表 4 : 重选学科分类结构、 评审专家数及分类项目数 0137 0138 首先计算项目的 Top 相似度关键词与相似度阈值的选择, 这里的实验方法与实验。
44、 1相类似, 不再过多阐述, 最终结果如图6所示。 结果显示Top关键词在75%, 在0.7,0.8 之间, F 度量值取得最大, 其后随着 Top 百分比增大和 的增加, 曲线呈下降趋势。表明增 大阈值并不能带来 F 度量值的上升。 0139 下一步是设置不同等级学科分类使用本发明项目评审专家推荐算法进行计算。 结 果如图 7 所示。从图可得, 此时进行 F 度量值计算, 使用一级学科的计算结果是 0.92 ; 二级 是 0.87 ; 三级是 0.86。此计算结果显示本算法获得的最终 F 度量值能够较好的反映系统推 荐的评审专家与人工推荐的评审专家之间的关系。 0140 应当理解本文所述的例子和实施方式仅为了说明, 本领域技术人员可根据它做出 各种修改或变化, 都属于本发明的保护范围。 说 明 书 CN 103823896 A 13 1/4 页 14 图 1 说 明 书 附 图 CN 103823896 A 14 2/4 页 15 图 2 图 3 说 明 书 附 图 CN 103823896 A 15 3/4 页 16 图 4 图 5 说 明 书 附 图 CN 103823896 A 16 4/4 页 17 图 6 图 7 说 明 书 附 图 CN 103823896 A 17 。