个项目的多头申报、重复审查是我国科研项目管理领域的显著问题之一。这个问题不仅会造成国家科技资源的浪费和损失,也会造成恶性科研竞争环境,损害鼓励创新的科研精神,严重危害科技创新发展。国务院2014年连续发表的文件《国务院关于改善中央财政科学研究项目和资金管理的若干意见》、《1》和《中央财政科技计划(专项、基金等)管理改革深化方案》、《2》均为项目验证的重要性提出了构建公开统一的国家科技管理平台的构想。根据
文献调查,国外的项目审查几乎都是以同行评议的方式进行的,没有发现论文验证的重要方法。但是,海外的关键词提取[3]、自动摘要[4]、文档检索[5]等研究很早就开始了,进行了大量的研究和探索,积累了丰富的经验和成熟的技术。虽然在国内方法研究领域起步较晚,但在文本挖掘方法的科学技术项目管理中确实开展了应用研究。
姜韶华[6]在对项目申报表进行分类后提取水平特征项目,使用矢量空间模型对项目申报表进行建模。左川[7]提出一种基于非分词技术解决科技项目重大问题的方法,以CHARM算法挖掘出的频繁闭项集为特征向量,利用矢量空间模型对项目申报书进行建模。利用方延风[8]矢量空间模型记述项目的申报书,导入特征语的位置和长度两个要素来改善TF-IDF方法。
吴燕[9]通过加工项目申报书,提取关键词特征向量构建项目主体,建立现有项目主体层级聚类树,提高项目检查效率。林明才等[10]利用矢量空间模型对项目申报书进行建模,提出修正后的模糊聚类算法RM-FCM,对判定项目集和现有项目集进行汇总分析,进而判断项目之间的类似性。罗克图[11]利用分词技术和词义相似性网络从项目申报书中提取关键词,将矢量空间模型和物元知识表示模型组合起来说明科学技术项目的知识。
林建海[12]扩展矢量空间模型,提出了基于内容项目的项目知识表现模型,通过加权战略融合了语义类似度和字符串匹配类似度这两种计算方法。赵士杰[13]利用编辑距离计算项目标题的类似度,结合两个结果计算项目之间的类似度。这些研究活动基本上是从项目申报书中获取,对其进行降维处理,提取特征向量制作矢量空间模型,表示项目申报书的内容,利用特征向量的类似度测定项目申报书的类似度。
这些方法有两个限制。1)项目申报书一般不公开。很难得到。因此,这种方法很难适应单一计划的内部,进行项目检查,跨计划进行项目检查。2)从申报书中特征向量的降维处理意味着信息的消失,对项目检查的精度产生一定影响。
文献[14]总结了项目检索重量难以解决的3个原因。1)科技项目数量迅速增加。2)项目信息的公开、共享、整合程度较低。3)项目的类似性判别方法单一。针对上述问题,通过整合与项目密切相关的公开信息,构建基于大数据发掘的检查模型,以计算机支援的形式解决项目的检查点是未来的趋势。随着云计算和大数据挖掘技术的不断发展和普及,特别是国家科技报告服务系统[15]和国家科技成果转化项目库[16]等平台相继向公众提供信息服务,科普通过整合科技项目各环节的相关信息,可以利用大数据挖掘技术解决项目的重大问题。本文将大的数据发掘作为潜在的应用场景进行介绍,以说明科学技术项目的研究内容为目标,有效地整合多源相关信息的数据模型,为解决项目的检索重问题建立数据库。2数据来源本文采用的与项目研究内容密切相关的数据主要包括项目议事录、科技报告、学术论文和科技成果等。
项目的议事录一般可以从项目主管机关定期发布的审批助成公告中取得,其内容包括项目标题、负责人、负责单位、项目类型、助成金金额、起始日期、结束日期等。本论文是利用中国科学技术信息研究所重点项目资金设立的科技项目数据库,科技部支持计划、973计划、863计划、以及国家自然科学基金等项目累计总额约40万套。科技报告主要来自国家科技报告服务系统。这个系统现在已经公开了6万多份科技报告的记录信息。
学术论文主要来源于网络office、万方数据等平台上收录的公开出版论文,其记录信息向所有用户公开。论文的标题、作者、机构、关键词、摘要、分类号、年卷期间和基金的资金援助等信息。科技成果主要来自国家科技成果转化项目库平台,主要是项目产生的新技术、新产品、新技术、新材料、新设备和系统等。该平台现在公开了约1.3万件科学技术成果的记录信息,包括成果名、关键词、成果概要等。
注册用户可以获得更详细的成果信息。本论文主要使用上述记录信息,利用主题、关键词、摘要等信息,间接表示项目的研究内容。
3整合模型对项目申报书取得困难的现状,收集项目相关的其他信息间接说明其研究内容是合理可行的方案之一。本论文将与项目密切相关的项目议事录、学术论文、科学技术报告、科学技术成果等综合数据模型如图1所示。其中,科技项目表是整个模式的核心,包括项目ID、标题、负责人ID、机构ID、起始日期和结束日期等字段。科技项目表通过相关表Project-Report与科技报告表建立一对一的对应关系,通过相关表Project-Pper与学术论文表建立许多对数的对应关系,通过相关表Project-native与科技成果表建立许多对应关系。
科技报告表、学术论文表、科技成果表分别保存项目不同形式的产品记录信息。包含反映项目研究内容的重要信息。这些表格与ID、标题、关键字、摘要、作者ID、机构ID等字段结构相似。
在上述信息结合后,通过项目ID取得项目产品的所有信息,提取其中的标题、关键词、摘要等关键信息,可以实现项目研究内容的说明和显示。人员表和机关表主要用于追溯申报者和申报机关以前负责的项目的记录。
这些信息用于辅助计算项目的类似度,并遵循其。