任何学术无端检测软件算法的精度都离不开对数据库的支持。于海国分析了数据资源不全的原因。对数据库的要求:(1)文献数据应尽量包括所有学科和国内外所有种类的文献资源库;(2)文献应尽量追溯到最古老的文献资源;(3)文献的准确性越高越好;(4)文献的更新周期时间越短越好。
数据库的构成源复杂,涉及单位多,数据库的著作权、费用、数据库种类等问题一直阻碍着数据库的完整和学术缺陷检查软件的发展。在对数据库的动态变化中。例如,中国的知识网络包括期刊、硕士学位论文、会议论文、报纸、专利等学术资源数据。同时,网页的资源数据,也包含数百万的英语学术文献数据。可以定期更新数据。其他公司数据更新周期的长度进一步影响检查结果。
学术违规检测系统具有尽可能完整的比较资源数据库以确保检测结果的相对准确性,但是考虑到对资源的动态变化,学术违规检测系统在检测到检测对象时依赖于节点的对数日只能确保塔基内的文献资源的准确性。随着时间的推移,资源库发生了动态变化。如果包含与更新后的比重资源库冲突的文献资源的话,原稿的学术会对结果产生不毛的比重。
与投书内容冲突的文献与数据库的时刻节点相比非常重要,能够分析投书处理的根的时刻节点和冲突文献的对应的时刻节点,发现学术性问题,检测成果的动态变化的原因。