01
背景介绍
(1)众所周知的同行评审Peer review
科研论文爆炸式增长的今天,此方法显然费时费力(Xue et al., 2023)且reviewers不可避免在评审过程中会带有主观彩,易受作者声誉,机构背景等非内容因素影响(Kern-Goldberger et al., 2022)学术论文 。
(2)针对以上缺点学术论文 ,不少研究者提出基于文献计量方法评估科研论文原创性,包括:
1)引用分析:
①颠覆性指数(DI):通过分析论文引用网络(前驱/后稷引用),判断其是否颠覆现有研究(Funk Owen-Smith, 2017)学术论文 。
②非典型组合检测:通过参考文献的两两组合模式评估原创性(Uzzi et al., 2013)学术论文 。
但这些指标并不是完美无缺的学术论文 。一是需积累足够引用数据才能评估导致无法及时判断,二是高引用可能源于争议或否定,而非创新价值使得以引用量为依据作为文章原创性判断标准有不妥之处。
①语义网络分析:通过关键词,主题模型或知识图谱量化创新性(Hou et al., 2022)学术论文 。
②问题-方法组合分析:评估研究问题与方法的创新组合(Shibayama Wang, 2022)学术论文 。
虽能根据知识单元快速直观理解文章大致内容,但不能为理解文章提供完整研究脉络,而对于评估文章原创性来说归根结底是要通过文章具体内容评估而不是依靠碎片化信息,且此评估指标仅能输出数值指标,可提供的评估结果因此缺乏可解释性(Sun et al., 2022),因而该方法也不甚理想学术论文 。
3)机器学习预测方法
该方法分为两个技术路线:
①录用预测:基于全文内容预测论文是否被期刊接受(如MHCNN模型,Yang et al., 2018)学术论文 。
②引用预测:通过图神经网络预测未来引用量(Huang et al., 2023)学术论文 。
同样该方法判断论文原创性潜在标准也是论文引用量以及是否被期刊录用,而前文也提到将原创性评估转化为相关性预测(如录用或引用),忽视创新本质学术论文 。引用量或录用结果受多因素影响(如期刊偏好),与原创性关联较弱。
总结一下学术论文 ,现有方法共同问题:
1.黑箱性:多数方法无法像人类专家一样提供可解释的评估理由学术论文 。
2.即时性不足:依赖引用或出版后数据的指标存在严重延迟学术论文 。
3.内容覆盖不全:传统知识单元分析难以捕捉跨领域创新或理论突破学术论文 。
针对以上方法或指标的局限性,“Are large language models qualified reviewers in originality evaluation?”在评估文章原创性方面探索了一种新思路:利用大语言模型(LLM)作为“AI审稿人”,在零样本学习(无需额外训练)下通过分析文章标题以及摘要捕捉创新点间的关联性来评估生物医学论文的原创性学术论文 。研究团队通过设计独特的提示词(prompt),让LLM从原创性分数(OS)、原创性类型(OT)和原创性描述(OD)三个维度生成评价结果,因此也无需等待引用数据,出版后即可生成评估结果且结果可以提供原创性类型以及对析以增强结果可信度。
2.原创性定义
既然要评估科研论文原创性,必然要明晰原创性定义,尽管学术界对原创性定义没有达成共识且不同研究领域对原创性看法也不同,该文还是总结了多方关于这一概念定义得出:原创性是指科学成果对特定研究领域知识体系的贡献程度学术论文 。任何为领域知识增添新内容的研究都具有原创性(Alajami, 2020; Hou et al., 2022)。原创性可以体现在理论创新、方法革新、问题聚焦、结果突破、应用导向或这些要素的混合体 (Dirk, 1999; Shibayama Wang, 2020)。
02
该文评估方法流程
接下来介绍下该文运用LLM评估论文原创性方法流程学术论文 ,该研究通过三个阶段验证LLM作为原创性审稿人的可行性:
1.指令学习
通过设计结构化提示词(Prompt)来引导LLM理解原创性评估任务学术论文 ,Prompt包含:
①指令部分:定义原创性并说明5种原创类型定义(理论/方法/问题/结果/应用)
②输入部分:核心论文与其5篇相似论文的标题及摘要
③输出部分:原创性分数(OS)、类型(OT)、描述(OD)学术论文 。
其中:OS是一个0至100分的评分指标,用于量化核心论文的原创性程度,分数越高表明相对于同类论文具有更高的原创性学术论文 。OT代表研究贡献类型,可能涉及理论、方法、问题聚焦、成果导向或应用实践等维度;OD则是阐明OT与OS评分依据的简要说明。一份优质的OD需满足三大要素:完整性、逻辑性、规范性。完整性要求OD对所有认定的OT类型均给出明确解释,若存在未说明的OT类型,则视为不完整。逻辑性强调OD需对核心论文与同类文献进行对析,从而保证评估结果的合理性;缺乏此类比较将影响逻辑严谨性。规范性指OD需逐条系统化阐述OT要点,并提供简洁的总结陈述,以此提升文本可读性。
2.数据集构建
(1)数据来源:
PubMed数据库:从PubMed(免费生物医学文献数据库)3000万篇生物医学文并提取每篇文献的ID学术论文 ,标题,摘要以及发表日期(剔除作者、期刊等可能引入偏见的非内容信息)
诺贝尔奖数据集:从Li等人(2020)的公开数据集中获取 209篇 诺贝尔生物医学奖论文的标题、作者和发表年份学术论文 。
(2)评估数据集构建
1)诺贝尔奖数据集(Nobel Dataset)
具体而言,作者通过标题、作者和年份与 PubMed 数据库匹配,最终保留 80 篇含摘要的诺奖论文,另有 129 篇因缺乏摘要被排除学术论文 。 针对这 80 篇论文,作者通过PubMed检索界面获取相似论文,如下图所示。对于每篇发表于时间的论文,作者选取之前发表的5篇相似论文作为其相似文献。作者认为在其发表时具有高度原创性。随后,针对每篇论文,作者收集发表该论文的诺奖得主的发表记录,从中选取与发表年份相同、作者数量相同的论文。有 4 篇属于的论文未能匹配,因此最终有 76 篇纳入。最后,针对 209 篇诺贝尔奖论文中的每篇论文,作者随机选取一篇与发表年份相同、作者数量相同的论文,最终得到 209 篇普通论文()。与相似论文的筛选流程一致,PubMed 检索界面也用于获取和的相似论文。论文因助力学者获得诺贝尔奖而具有最高原创性。的原创性通常高于,因为前者由在各自领域展现卓越专业素养的诺奖得主发表。综上所述,、、的原创性水平通常满足以下关系:。
各组文献分布情况如下:
高原创组:80篇诺贝尔奖论文学术论文 。
中原创组:76篇诺奖得主同期的其他论文(匹配发表年份和作者数量)学术论文 。
低原创组:209篇随机论文(与诺奖论文同年份、同作者数量)学术论文 。
相似论文筛选:对于每篇目标论文(即三个组的每篇论文),从PubMed检索 5篇相似论文(发表时间早于目标论文)学术论文 。因而三个组的每篇文献都有5篇相似论文进行对照。
相似性标准:基于PubMed的检索算法(未公开细节)学术论文 。
2)颠覆性指数数据集(DI Dataset)
在DI评估数据集中,根据颠覆性指数(DI),作者筛选出三类论文:颠覆型()、发展型()和普通型()学术论文 。首先简要介绍DI的定义:如下图所示,对于属于以上三组的每篇目标论文,其参考文献记为( ) 。仅引用的论文记为( ) ,仅引用的论文记为( ) ,同时引用和的论文记为( ) 。、、、分别表示上述各类论文的数量。DI通过公式(1)计算得出。若DI是正值表明颠覆了其参考文献,原创性显著;若是负值则显示倾向于与共被引,起到巩固现有知识的作用,属于基于前人发现的部分原创发展型研究。实验中作者采用mDI指标分别抽取200篇论文归纳到颠覆型,发展型,普通型这三类。如公式(2)所示,mDI是DI与总被引次数的乘积,权重有效捕捉了论文在时间的影响力规模。具体操作分为三步:首先基于PubMed数据集各论文的10年引文历史计算mDI(若引文历史不足10年则使用全部记录);其次按发表年份依mDI降序排列;最后分别从排名前5%和后5%中随机选取和,并筛选且DI趋近0的论文分到(这类低影响力论文既不具明显颠覆性也未体现知识整合贡献)综上,原创性水平遵循:。
因此各组文献分布情况如下:
颠覆性论文():DI值前5%(200篇)学术论文 。
发展性论文():DI值后5%(200篇)学术论文 。
普通论文():DI值接近0且总引用量15(200篇)学术论文 。
DI计算方式:
基于论文的10年引用网络(若不足10年则用全部引用数据)学术论文 。
公式:
其中,为仅引用目标论文的文献数,为仅引用参考文献的文献数,为同时引用两者的文献数学术论文 。
03
结果与分析
本文通过构建两个评估数据集(诺贝尔奖论文数据集与颠覆性指数数据集)学术论文 ,对多个大语言模型(LLM)在零样本学习下的原创性评估能力进行了系统分析,主要从以下三个维度展开:
1. 原创性评分(OS):量化评估能力
基本结论:LLM都能在一定程度上通过OS区分出不同原创性水平的论文学术论文 。例如,在诺贝尔奖论文数据集中,诺贝尔奖论文的平均OS显著高于诺贝尔得主其他论文和随机论文。
模型差异:不同模型的判别能力存在显著差异学术论文 。GPT-4和Mixtral的表现最优,其给出的OS分布中,不同类别论文的重叠区域较小,区分度更高。而GPT-3.5的表现相对较差,甚至在和之间的平均分差异统计上不显著。
“宽容性”问题:模型普遍评分偏高,(中位数多在70-80分之间),很少给出低于50分的评分学术论文 。这在一定程度上削弱了OS在区分普通论文时的辨别力。
与引用的相关性:OS 与论文发表10年后的引用量(C10)之间存在中等程度的相关性(Spearman系数 ≤ 0.52),说明OS可作为一种即时、基于内容的辅助评价指标学术论文 。
2. 原创性类型(OT):定性归因分析
分布特征:LLM共定义了五种不同的原创性类型,分别为方法论原创性、理论原创性、问题聚焦原创性、结果导向原创性和应用导向原创性学术论文 。分析OT的分布揭示了不同类别论文的贡献特点。诺贝尔奖论文中理论原创性的占比最高,符合其推动学科理论发展的特点。所有生物医学论文都普遍表现出较高的结果导向原创性,这反映了该领域重视实证发现的学科特点。
类型间的关联性:卡方独立性检验表明,五种OT之间并非完全独立,存在显著的共现关系学术论文 。例如:方法论原创性常与问题聚焦原创性和应用导向原创性同时出现,因为新方法常被用于解决新问题或适应新的应用场景。理论原创性也常与应用导向原创性共存,表明理论突破常能推动实际应用。
对评分的影响:通过回归分析发现,所有五种OT都对OS有显著的正向影响学术论文 。这意味着LLM在打分时,会综合考虑论文的多方面贡献。其中,理论原创性和结果导向原创性的回归系数在大多数模型中最大,表明它们在LLM的评估机制中权重最高。而问题聚焦原创性的影响相对最小。
3. 原创性描述(OD):解释性评估
模型性能对比:
GPT-4生成的OD质量远超其他模型学术论文 。能清晰、有条理地解释每一项OT,并提供清晰的对析(例如:“该方法比相似论文中描述的方法更全面、更系统,后者通常只关注特定突变…”)。其OD结构规范,可读性极高,充分展现了强大的推理和语言生成能力。
Mixtral的OD在逻辑性(对析)上表现尚可,但完整性和规范性不足学术论文 。它时常会出现“漏报”或“误报”OT的情况,即文中描述的内容与最终选择的OT类型不匹配,推理过程略显。
GPT-3.5的OD在三个方面均表现不佳学术论文 。它经常遗漏对某些OT的解释,缺乏深入的对析,结构也较为松散,难以令人信服。
04
意义与展望
1.理论意义
本文首次系统地探索LLM作为“原创性审稿人”的可行性的工作,具有重要的理论价值学术论文 。
验证了LLM的评估潜力:结果表明,在恰当的提示引导下,LLM(尤其是GPT-4)不仅能进行定量评分,还能进行合理的定性归因和生成解释性文本,其评估机制在一定程度上符合人类直觉学术论文 。
指出了模型固有的“数字偏见”:不同模型评估结果的不一致性,揭示了其性能受到模型架构、训练数据、预设置信度等因素的影响学术论文 。这提醒我们,LLM的评估并非绝对客观,而是带有其自身的“数字视角”。
2.实践意义
本文为学术评价实践提供学术论文 了新的工具和思路:
提供了一种高效的辅助评审工具,可以用于快速初筛海量文献,帮助研究人员、期刊编辑和基金审稿人迅速定位高原创性的工作,减轻同行评审的压力学术论文 。
强调了“原创性”评价的独立价值,聚焦于论文的研究内容本身,而非其后续影响力(如引用),为构建更全面、更立体的科学论文评价体系提供了新的维度学术论文 。
开源了宝贵的评估资源,公开的提示词(Prompt)和两个精心构建的数据集及其评估结果学术论文 。
3.局限与未来方向
领域局限性:当前研究仅针对生物医学领域学术论文 。不同学科(尤其是人文学科)对原创性的定义和评判标准可能存在差异,未来需进行跨学科的验证和比较。
输入信息受限:由于上下文长度限制,本文仅使用了标题和摘要学术论文 。未来若能引入全文、图表、参考文献等多模态信息,必将为LLM提供更充分的决策依据,提升评估的准确性。
提示词与推理流程的优化:当前的提示词虽为人工精心设计,但仍有优化空间学术论文 。未来可探索使用思维链(CoT)、自动思维链(Auto-CoT)、自反思(Self-Reflection)等提示工程技术,以及检索增强生成(RAG)来引入外部知识,进一步激发LLM的复杂推理能力,提升评估的可信度。
从“单智能体”到“多智能体”评审:真实的学术评审包含多位审稿人学术论文 。未来可以探索构建LLM多智能体评审系统,让不同模型或同一模型的不同实例扮演不同角的审稿人,通过辩论或投票机制形成最终评审意见,模拟更真实的同行评议过程,以期获得更稳健、更公正的评估结果。
05
总结
本文证明了大型语言模型(特别是GPT-4)在学术论文原创性评估方面蕴含着巨大潜力学术论文 。它们并非要取代人类专家,而是可以作为强大的辅助工具,能够提供一种即时、客观、基于内容的新视角。尽管目前仍存在评分宽容、模型间一致性不足等局限性,但这项工作无疑为AI赋能科学评价开辟了一条富有前景的道路。
部分参考文献