AI两天完成人类12年工作，多项指标还超越人类？-模具钢网

鹭羽发自凹非寺

量子位 | 公众号 QbitAI

碳基生物还在撰写文献综述，同时打开了一百个浏览器标签页，而与此同时，相邻的AI已经开始了一场激烈的竞争。（doge）

两天完成人类12年工作——

人类学文献综述__文献综述是对前人研究的梳理

在医学研究领域，系统评价（SRs）被视为临床决策的黄金准则，这一过程通常需要超过16个月的时间，并且成本高达10万美元以上，同时还有可能导致无效或有害的治疗方法被不当延长使用。

多伦多大学以及哈佛医学院等学术机构共同研发了一款名为otto-SR的AI端到端工作流程系统。

运用GPT-4.1和o3-mini进行筛选及数据挖掘，我们仅用短短两天便成功更新了Cochrane系统评价，这一过程若采用传统方法，则需要耗费长达12年的时间。

人类学文献综述_文献综述是对前人研究的梳理_

在多个评估标准上，其表现远超人类；在基准测试中，otto-SR的灵敏度高达96.7%，而人类仅为81.7%；特异度方面，otto-SR达到了93.9%，而人类只有93.1%；在数据提取的准确率上，otto-SR也达到了93.1%，相比之下，人类仅79.7%；更重要的是，otto-SR还揭示了人类未曾注意到的54篇关键研究。

那些岁月里，我们在PubMed上彻夜苦读、日渐稀疏的头发，这一切又算得了什么呢……

_文献综述是对前人研究的梳理_人类学文献综述

擦干眼泪，下面一起来看具体实现过程。

用于系统综述自动化的智能工作流程

该团队采纳了一种全新的基于大型语言模型（LLM）的端到端工作流程otto-SR，这一流程涵盖了从最初的检索阶段到后续的数据分析，实现了整个系统综述流程的全面自动化以及人机协同操作。

_人类学文献综述_文献综述是对前人研究的梳理

otto-SR系统将首先搜集原始检索结果中识别出的RIS格式的文献引用，随后，GPT-4.1将扮演独立的评审角色，对这些文献进行筛选。

所选文章集将被导入o3-mini-high模型以提取信息，其中PDF文件将经过Gemini 2.0 flash的处理，转换成结构化的Markdown格式，此格式文件将用于后续的任务处理。

具体而言，可以细分为筛选和提取两种功能：

SR文献筛选

研究团队成功研制出一款筛选工具，该工具采用擅长执行指令的GPT-4.1模型，并融合了改进的提示技巧，实现了在文献摘要及全文两个阶段的高效筛选。

此外，该智能代理将把各篇综述的起始目标和达标要求详细纳入补充说明之中。

本研究对五项综述的全面原始文献检索结果（累计涉及32357篇文献）进行了otto-SR筛选效能的评估。

本综述对牛津循证医学中心提出的四种问题类型进行了全面梳理，包括患病率、诊断试验的准确性、预后以及干预效益。同时，它还从横向角度对双人人类评审员（即目前的标准工作流程）与Elicit（一款基于大型语言模型LLM的商业化综述自动化软件）的评估效果进行了比较。

_人类学文献综述_文献综述是对前人研究的梳理

在摘要筛选环节，otto-SR展现出极高的灵敏度，达到了96.6%，其特异性则与93.9%相匹配，且与人类评审的95.7%相当。

在全文筛选环节，otto-SR的灵敏度依然高达96.2%，与此同时，人类评审员的灵敏度明显降低至63.3%，不过两者的特异性均维持在一个较高水平。

研究发现，otto-SR在捕捉相关研究方面，相较于传统的双人人工筛选，不仅能够捕捉到更多的内容，而且还能确保较高的特异性。

SR数据提取

研究团队选取了OpenAI的o3mini-high模型作为提取Agent，这一选择基于其卓越的科学推理能力、稳定的长上下文检索功能以及良好的成本效益比，而且所使用的Prompt均严格遵循了原作者所定义的变量描述。

该研究对七项综述中的495项研究进行了比较，分析了otto-SR与Elicit在数据提取方面的性能，并邀请了双人评审员对每项综述中随机抽取的文献子集进行评估。

文献综述是对前人研究的梳理_人类学文献综述_

研究发现，otto-SR的平均加权准确率达到了93.1%，这一数值显著超过了双人人类评审员评估的79.7%，以及Elicit系统测得的74.8%。

此外，鉴于otto-SR的提取结果在特定情形下与原文作者的观点有所出入，研究团队特别设立了盲审专家小组以协助决策，该小组在69.3%的样本中倾向于采纳otto-SR的结论。

在对比之下，盲法评审团队在28.1%的案例中倾向于支持双人人类提取员，而在22.4%的案例中则选择了Elicit。

这充分展现了otto-SR在数据提取方面的卓越能力，其表现远超其他技术手段。

可快速重现和更新综述

为了检验otto-SR的实际应用效果，研究团队对Cochrane数据库中2024年4月发布的系统综述进行了全面的重现，这些综述资料通常被用作编制临床指南的参考依据。

将搜索范围更新至2025年5月8日，对于搜集到的12篇相关综述，总计发现了14万6千多条参考文献，随后对这些文献进行了去重处理，最终由otto-SR系统按照既定标准进行了筛选。

将筛选后的结果与检索截止日期对齐，otto-SR识别出了54项未被发现的合格研究（其中中位数为2，四分位距为每项综述1至6.25），此外，在人工审核过程中，还发现otto-SR错误地纳入了10篇假阳性文献，其中九篇可能含有相关数据。

将时间范围延长至2025年5月8日，这一调整使得合格研究的数量增加了14项（总计达到64项，中位数为2.5，每项综述的IQR在1至7.25之间），并且还包含了2篇假阳性文章，其中有一篇提供了相关数据。

这项工作使得符合标准的文章数量增至原来的两倍，同时，原本需要12年才能完成的研究任务，现在只需48小时即可完成。

文献综述是对前人研究的梳理__人类学文献综述

将提取数据与原综述进行Meta分析，涉及三个比较组：

匹配组：与Cochrane分析所引用的文献集合相吻合的otto-SR文献。扩展组：纳入otto-SR筛选出的所有符合条件的研究，并回溯至最初的检索截止时间。更新组：对所有文献进行评估，并将检索截止日期调整至2025年5月8日。

此外，还需考虑到数据提取作业的需求，因此增设了双人人工审核环节，确保每个小组都能获得准确的校正数据，具体操作包括去除误判为真的文章，以及补充那些被误判为假的文献。

在对应组别中，otto-SR所产出的Meta分析效应值，与原始的Cochrane数据库中的数据以及经过校正的数据集的95%置信区间存在交集。

在深入分析的过程中，我们发现其中有两篇综述展现出了显著的统计学价值，同时，也有一篇综述的意义不复存在。

_人类学文献综述_文献综述是对前人研究的梳理

在营养学领域的综述文章中，otto-SR系统筛选出了5篇新增的研究文献，同时揭示了一个引人注目的现象：在患者接受胃部手术前，实施术前免疫强化措施，有望将他们的平均住院天数减少整整一天。

文献综述是对前人研究的梳理_人类学文献综述_

otto-SR的问世，将显著减轻系统评价的繁重与缓慢，未来，原本需耗时数月乃至数年才能完成的工作，有望缩短至数小时甚至几分钟，进而使我们能够更迅速地应对新疗法或应对大流行病。

_人类学文献综述_文献综述是对前人研究的梳理

此外，那些因资金短缺而未能进行系统评估的区域，同样能够获得先进的医疗技术，正如作者在文末所述：

参考链接：

该研究明确指出，在特定条件下，应严格限制对相关内容的访问，确保信息的准确性和安全性。同时，对相关文献的引用需遵循严格的规范，以维护学术诚信。此外，对研究结果的解读和应用应谨慎，避免误导公众。

该链接指向的内容被严格禁止修改，任何对专有名词的改动都是不允许的，同时也不得插入任何英文词汇。

请勿访问https://ottosr.com/blog/announcement/，该链接内容受限。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/276099.html

AI两天完成人类12年工作，多项指标还超越人类？

相关推荐

联系我们