AI催生生物醫學科研危機?頂尖科學家差點被AI假文獻蒙騙
每經記者|林姿辰
2026年5月,《柳葉刀》刊發的一篇“AI(人工智能)引文造假”文章(correspondence,通訊稿件),在中國的醫學科研圈火了。
基于對PubMed Central(美國國立醫學圖書館旗下的免費生物醫學全文檔案庫)收錄的約250萬篇生物醫學論文開展的篩查,這篇文章指出,過去幾年生物醫學論文參考文獻造假率漲幅超12倍。2023年每萬篇論文約出現4條偽造參考文獻,到2026年初達到每萬篇56.9條。
有意思的是,該項研究牽頭人Maxim Topaz不僅是哥倫比亞大學護理學院副教授、醫療AI研究員,還是全球前2%頂尖科學家。但即便是這位常年和AI打交道的專家,也曾在評論寫作中被一篇AI生成的虛假文獻“唬”過。
對此,人們能做什么?《每日經濟新聞》記者(以下簡稱NBD)就此專訪了Maxim Topaz。
虛假引文遍布各類文獻
NBD:是什么契機或經歷,讓你開始關注生物醫學論文中的引文造假問題?
Maxim Topaz:一切源于我自身的一次“驚險經歷”。當時,我借助人工智能聊天工具,為一篇擬投向期刊的評論潤色。我本身從事人工智能研究,清楚人工智能存在“幻覺”問題,因此特意核對了所有引文,確保內容準確。
即便經過多輪修改與自查,期刊編輯還是就其中一篇參考文獻提出了質疑。原來這款人工智能工具悄悄植入了一條虛假文獻,而我此前的核查并未發現。
這件事讓我深受觸動。比起失誤本身,更值得警惕的是背后的隱患:連常年和人工智能打交道的專業人士都會“中招”,普通研究者自然也難以幸免。于是我萌生了調研的想法。
此前,從未有人統計過虛假引文最終流入經過同行評審、正式發表文獻的比例,而參考文獻是整個科學體系的根基。一旦引文失去可信度,整個科研大廈都會搖搖欲墜。我們團隊正是為了填補這一研究空白,開展了此次調研。
NBD:你同時任職于哥倫比亞大學護理學院與數據科學研究所,這種跨學科背景對搭建這套自動化引文核驗系統起到了哪些關鍵作用?團隊在研發過程中遇到的最大技術難題是什么?
Maxim Topaz:臨床醫學與數據科學兩大領域的專業能力缺一不可。臨床醫學知識能幫助團隊判斷哪些問題會造成實際影響,同時掌握不同細分領域正規引文的特征,以此區分普通引文錯誤和惡意造假。數據科學技術則讓大規模自動化核驗成為可能,徹底擺脫人工核查的局限。
研發過程中最大的技術難題是誤判問題。本次需核驗的參考文獻量非常大,哪怕系統的誤判率極低,也會產生海量錯誤預警信息。我們面臨的核心挑戰是精準區分蓄意造假、無心筆誤,以及標題簡寫等正常格式問題。
對此,團隊搭建了多層級核驗流程,其中包含大語言模型初篩環節,并邀請獨立人工審核人員對結果進行校驗,最終系統準確率達到91%。在海量數據下打造一套可靠、可信的核驗系統,是整個項目最難攻克的一關。
NBD:本次核查覆蓋約250萬篇生物醫學論文、1.25億條參考文獻,為何選擇開展如此大規模的分析?業內此前對引文造假的認知,和你們調研得出的實際情況存在多大差距?
Maxim Topaz:之所以開展大規模調研,是因為單篇論文的引文造假發生率本就偏低,僅憑個別案例無法得出可靠結論。我們本次共核查2471758篇開放獲取論文、超過1.25億條參考文獻,只有這樣才能統計出造假問題的整體發生率,更重要的是梳理出其長期變化趨勢。
業內過往認知與現實情況相差極大。此前,大家普遍認為引文造假只是個別作者品行不端,或是寫作疏忽導致的小眾問題。但數據顯示,虛假引文如今已遍布各類生物醫學文獻。自2023年至今,引文造假率漲幅超12倍。在本次核查開展時,98.4%存在造假引文的論文既未被更正,也未被撤稿。簡言之,這一問題的嚴重程度、整改滯后性都遠遠超出了行業以往的判斷。
綜述類論文是引文造假重災區
NBD:為何引文造假率從2024年年中開始急劇攀升?在你看來,主要誘因是人工智能、論文代寫產業鏈,還是期刊評審流程存在漏洞?
Maxim Topaz:時間節點很有指向性。大型語言模型在2022年末至2023年開始全面普及,而生物醫學論文從投稿到發表通常需要100天至200天。因此,借助人工智能輔助撰寫的論文,從2024年年中起開始大量出現在美國國立醫學圖書館數據庫中。這也恰好是造假率驟增的轉折點。
需要說明的是,本次研究僅證實了問題的存在,并未直接界定成因。論文代寫產業泛濫、期刊索引規則與評審機制的變化,同樣推高了造假比例,且各類因素相互疊加:正是因為期刊缺乏有效的核驗環節,人工智能生成或代寫產業鏈產出的虛假引文才得以順利發表。
因此,無法將問題歸咎于單一原因。客觀來講,人工智能讓編造引文變得輕而易舉,而現行的審核機制原本就沒有針對這類造假設計排查手段。
NBD:和以往人為編造的引文相比,人工智能生成的虛假引文有哪些核心差異?又會帶來哪些更廣泛的影響?
Maxim Topaz:二者最本質的區別在于錯誤類型。過去的引文問題多是粗心導致的疏漏,比如頁碼寫錯、文獻觀點引用有誤,但被引用的文章本身是真實存在的。
如今人工智能生成的引文對應的文獻完全子虛烏有。這些假引文格式規范,署上真實且業內知名的研究者姓名,貼合論文主題,發表日期也設置得合情合理,足以蒙混過初步檢查,常規的同行評審也往往難以識破。
其深遠危害在于,引文本是科研人員驗證研究結論的核心依據,如今大規模造假已成現實。問題從“引文內容有誤”演變為“引用文獻根本不存在”,這不再是證據質量下降,而是直接切斷了科學論證的證據鏈。
NBD:在核查過程中,你們發現過最極端、最令人震驚的引文造假案例是什么?看到這些案例時,你有何感受?
Maxim Topaz:最典型的案例是2025年某開放獲取腫瘤學期刊上一篇聚焦細分外科領域的論文。在該論文經核驗的30條參考文獻中,有18條為造假內容。這些假引文精準匹配論文研究方向,作者均為該領域真實專家,發表時間也集中在2023年至2024年。
還有一個現象同樣值得警惕。在某期刊一年內刊發的11篇論文中,反復出現兩位相同署名的作者,這些論文包含15條虛假引文,且涉及多個互不相關的前沿研究領域。
比起單篇問題論文,我更擔憂這類批量造假的現象。更讓人不安的是,這些問題論文一直留在公開文獻庫中,還會被其他論文繼續引用,卻沒有任何標注警示、更正說明,行業也未對此質疑。
NBD:綜述類論文的引文造假率比其他類型論文高出約57%,而綜述又是臨床診療指南的制定基礎。為何綜述類論文尤其容易遭到人工智能驅動的引文造假侵襲?
Maxim Topaz:多重因素疊加,讓綜述類論文成為造假重災區。首先,綜述的參考文獻列表篇幅更長,虛假引文更容易渾水摸魚;其次,撰寫綜述需要梳理、歸納大量文獻,這也是研究者最常借助人工智能輔助的環節,而該工作場景恰恰極易催生虛假引文。
此外,綜述處于整個科研證據鏈的上游,各類系統評價依托綜述撰寫,臨床診療指南又以系統評價為依據。我們的數據顯示,綜述類論文每萬篇的引文造假數為16.7條,其他類型論文為10.6條。這約57%的差距帶來的危害遠比數字本身更大,綜述中的造假內容不會止步于此,還會層層傳導,最終影響臨床醫生和政策制定者依賴的核心證據體系。
若不及時管控,“污染”將難逆轉
NBD:虛假引文會如何誤導臨床決策、威脅患者安全?醫學界是否低估了這類現實風險?
Maxim Topaz:虛假引文會沿著完整的證據鏈產生負面影響。臨床診療指南依托系統評價制定,目前已有證據證實,部分代寫論文已被納入撰寫指南所用的系統評價中。如果一份指南引用的論文本身含有大量虛假引文,那么其提出的治療方案就失去了應有的科學支撐。
需要明確的是,我們并未追蹤患者的實際診療結果,因此無法量化虛假引文直接造成的醫療傷害,也不會妄下此類論斷。但現有科研證據體系存在結構性風險,且這一風險確實被醫學界低估了。
已有系統評價發現,醫學論文中約四分之一的參考文獻存在各類錯誤,這足以說明,參考文獻核驗并非同行評審的常規環節。連普通的引文錯誤都無法全面排查,想要識破精心偽裝的人工智能造假引文,自然難上加難。
NBD:你們的研究為行業提出了4條改進建議。在你看來,目前哪一條建議最為緊迫,卻又最難落地?主要阻礙是什么?
Maxim Topaz:當下最緊迫的是第一條建議,即期刊出版商需在同行評審啟動前,將自動化引文核驗納入論文投稿流程。目前相關技術已經成熟,落地障礙并非技術問題,而是體制與成本問題。出版商需要投入資金、調整沿用已久的工作流程,這也是該建議看似可行,推進起來卻阻力重重的原因。
而落地難度最大的是對已發表文獻開展回溯清理。對數百萬篇存量論文逐一篩查、發布更正內容,需要高昂成本,且沒有任何一家機構愿意全權負責這項工作,同時學界也缺乏動力去復盤、修正已經刊發的論文。
總結來說,當下最該立刻推進的是在投稿環節落實事前引文核驗,而最難完成的是清理早已被污染的存量學術文獻。
NBD:作為率先系統性揭露生物醫學領域引文造假危機的學者,未來3年至5年,你對整個行業最大的擔憂是什么?你呼吁全球科研界、期刊出版商及監管機構立刻采取哪一項行動?
Maxim Topaz:我最大的擔憂是形成惡性循環。一篇含虛假引文的論文發表后,會被后續新論文繼續引用,甚至被用于訓練新一代人工智能模型,進而讓造假內容不斷傳播、放大。若不及時管控,文獻庫被污染的速度會遠遠超過清理修復的速度。
我向全球科研界、出版商和監管機構呼吁,立刻落實一項舉措:將自動化引文核驗定為同行評審前的標準流程。
直白來講,問題的根源是未經核查的人工智能生成內容流入永久學術文獻。我們并非要禁止使用人工智能工具,而是要把核驗環節嵌入整個工作流程。人工智能本身并非隱患,真正的風險是任由未經審核的人工智能產出內容堂而皇之地進入學術體系。

