飛行者聯(lián)盟 › 門(mén)戶 ›新聞資訊› 模擬飛行 › 查看內(nèi)容

“AI幻覺(jué)”：一場(chǎng)人機(jī)之間的認(rèn)知博弈

2025-3-20 17:40| 發(fā)布者: tuchooy 1206 3

摘要: 2月26日，北京大學(xué)第三醫(yī)院的心內(nèi)科診室里，兩種治療方案在診臺(tái)上對(duì)峙：左側(cè)是心內(nèi)科大夫汪京嘉開(kāi)出的一份用于治療高血脂的醫(yī)囑，右側(cè)是人工智能軟件生成的處方。這天，汪京嘉如常出診，呼叫鈴響三聲后，一位60歲老 ...

2月26日，北京大學(xué)第三醫(yī)院的心內(nèi)科診室里，兩種治療方案在診臺(tái)上對(duì)峙：左側(cè)是心內(nèi)科大夫汪京嘉開(kāi)出的一份用于治療高血脂的醫(yī)囑，右側(cè)是人工智能軟件生成的處方。

這天，汪京嘉如常出診，呼叫鈴響三聲后，一位60歲老人姍姍來(lái)遲。“145/90mmHg，低密度脂蛋白3.8mmol/L，無(wú)糖尿病。”檢查報(bào)告顯示，老人屬于輕度血脂異常，依據(jù)醫(yī)療診斷，汪京嘉醫(yī)生將口服藥處方遞給老人。

“汪大夫，您給開(kāi)的口服藥太溫和，AI建議注射瑞百安，說(shuō)是降脂快。”

診室陷入短暫沉默，空氣凈化器的嗡鳴聲逐漸清晰。汪京嘉用手指點(diǎn)了點(diǎn)報(bào)告：“他汀類藥物對(duì)肝臟負(fù)擔(dān)更小，您的報(bào)告顯示轉(zhuǎn)氨酶偏高。”他停頓了兩秒，告訴患者注射劑可能加重肝臟代謝負(fù)擔(dān)。

爭(zhēng)論持續(xù)了十分鐘。老人從AI上得到的建議是，注射類藥物短期耐受性良好，而且僅需隔周注射一次，比每日服用藥物方便許多。但在汪京嘉看來(lái)，對(duì)于老年高血脂高血壓的病人，一切以維穩(wěn)為主，他汀類口服藥物已有超過(guò)30年的臨床應(yīng)用歷史，副作用發(fā)生率低，符合循證醫(yī)學(xué)的“最小有效干預(yù)”原則，可避免過(guò)度醫(yī)療。

這場(chǎng)“爭(zhēng)論”最終以老人的沉默落下帷幕。他扶了扶眼鏡，應(yīng)了聲“哦”，關(guān)掉手機(jī)，把紙質(zhì)處方插進(jìn)口袋。走廊叫號(hào)屏顯示，下一位患者已等候8分鐘，這比平均問(wèn)診時(shí)間多了三分之一。

不止在醫(yī)療界，類似的認(rèn)知拉鋸正在全球上演。

2025年初，各類大模型開(kāi)放，AI的興起改變了人們的日常生活。作家借助算法優(yōu)化詩(shī)句結(jié)構(gòu)，養(yǎng)生愛(ài)好者用AI定制健康食譜，失眠者深夜與AI對(duì)話疏解焦慮。股民們甚至樂(lè)此不疲地解讀著AI生成的各類理財(cái)建議。

在公眾對(duì)生成式大模型日益依賴的進(jìn)程中，偏差開(kāi)始浮現(xiàn)。看似無(wú)所不能的智能助手，時(shí)常會(huì)像模像樣地“編故事”。當(dāng)用戶查詢歷史細(xì)節(jié)時(shí)，AI可能會(huì)將不同朝代的典章制度混雜交錯(cuò)；求醫(yī)者收到的診療方案中，藏著多年前已被世衛(wèi)組織廢止的藥劑配比……在知識(shí)邊界外，算法用看似完美的邏輯鏈條編織著答案。

自此，人們開(kāi)始重新校準(zhǔn)與科技的聯(lián)結(jié)。

“AI幻覺(jué)”：一場(chǎng)人機(jī)之間的認(rèn)知博弈-1327

北醫(yī)三院心內(nèi)科診室，汪京嘉正在看診。受訪者供圖

AI依賴癥

北京望京，一棟寫(xiě)字樓的16層，證券分析師小宋的工位上有三塊曲面顯示屏，上面終日流淌著數(shù)據(jù)瀑布。2023年6月開(kāi)始，他使用AI軟件chatGPT作為工作助手。“瞬析上百份財(cái)報(bào)、一分鐘生成深度報(bào)告，人肯定是做不到。”小宋覺(jué)得，chatGPT能很快做出反應(yīng)并處理問(wèn)題，讓他的報(bào)告產(chǎn)出效率躍升。

當(dāng)其他同事還在手動(dòng)整理全國(guó)幾十家半導(dǎo)體企業(yè)財(cái)報(bào)時(shí)，AI已經(jīng)幫他抓取了關(guān)鍵參數(shù)，“某半導(dǎo)體集團(tuán)的資本開(kāi)支數(shù)據(jù)、驅(qū)動(dòng)芯片占全球市場(chǎng)的份額、全球半導(dǎo)體銷售額……”小宋的手指反復(fù)在鍵盤(pán)上跳躍，這些復(fù)雜的數(shù)據(jù)在短短30秒內(nèi)被制成了一張圖表。

公司內(nèi)部的一場(chǎng)電話會(huì)中，輪到小宋做會(huì)議紀(jì)要，chatGPT的實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄功能不僅將領(lǐng)導(dǎo)含糊的浙江普通話精準(zhǔn)轉(zhuǎn)換成了文字，會(huì)后小宋核對(duì)錄音，連專業(yè)財(cái)務(wù)詞匯和數(shù)據(jù)信息都分毫不差。

小宋沉浸在一種AI帶來(lái)的時(shí)間紅利中。曾經(jīng)需要通宵解析的市場(chǎng)波動(dòng)，現(xiàn)在只需要一杯茶的工夫，就變成了電腦屏幕里跳動(dòng)的概率曲線，這些由AI算法托起的輕舟，載著他穿越信息的洪流。

類似的感受，王賀也有。

他是北京一家網(wǎng)絡(luò)安全公司的產(chǎn)品研發(fā)工程師，像是數(shù)字世界的“安全鎖匠”，王賀每天的工作，是在電腦前設(shè)計(jì)各類殺毒軟件和防火墻，不斷模擬黑客攻擊來(lái)測(cè)試這些防護(hù)系統(tǒng)的漏洞，直到確認(rèn)沒(méi)有任何非法闖入的途徑。

從前，王賀要像“撿豆子”一樣逐行審查代碼找漏洞，通宵篩查警報(bào)代碼早就變成了常態(tài)，長(zhǎng)時(shí)間的高負(fù)荷工作，讓他覺(jué)得身上像是綁上了時(shí)鐘，永遠(yuǎn)停不下來(lái)。

這樣的狀態(tài)因?yàn)锳I的接入，發(fā)生了微妙的遷移，密密麻麻的日程表上，突然多出了一些空白格。

去年，王賀所在的團(tuán)隊(duì)正式將AI應(yīng)用到工作中，在自動(dòng)化滲透測(cè)試中，AI能模擬黑客攻擊行為，通過(guò)自動(dòng)檢測(cè)工具和機(jī)器學(xué)習(xí)算法，快速發(fā)現(xiàn)系統(tǒng)中的漏洞和弱點(diǎn)，并提出有效的修復(fù)建議。

“就像打仗的時(shí)候，士兵不再拼刺刀，但需要更高維的戰(zhàn)術(shù)指揮能力。”王賀覺(jué)得，他的時(shí)間不再消耗在顯微鏡式的漏洞追蹤上，轉(zhuǎn)而可以聚焦于設(shè)計(jì)防御算法上。

AI可以自動(dòng)生成百萬(wàn)級(jí)測(cè)試用例，3秒定位某金融APP支付接口的越權(quán)漏洞，而同樣的工作，人工測(cè)試則需4小時(shí)。他粗略地計(jì)算過(guò)，人工智能系統(tǒng)的接入，相比傳統(tǒng)運(yùn)維效率提升了20%。

這種信息狩獵方式的革新，也正在重塑財(cái)經(jīng)記者崔其的工作。

3月3日晚上8點(diǎn)，崔其正在對(duì)DeepSeek話框中輸入第6次修改指令：“篩選近一年融資超1000萬(wàn)的科技企業(yè)，關(guān)聯(lián)創(chuàng)始人減持記錄和訴訟數(shù)據(jù)。”這是他使用人工智能程序?qū)ふ疫x題的第32天。

崔其逐漸摸索出一套與AI協(xié)作的工作法則，“AI可通過(guò)數(shù)據(jù)分析得出近期最受關(guān)注的話題是什么，再將熱點(diǎn)信息與所在行業(yè)結(jié)合，一些還不錯(cuò)的選題就出來(lái)了。”啟動(dòng)AI程序，變成他每天上班第一件要做的事，算法生成全網(wǎng)聲量最高的熱詞，這些熱點(diǎn)信息投射到行業(yè)知識(shí)圖譜上，變成若干選題。

AI賦予了崔其一種快速的數(shù)據(jù)洞察力，他總能利用AI給出的熱點(diǎn)詞，在紛雜的信息汪洋里錨定坐標(biāo)，將大眾關(guān)切的話題與專業(yè)洞見(jiàn)梳理成一篇又一篇爆款文章。

“AI幻覺(jué)”：一場(chǎng)人機(jī)之間的認(rèn)知博弈-1524

chatGPT對(duì)話頁(yè)面。圖源 ic photo

AI幻覺(jué)“陷阱”

這個(gè)月，小宋第四次捕捉到AI的錯(cuò)誤。

小宋記得，撰寫(xiě)行業(yè)報(bào)告前，他想在AI上收集一些有效數(shù)據(jù)，chatGPT為他生成了一份《存儲(chǔ)芯片行業(yè)Q1預(yù)測(cè)》：“三星電子將在西安擴(kuò)產(chǎn)”“臺(tái)積電產(chǎn)能釋放帶動(dòng)需求，某電子元件公司預(yù)計(jì)營(yíng)收增長(zhǎng)22.3%”……

大量的信息正以每秒三行的速度出現(xiàn)在深藍(lán)色曲面屏上，檢索過(guò)一輪之后，小宋意識(shí)到，這些快速生成的數(shù)據(jù)和信息并不真實(shí)。“本來(lái)還覺(jué)得很有道理、很專業(yè)，AI給出的資料里甚至還附上了開(kāi)發(fā)區(qū)管委會(huì)的紅頭文件編號(hào)，但仔細(xì)一查，根本就沒(méi)有這個(gè)東西。”

所謂AI幻覺(jué)，通常是指大語(yǔ)言模型生成的內(nèi)容無(wú)意義、不符合事實(shí)、邏輯自相矛盾，甚至完全不準(zhǔn)確的輸出。去年8月，一家叫Arthur AI的人工智能公司發(fā)布了一份報(bào)告，比較了OpenAI、Meta、Anthropic以及Cohere公司開(kāi)發(fā)的大語(yǔ)言模型出現(xiàn)幻覺(jué)的概率。結(jié)果顯示，這些大模型都會(huì)產(chǎn)生幻覺(jué)。

中國(guó)信通院人工智能研究所副所長(zhǎng)巫彤寧在接受新京報(bào)采訪時(shí)，用生活化類比解釋了AI幻覺(jué)的成因，“就像一個(gè)人雖然能流利地說(shuō)話，但并不一定每句話都符合事實(shí)。”他介紹，AI本質(zhì)上是根據(jù)前文預(yù)測(cè)最可能出現(xiàn)的詞語(yǔ)，它更像是一個(gè)沉浸在語(yǔ)料庫(kù)海洋中學(xué)習(xí)說(shuō)話的學(xué)習(xí)者，它不是在查找答案，而是在預(yù)測(cè)下一個(gè)要說(shuō)的最合理的詞應(yīng)該是什么。

巫彤寧解釋，大模型是指具有大規(guī)模參數(shù)和計(jì)算能力的機(jī)器學(xué)習(xí)模型。而大語(yǔ)言模型（LLMs）是指基于深度學(xué)習(xí)，擁有數(shù)十億甚至千億級(jí)別的參數(shù)構(gòu)成，能夠在多樣化的自然語(yǔ)言處理任務(wù)中展現(xiàn)強(qiáng)大生成與推理能力的人工智能模型。

然而，大模型訓(xùn)練時(shí)吸收的海量網(wǎng)絡(luò)數(shù)據(jù)如同未經(jīng)篩選的圖書(shū)館，既藏有真知灼見(jiàn)，也充斥著謠言與廣告。由于AI無(wú)法像人類那樣理解事實(shí)的邏輯，因此，當(dāng)遇到需要深度推理的問(wèn)題時(shí)，這種基于概率的創(chuàng)作機(jī)制就容易催生看似合理實(shí)則錯(cuò)漏百出的“專業(yè)謊言”。

“AI幻覺(jué)”：一場(chǎng)人機(jī)之間的認(rèn)知博弈-726

AI承認(rèn)提供了虛假文獻(xiàn)。受訪者供圖

這種幻覺(jué)帶來(lái)的信息污染開(kāi)始侵蝕小宋的工作。

最危險(xiǎn)的失誤發(fā)生在今年1月。一次實(shí)地調(diào)研中，某半導(dǎo)體公司的銷售總監(jiān)聊到“刻蝕機(jī)交貨期從半年延長(zhǎng)到七個(gè)半月”時(shí)，小宋突然意識(shí)到，自己上周發(fā)布的行業(yè)報(bào)告里，關(guān)于芯片設(shè)備供應(yīng)周期的預(yù)測(cè)數(shù)據(jù)，還在使用AI系統(tǒng)中存儲(chǔ)的舊參數(shù)。這意味著，所有基于該數(shù)據(jù)的投資建議都存在偏差。

在小宋所在的證券行業(yè)，這種錯(cuò)誤是“致命”的。他的失誤被做成案例，在團(tuán)隊(duì)晨會(huì)上反復(fù)批評(píng)。

“AI幻覺(jué)”導(dǎo)致的偏差，也正成為自動(dòng)駕駛研發(fā)的棘手難題。

上海臨港的自動(dòng)駕駛測(cè)試場(chǎng)內(nèi)，某車企自動(dòng)駕駛研發(fā)部的劉璐摘下AR眼鏡，盯著監(jiān)控屏上的異常軌跡皺起眉頭，這是本周第三起誤觸發(fā)事件。L4級(jí)測(cè)試汽車在通過(guò)無(wú)標(biāo)線道路時(shí)，突然對(duì)右側(cè)綠化區(qū)實(shí)施緊急制動(dòng)。回放測(cè)試錄像發(fā)現(xiàn)，雷達(dá)將隨風(fēng)擺動(dòng)的塑料棚膜識(shí)別成橫穿馬路的行人，而攝像頭因逆光未能及時(shí)修正。

劉璐所在的研究團(tuán)隊(duì)每周要分析超過(guò)2000公里的路測(cè)數(shù)據(jù)。在標(biāo)注著“光影干擾”的文件夾里，存有清晨逆光、隧道明暗交替、雪地反光等多種特殊場(chǎng)景。某個(gè)冬日郊外測(cè)試中，激光雷達(dá)曾將雪地里跳躍的太陽(yáng)光影群誤判為滾石，引發(fā)急剎。

“誤觸發(fā)案例很多是因?yàn)榇竽Ｐ透兄獑?wèn)題。”劉璐調(diào)出三個(gè)月的測(cè)試事故統(tǒng)計(jì)，53%的AI系統(tǒng)誤判集中在四種場(chǎng)景：低空飛鳥(niǎo)群、暴雨天劇烈擺動(dòng)的雨刮器、特殊角度護(hù)欄甚至百米外飄舞的塑料袋。這些人類司機(jī)可以輕松識(shí)別的道路信息，卻是AI系統(tǒng)無(wú)法準(zhǔn)確理解的“視覺(jué)陷阱”。

真正的挑戰(zhàn)來(lái)自多傳感器協(xié)同。實(shí)驗(yàn)場(chǎng)的屏幕上，攝像頭堅(jiān)持顯示著“斑馬線上的行人”，而激光雷達(dá)的點(diǎn)云圖卻顯示該區(qū)域空無(wú)一物。“就像人同時(shí)聽(tīng)到好幾個(gè)不知真假的警報(bào)，要瞬間判斷哪個(gè)是真實(shí)的威脅。”劉璐說(shuō)，對(duì)于自動(dòng)駕駛的研發(fā)人員來(lái)說(shuō)，讓AI系統(tǒng)對(duì)此類矛盾判斷的響應(yīng)時(shí)間接近人類駕駛員的反應(yīng)速度，是他們面臨的最大挑戰(zhàn)。

在真實(shí)的馬路上，這樣的“誤會(huì)”可能帶來(lái)嚴(yán)重的危險(xiǎn)。每當(dāng)算法把樹(shù)影錯(cuò)認(rèn)成行人，或是將雨幕解析成車流，劉璐都又一次意識(shí)到，這些都是自動(dòng)駕駛研發(fā)路上必經(jīng)的“錯(cuò)覺(jué)時(shí)刻”，而教AI準(zhǔn)確理解現(xiàn)實(shí)世界，遠(yuǎn)比教它處理清晰規(guī)則更困難。

在社交媒體上，越來(lái)越多的網(wǎng)友開(kāi)始分享自己被AI“欺騙”的經(jīng)歷。

論文截稿的前幾天，材料專業(yè)的大四學(xué)生靜文開(kāi)始發(fā)愁。生成式人工智能軟件普及后，她熟練運(yùn)用著各類AI輔助工具，用Kimi梳理文獻(xiàn)綜述，通過(guò)豆包生成實(shí)驗(yàn)框架，DeepSeek上線后更成為她整理數(shù)據(jù)的得力助手。

然而，這份“依賴”在開(kāi)學(xué)初顯露出隱患。2月18日，靜文通過(guò)AI整理“量子點(diǎn)材料”研究進(jìn)展，系統(tǒng)洋洋灑灑列出27篇參考文獻(xiàn)。可當(dāng)她逐條核實(shí)時(shí)，發(fā)現(xiàn)27篇的參考文獻(xiàn)，只有3篇真實(shí)存在，而這3篇里壓根沒(méi)有關(guān)于“量子點(diǎn)材料突破”的學(xué)術(shù)信息。

人機(jī)博弈

“AI給出的虛假文獻(xiàn)就像皇帝的新衣。”

靜文覺(jué)得，AI可能并非刻意造假，而是將真實(shí)存在的期刊名稱、學(xué)者研究方向、實(shí)驗(yàn)數(shù)據(jù)進(jìn)行概率性組合，最終編織出邏輯自洽卻脫離現(xiàn)實(shí)的回答。

從那之后，她不再盲目地相信AI給出的任何回答，現(xiàn)在，她每看到一篇被引用的文獻(xiàn)，都會(huì)手動(dòng)驗(yàn)證兩個(gè)信息：期刊官網(wǎng)的當(dāng)期目錄和通訊作者實(shí)驗(yàn)室官網(wǎng)的成果列表。

3月4日，醫(yī)生值班室里，汪京嘉對(duì)著閃爍的屏幕發(fā)了好一會(huì)兒呆。

汪京嘉把人工智能比作“雙面鏡”。他說(shuō)，越來(lái)越多的年輕醫(yī)生們開(kāi)始依賴AI撰寫(xiě)病歷小結(jié)、寫(xiě)課題論文，那些看似專業(yè)的醫(yī)學(xué)名詞堆砌下，偶爾也會(huì)冒出“左心室瓣膜鈣化導(dǎo)致糖尿病”之類的荒唐邏輯。

他突然想起前段時(shí)間，有位同事的論文被國(guó)際期刊退回，審稿人用紅字標(biāo)注著：“參考文獻(xiàn)第7、12條查無(wú)此文”。這是一篇用AI輔助完成的課題論文，虛構(gòu)的文獻(xiàn)如同混入珍珠項(xiàng)鏈的塑料珠子，逼真得連DOI編碼（Digital Object Identifier，通過(guò)DOI號(hào)，可以追溯論文發(fā)表的時(shí)間、期刊信息、作者信息等數(shù)據(jù)）都自成體系。

去年春天，一款醫(yī)療AI系統(tǒng)通過(guò)了藥監(jiān)局審批，但可使用權(quán)限被嚴(yán)格框定在影像識(shí)別領(lǐng)域。汪京嘉告訴新京報(bào)記者，AI影像輔助檢測(cè)AI軟件可用于結(jié)節(jié)識(shí)別、結(jié)節(jié)良惡性鑒別診斷以及智能報(bào)告生成。

AI的加入讓醫(yī)學(xué)檢查更加敏銳，也讓業(yè)界擔(dān)心會(huì)造成新的“過(guò)度診療”。事實(shí)上，AI接入CT以后，一路走高的肺結(jié)節(jié)的檢出率已經(jīng)讓越來(lái)越多人陷入焦慮了。

但最棘手的仍是數(shù)據(jù)真相。在使用過(guò)程中，醫(yī)生們必須仔細(xì)甄別AI系統(tǒng)背后的邏輯漏洞，“病理切片的光學(xué)分辨率、檢查報(bào)告的措辭偏差，甚至一句模糊的主訴描述，都可能導(dǎo)致AI誤判。”汪京嘉覺(jué)得，任何AI工具都不是無(wú)所不能的智者，而是需要被交叉驗(yàn)證的協(xié)作者。

人機(jī)博弈有時(shí)也發(fā)生在王賀身上。

有天下午，他盯著屏幕上的警報(bào)記錄哭笑不得，公司新上線的AI安全系統(tǒng)剛剛把行政部同事批量發(fā)送的會(huì)議通知，誤判成了“可疑郵件轟炸”。整齊排列的會(huì)議日程，在AI眼里成了攻擊代碼的偽裝。

作為專業(yè)的程序員，王賀給AI系統(tǒng)設(shè)置了一個(gè)準(zhǔn)則，只允許它“學(xué)習(xí)”國(guó)家網(wǎng)絡(luò)安全機(jī)構(gòu)認(rèn)證的病毒樣本庫(kù)，而來(lái)路不明的網(wǎng)絡(luò)攻擊案例，必須先經(jīng)過(guò)人工審核，才能放入清單。他回憶，上周有同事上傳的“新型詐騙案例”，后來(lái)發(fā)現(xiàn)，其實(shí)是某部科幻小說(shuō)的情節(jié)，幸好被提前攔截。

他覺(jué)得，AI的使用者不能被大模型所主導(dǎo)，而應(yīng)該主導(dǎo)大模型。在與大模型交流時(shí)，優(yōu)化提問(wèn)方式，在一定程度上能減少幻覺(jué)出現(xiàn)，比如要求在指定范圍回答，并提供信息來(lái)源鏈接。

那次重大失誤后，小宋在辦公室支起了雙重驗(yàn)證系統(tǒng)：左側(cè)曲面屏繼續(xù)運(yùn)行AI分析程序，右側(cè)液晶屏則時(shí)刻準(zhǔn)備驗(yàn)證真?zhèn)巍！艾F(xiàn)在我要像法醫(yī)一樣解剖數(shù)據(jù)。”小宋給自己新增了兩條“鐵律”，所有涉及政府文件的信源，必須手動(dòng)查驗(yàn)國(guó)務(wù)院客戶端，有關(guān)財(cái)務(wù)數(shù)字的信息要多次反復(fù)復(fù)核。

他演示著最新的工作流程：AI生成的每段內(nèi)容，都要用兩個(gè)獨(dú)立信源交叉驗(yàn)證，所有財(cái)務(wù)模型必須手工重算關(guān)鍵參數(shù)，就連企業(yè)官網(wǎng)信息，也要對(duì)照紙質(zhì)年報(bào)逐行校閱。

這樣的操作，讓他的發(fā)稿速度退回到兩年前，過(guò)去半小時(shí)完成的行業(yè)簡(jiǎn)報(bào)，現(xiàn)在需要拆解成多個(gè)節(jié)點(diǎn)驗(yàn)證節(jié)點(diǎn)。

最近，劉璐和團(tuán)隊(duì)像教新手司機(jī)認(rèn)路一樣，給自動(dòng)駕駛系統(tǒng)添加了“辨別課”。他們讓AI反復(fù)學(xué)習(xí)數(shù)萬(wàn)種光影類別，有時(shí)是進(jìn)出隧道時(shí)忽明忽暗的強(qiáng)光，有時(shí)是雨天車窗上跳躍的水珠反光，還有高樓玻璃幕墻在陽(yáng)光下制造的“假紅綠燈”。

“就像駕校教練會(huì)帶學(xué)員到復(fù)雜路段實(shí)地訓(xùn)練。”劉璐解釋，他們用計(jì)算機(jī)生成各種逼真的光影干擾場(chǎng)景，讓系統(tǒng)學(xué)會(huì)做判斷，當(dāng)攝像頭看到疑似紅燈的反光時(shí)，會(huì)檢查雷達(dá)是否探測(cè)到實(shí)體障礙物，同時(shí)參考導(dǎo)航地圖確認(rèn)該位置是否真有交通信號(hào)燈，可以有效減少測(cè)試車輛被反光迷惑而突然剎車，就像老司機(jī)能一眼分清霓虹燈和真正的交通信號(hào)。

“AI幻覺(jué)”：一場(chǎng)人機(jī)之間的認(rèn)知博弈-2684

上海臨港自動(dòng)駕駛測(cè)試廠，正在進(jìn)行自動(dòng)駕駛車輛路測(cè)。受訪者供圖

尋找最優(yōu)解

夾雜著虛構(gòu)與偏差的信息，悄然走進(jìn)人們的生活，普通用戶難以分辨屏幕另一端是引經(jīng)據(jù)典的專業(yè)數(shù)據(jù)還是AI幻覺(jué)，這種信任危機(jī)正在醫(yī)療咨詢、法律解讀等專業(yè)領(lǐng)域形成裂痕。

2023年6月，美國(guó)紐約南區(qū)聯(lián)邦地區(qū)法院審理的Mata v. Avianca案件被認(rèn)為是全球首例因“AI幻覺(jué)”而受到司法處罰的案例。

2023年3月1日，Mata的代理律師提交了一份反對(duì)動(dòng)議的聲明，該聲明引用并摘錄了據(jù)稱發(fā)表在《聯(lián)邦判例匯編》《聯(lián)邦補(bǔ)充判例匯編》中的司法判決；然而，這些聲明中引用的判例并非真實(shí)存在，而是由ChatGPT生成的。

在被告律師指出案例無(wú)法找到后，原告律師未能核實(shí)判例的真實(shí)性，并在法院要求提供完整案例文本后，仍然提交了由ChatGPT 生成的“判例”，法官認(rèn)為原告律師的行為違反了執(zhí)業(yè)道德準(zhǔn)則，浪費(fèi)了司法資源，并被處以5000美元的罰款。

“AI在生成答案時(shí)所犯的錯(cuò)誤，是否可以追溯到開(kāi)發(fā)者設(shè)計(jì)時(shí)的缺陷？”“是否應(yīng)賦予人工智能以法律上的人格？”最近，類似這樣的問(wèn)題不斷引發(fā)討論。

有法律專家認(rèn)為，AI的決策如果不具備情感或意識(shí)，就不應(yīng)該被視為“過(guò)失”。也有學(xué)者提出，人工智能具有獨(dú)立自主的行為能力，有資格享有法律權(quán)利并承擔(dān)責(zé)任義務(wù)，應(yīng)當(dāng)具有法律人格，但其具有的僅是有限的法律人格，在必要時(shí)可“刺破人工智能面紗”，對(duì)其適用特殊的侵權(quán)責(zé)任規(guī)范。

北京師范大學(xué)中國(guó)社會(huì)管理研究院院長(zhǎng)、互聯(lián)網(wǎng)發(fā)展研究院院長(zhǎng)李韜告訴新京報(bào)記者，傳統(tǒng)的技術(shù)錯(cuò)誤或失誤的責(zé)任一般由開(kāi)發(fā)者或技術(shù)公司承擔(dān)。這種責(zé)任分配原則已經(jīng)在許多行業(yè)的產(chǎn)品責(zé)任法和醫(yī)療責(zé)任法等法規(guī)中有明確規(guī)定。然而，AI系統(tǒng)的自主性和決策能力，使得這種傳統(tǒng)的責(zé)任界定方式愈發(fā)變得難以適用。

李韜指出，構(gòu)建行之有效的AI治理體系尤為重要，而生成式人工智能責(zé)任認(rèn)定的基本倫理，需要在技術(shù)進(jìn)步和權(quán)利保護(hù)之間求得平衡狀態(tài)，其倫理規(guī)制的關(guān)鍵在于確立一個(gè)既能促進(jìn)創(chuàng)新和進(jìn)步，又能保護(hù)個(gè)人和社會(huì)權(quán)益的倫理框架。

新京報(bào)記者發(fā)現(xiàn)，近期，DeepSeek和OpenAI等平臺(tái)也在用戶協(xié)議和平臺(tái)規(guī)則中提示了輸出出現(xiàn)錯(cuò)誤甚至幻覺(jué)的風(fēng)險(xiǎn)，并突出提示了在法律、醫(yī)療以及金融等垂直領(lǐng)域的直接應(yīng)用風(fēng)險(xiǎn)。

這些平臺(tái)在用戶協(xié)議中通常包含以下免責(zé)聲明：生成內(nèi)容可能不準(zhǔn)確、不完整或具有誤導(dǎo)性，用戶應(yīng)自行核實(shí)；專業(yè)課的應(yīng)用需謹(jǐn)慎，建議專業(yè)人士進(jìn)行復(fù)核；平臺(tái)不對(duì)生成內(nèi)容的準(zhǔn)確性、合法性或適用性承擔(dān)責(zé)任。

面對(duì)來(lái)勢(shì)洶洶的AI幻覺(jué)，一些企業(yè)也在探索“應(yīng)對(duì)之策”。

美國(guó)硅谷一家名為Exa的人工智能公司發(fā)現(xiàn)其搜索引擎用戶出現(xiàn)新的需求：大量企業(yè)客戶苦于無(wú)法驗(yàn)證AI生成內(nèi)容的真實(shí)性。他們開(kāi)發(fā)了AI幻覺(jué)檢測(cè)器，是一款基于實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)驗(yàn)證的核查工具。

根據(jù)其官網(wǎng)發(fā)布的信息，Exa的AI幻覺(jué)檢測(cè)器通過(guò)實(shí)時(shí)抓取權(quán)威數(shù)據(jù)庫(kù)、交叉比對(duì)多源信息，結(jié)合動(dòng)態(tài)更新的產(chǎn)業(yè)知識(shí)圖譜，逐層驗(yàn)證AI生成內(nèi)容中的人物、數(shù)據(jù)、事件是否與可溯源的現(xiàn)實(shí)證據(jù)匹配，并為每個(gè)結(jié)論標(biāo)注可信度評(píng)級(jí)與證據(jù)鏈來(lái)源。

關(guān)于“AI幻覺(jué)能不能徹底被消除？”的問(wèn)題，在行業(yè)專家巫彤寧那里被具象化。

巫彤寧把大模型的創(chuàng)造力比作一把需要精密調(diào)控的雙刃劍。在他看來(lái)，平衡創(chuàng)造性與真實(shí)性的關(guān)鍵在于構(gòu)建雙重防護(hù)體系：首先要提高大模型學(xué)習(xí)知識(shí)的質(zhì)量，通過(guò)更嚴(yán)格的知識(shí)篩選，提高喂給大模型數(shù)據(jù)的質(zhì)量，從而從根本上降低產(chǎn)生幻覺(jué)的可能性；其次，應(yīng)建立用戶糾錯(cuò)機(jī)制：讓用戶在使用中實(shí)時(shí)反饋模型輸出中的錯(cuò)誤或不準(zhǔn)確之處，這些反饋能像錯(cuò)題本一樣幫AI記住教訓(xùn)，越用越準(zhǔn)。

除此之外，巫彤寧經(jīng)常呼吁，讓大模型分場(chǎng)景工作，針對(duì)法律、醫(yī)療等低容錯(cuò)率領(lǐng)域，強(qiáng)制激活“嚴(yán)謹(jǐn)模式”，要求模型檢索最新權(quán)威資料并標(biāo)注來(lái)源，而面對(duì)創(chuàng)意需求時(shí)則開(kāi)放聯(lián)想空間，允許“開(kāi)腦洞”，為用戶帶來(lái)更多靈感。

“我們要做的，是找到人工智能和人類中間的平衡。”巫彤寧知道，徹底消除幻覺(jué)并不現(xiàn)實(shí)，而在AI信息爆炸時(shí)代，始終保持獨(dú)立思考的能力、辨別信息真?zhèn)蔚哪芰Ρ全@取信息的能力更寶貴。

新京報(bào)記者咸運(yùn)禎

編輯陳曉舒

校對(duì) 楊利