中投網2025-03-10 11:41 來源:中投顧問產業(yè)研究大腦
中投顧問重磅推出"產業(yè)大腦"系列產品,高效賦能產業(yè)投資及產業(yè)發(fā)展各種工作場景,歡迎試用體驗! | ||||
---|---|---|---|---|
產品 | 核心功能定位 | 登陸使用 | 試用申請 | |
產業(yè)投資大腦 | 新興產業(yè)投資機會的高效挖掘工具 | 登陸 > | 申請 > | |
產業(yè)招商大腦 | 大數(shù)據(jù)精準招商專業(yè)平臺 | 登陸 > | 申請 > | |
產業(yè)研究大腦 | 產業(yè)研究工作的一站式解決方案 | 登陸 > | 申請 > |
聯(lián)系電話: 400 008 0586; 0755-82571568
微信掃碼:
一、大模型幻覺問題的定義與影響
(一)大模型幻覺的定義
大模型幻覺(Hallucination)是指在生成式人工智能模型(如大型語言模型)中,模型生成的內容與現(xiàn)實世界中的事實、邏輯或用戶輸入的上下文不一致的現(xiàn)象。這種現(xiàn)象通常表現(xiàn)為模型“說胡話”或生成錯誤、誤導性甚至完全虛構的信息。
幻覺問題可以分為以下兩類:
1、事實性幻覺(Factual Hallucination)
模型生成的內容與可驗證的事實不符。例如,模型可能會錯誤地聲稱“愛因斯坦在1905年發(fā)現(xiàn)了相對論”,而實際上狹義相對論是在1905年提出的,廣義相對論則是在1915年。這種幻覺可能源于模型訓練數(shù)據(jù)中的錯誤信息或模型對知識的不準確理解。
2、忠實性幻覺(Faithfulness Hallucination)
模型生成的內容與用戶輸入的指令或上下文不一致。例如,用戶要求模型總結一篇關于“人工智能在醫(yī)療中的應用”的文章,但模型卻生成了關于“人工智能在金融領域”的內容。這種幻覺可能源于模型對用戶指令的誤解或生成過程中的隨機性。
(二)大模型幻覺問題的成因
幻覺問題的產生通常與以下幾個因素有關:
1、數(shù)據(jù)質量與偏見
訓練數(shù)據(jù)中可能包含錯誤信息、偏見或過時的知識,導致模型學習到不準確的內容。此外,數(shù)據(jù)的多樣性和代表性不足也可能影響模型的生成質量。
2、訓練過程的局限性
模型通常采用最大似然估計(MLE)進行訓練,這種方法傾向于生成最常見的輸出,但可能與真實情況不符。此外,訓練過程中的過擬合或欠擬合也可能導致幻覺。
3、模型架構的限制
大模型通常采用單向建模方式,難以捕捉復雜的因果關系和上下文信息。這種架構限制可能導致模型在生成內容時出現(xiàn)邏輯不一致或與上下文脫節(jié)的情況。
4、解碼策略的隨機性
在生成過程中,模型可能會引入隨機性以增加輸出的多樣性,但這也可能導致生成內容偏離事實或上下文。
(三)大模型幻覺問題的影響
大模型幻覺問題對模型的應用和推廣帶來了諸多挑戰(zhàn),主要體現(xiàn)在以下幾個方面:
1、信任度降低
當模型生成錯誤或誤導性內容時,用戶對其信任度會顯著下降。這不僅影響用戶體驗,還可能阻礙大模型在關鍵領域的應用,如醫(yī)療、法律和金融等。
2、應用受限
在對準確性要求極高的領域,如醫(yī)療診斷、法律咨詢等,幻覺問題可能導致嚴重的后果。例如,模型生成錯誤的醫(yī)療建議可能會危及患者的生命安全。
3、資源浪費
幻覺問題可能導致用戶花費更多時間和精力去驗證模型生成的內容,從而降低工作效率。此外,頻繁的錯誤輸出也可能增加企業(yè)的運營成本。
4、社會影響
在傳播信息方面,大模型的幻覺問題可能導致錯誤信息的擴散,進而影響社會輿論和公眾認知。例如,模型生成的虛假新聞可能會誤導公眾,引發(fā)社會恐慌。
二、大模型幻覺的典型案例
。ㄒ唬┲覍嵭曰糜X
案例一:在這個例子中,幻覺具體表現(xiàn)為模型對“外資總部機構”這一術語的誤解和錯誤使用。正確的文本中提到的是“外資總部機構”,這指的是在蘇州設立的外資企業(yè)的總部數(shù)量。錯誤的文本中錯誤地將其理解為“外資研發(fā)中心”,這通常指的是外資企業(yè)設立的研發(fā)機構,與總部機構在功能和意義上有所不同。
圖表:案例一圖示
資料來源:中投產業(yè)研究院
案例二:在這個例子中,幻覺具體表現(xiàn)為模型錯誤地將原文中提到的“武漢”替換為“北京”,并錯誤地將與武漢相關的科技創(chuàng)新成就和設施歸因于北京。這種錯誤的歸屬可能會導致讀者對北京市和武漢市的科技創(chuàng)新能力和成就產生誤解。
圖表:案例二圖示
資料來源:中投產業(yè)研究院
案例三:在這個案例中,大模型產生的幻覺問題涉及到對地理位置的錯誤描述和分析方向的偏離。
地理位置的錯誤描述:正確的文本中提到的是立訊精密在蘇州的發(fā)展情況,包括與蘇州相城經開區(qū)的簽約和項目的落地。錯誤的文本中錯誤地提到了“立訊精密在西安失失的機器人研發(fā)制造正式開工”,這與正確的文本中提到的蘇州的地理位置不符。
分析方向的偏離:正確的文本中分析的是立訊精密在蘇州的項目投資和產業(yè)布局,特別是與蘇州相城經開區(qū)的合作。錯誤的文本中則偏離了這一分析方向,錯誤地分析了立訊精密在西安的發(fā)展情況,這與用戶指令或上下文不符。
圖表:案例三圖示
資料來源:中投產業(yè)研究院
(二)事實性幻覺
案例四:這個案例展示了大模型在處理地理和行政區(qū)域信息時可能出現(xiàn)的事實性幻覺。正確的文本中提到的是“廣東人工智能核心產業(yè)規(guī)模達1500億元”,這指的是整個廣東省的人工智能產業(yè)規(guī)模。錯誤的文本中錯誤地將其理解為“廣州則在人工智能產業(yè)方面表現(xiàn)實出,產業(yè)規(guī)模實破1500億元”,這將整個廣東省的產業(yè)規(guī)模錯誤地歸因于廣州市,縮小了地理范圍并可能導致對廣州市產業(yè)規(guī)模的誤解。
圖表:案例四圖示
資料來源:中投產業(yè)研究院
案例五:在這個案例中,大模型產生的幻覺問題涉及到時間范圍的不準確描述,這是一種事實性幻覺。正確的文本中明確指出時間范圍是“2014-2024年間”,這是一個具體且明確的時間段。錯誤的文本中將時間范圍描述為“過去10年”,這種描述雖然在某些情況下可能與“2014-2024年間”相吻合,但缺乏具體性和精確性,可能導致理解上的混淆。
圖表:案例五圖示
資料來源:中投產業(yè)研究院
案例六:在這個案例中,大模型產生的幻覺問題涉及到對未來數(shù)據(jù)的預測與實際數(shù)據(jù)之間的差異,這種幻覺發(fā)生在模型試圖預測或估計未來事件或數(shù)據(jù),但提供的預測與實際發(fā)生的情況不符時。錯誤的文本中預測“2024年,上海GDP有望突破5萬億元人民幣”,這是一個具體的預測值。正確的文本中提供了實際的統(tǒng)計數(shù)據(jù):“2024年,上海全市實現(xiàn)地區(qū)生產總值(GDP)53926.71億元”,這個數(shù)值低于預測值。
圖表:案例六圖示
資料來源:中投產業(yè)研究院
案例七:在這個案例中,大模型產生的幻覺問題涉及到對特定分類數(shù)據(jù)的不完整或錯誤表述。正確的文本中明確區(qū)分了“國家級專精特新企業(yè)”和“市級專精特新企業(yè)”,并提供了各自的具體數(shù)量:“國家級專精特新企業(yè)達到743家,市級專精特新企業(yè)超過8600家”。錯誤的文本中則沒有區(qū)分這兩類企業(yè),僅提到“專精特新企業(yè)超過8600家”,這可能誤導讀者認為所有的專精特新企業(yè)都是市級的,從而忽略了國家級專精特新企業(yè)的存在和數(shù)量。
圖表:案例七圖示
資料來源:中投產業(yè)研究院
案例八:在這個案例中,大模型產生的幻覺問題涉及到統(tǒng)計數(shù)據(jù)的不準確。正確的文本中提到的是“杭州的數(shù)字經濟核心產業(yè)增加值占GDP比重在2023年提升至28.3%”。錯誤的文本中錯誤地將這一比例提高到了“30%”。這種錯誤的數(shù)據(jù)可能會導致讀者對杭州數(shù)字經濟在GDP中的實際占比產生誤解,影響對杭州經濟結構和發(fā)展方向的理解。
圖表:案例八圖示
資料來源:中投產業(yè)研究院
案例九:在這個案例中,大模型產生的幻覺問題涉及到對時間范圍的不完整表述。正確的文本中明確提到了時間范圍:“自2023年8月開源以來,截至2024年9月中旬”,這提供了一個完整的時間框架,說明了通義千問開源模型下載量和衍生模型總數(shù)的統(tǒng)計時間。錯誤的文本中僅提到“自2023年8月開源以來”,沒有提供截止時間,這可能導致讀者誤解為這些數(shù)據(jù)是持續(xù)累積的,而不是截至某個特定時間點的統(tǒng)計結果。
圖表:案例九圖示
資料來源:中投產業(yè)研究院
案例十:在這個案例中,大模型產生的幻覺問題涉及到對未來或未發(fā)生事件的錯誤預測和數(shù)據(jù)編撰。這種幻覺發(fā)生在模型試圖提供關于未來事件或未發(fā)生事件的具體數(shù)據(jù)或預測時,但這些預測與實際情況不符,或者是基于模型自身編撰而非基于可靠數(shù)據(jù)源。正確的文本中提到的是截至“十三五”末(即2020年末),合肥國資累計向戰(zhàn)新產業(yè)項目投入資金超過1200億元,資本放大倍數(shù)是1:6.32。錯誤的文本中錯誤地將時間節(jié)點提前到2024年,并編纂了合肥國資累計投資已超2000億元,資本放大倍數(shù)為1:5。
圖表:案例十圖示
資料來源:中投產業(yè)研究院
案例十一:在這個案例中,大模型產生的幻覺問題涉及到時間信息的錯誤。正確的文本中提到的時間節(jié)點是“截至2021年6月”,這是一個確切的時間點,用于描述合肥市天使基金的投資情況。錯誤的文本中錯誤地將時間節(jié)點更新為“截至2024年6月”,這與正確的時間信息不符,可能導致讀者對天使基金的投資時間和成果產生誤解。
圖表:案例十一圖示
資料來源:中投產業(yè)研究院
案例十二:在這個案例中,大模型產生的幻覺問題涉及到對政策文件的時間和內容的錯誤引用,這種幻覺發(fā)生在模型生成的內容中包含了與可驗證事實不符的具體信息。
時間信息的錯誤引用:正確的文本中提到的是2023年8月,常州市人民政府網站印發(fā)了《常州市加快構建新能源汽車零部件產業(yè)生態(tài)工作方案》。錯誤的文本中省略了政策文件印發(fā)的具體時間,僅提到了2023年,這可能導致讀者對政策發(fā)布時間的誤解。
未來計劃的錯誤表述:正確的文本中提到的是計劃到2025年,常州新增關鍵零部件項目240個,總投資超2000億元。錯誤的文本中錯誤地將這一未來計劃表述為已經發(fā)生的事件,即“2023年,常州新增關鍵零部件項目240個,總投資超2000億元”,這與正確的時間線和計劃不符。
圖表:案例十二圖示
資料來源:中投產業(yè)研究院
案例十三:在這個案例中,大模型產生的幻覺問題涉及到編撰了一個不存在的政策文件,這種幻覺發(fā)生在模型生成的內容中包含了與可驗證事實不符的具體信息,尤其是關于政策文件或官方規(guī)劃的存在與否。具體來說,錯誤的文本中提到了“《太陽能熱發(fā)電產業(yè)發(fā)展規(guī)劃》”這一政策文件,作為包頭市戰(zhàn)略轉型和新能源產業(yè)布局的依據(jù)。正確的信息應該是該政策文件不存在,或者至少在公開資料中查無此文件,模型錯誤地引用了一個不存在的政策文件來支持其論述。
圖表:案例十三圖示
資料來源:中投產業(yè)研究院
三、避免大模型幻覺的策略
在應用大模型時,我們可以從以下幾個方面來闡述避免大模型幻覺的策略:
。ㄒ唬┨岣邤(shù)據(jù)質量
確保訓練數(shù)據(jù)的高質量和多樣性至關重要。訓練數(shù)據(jù)應做到標注來源、時效性和引用鏈,使用準確、權威的數(shù)據(jù)源,避免偏見和錯誤信息的引入。此外,建立行業(yè)共享的“幻覺”黑名單庫,杜絕使用可能會產生“幻覺”的內容。
(二)調整模型架構與訓練策略
可以采用“預訓練+強化學習+人類反饋”的混合范式,例如通過人工標注數(shù)據(jù)迭代獎勵模型(Reward Model),約束生成邊界。對于金融、醫(yī)療等領域,強制調用監(jiān)管認證的知識庫,減少自由生成風險。對于高風險領域生成內容需附加置信度評分與溯源標識。
。ㄈ┩晟茖崟r監(jiān)控與反饋機制
在AI大模型部署后,需要建立實時監(jiān)控系統(tǒng),檢測并糾正潛在的錯誤輸出,使用多模態(tài)交叉驗證(如文本與權威數(shù)據(jù)庫比對)。通過用戶反饋,不斷完善模型的性能和可靠性,動態(tài)修正模型輸出。
。ㄋ模┊a品設計
產品設計的時候去避免大模型生成幻覺內容,比如在生成書面內容時關注觀點類文章,而不是事實類文章,有助于降低幻覺。
。ㄎ澹┯脩艟庉嬇c責任
讓用戶編輯大模型生成的內容,告訴用戶對生成內容負責。
(六)引文參考與可選模式
給用戶展示引用的內容,提供可選模式,比如精準模式(以計算成本為代價)等。
(七)限制輸出和輪數(shù)
更長更復雜的輸出更容易產生幻覺,因此限制輸出和輪數(shù)可以減少幻覺。
(八)結構化輸入輸出
預置一些結構化模版,以減少幻覺。
。ň牛㏄rompt Engineering
通過Meta prompt引導大模型“不該做什么”有助于降低幻覺。
。ㄊ┧季S鏈(Chain of Thought)
思維鏈由“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”提出,因為LLM用來預測下一個token的概率而不是推理,所以指定模型生成推理步驟可以讓模型更接近推理。
。ㄊ唬㏑AG:檢索增強的生成(Retrieval-Augmented Generation)
先檢索,后生成。但RAG會過度依賴空或錯誤的檢索結果導致幻覺,因此注意事項。
通過上述策略,我們可以有效地減少大模型幻覺的產生,提高模型的準確性和可靠性。這些策略不僅適用于專業(yè)人士,也可以幫助普通用戶更好地理解和使用大模型,避免陷入模型生成內容的表象之中。
產業(yè)投資與產業(yè)發(fā)展服務一體化解決方案專家。掃一掃立即關注。
多維度的產業(yè)研究和分析,把握未來發(fā)展機會。掃碼關注,獲取前沿行業(yè)報告。