新方法避免AI一本正經“胡言亂語”
來源:科普中國
發布時間:2024-09-12
瀏覽次數:1147

目前,大語言模型逐漸成為(wei) 文學、法律、醫學、自然科學研究等領域中不可或缺的工具。然而,在應用過程中,大語言模型常會(hui) 出現 “幻覺”現象——可能生成看似合理但實際並不準確或不真實的信息。比如,在新聞領域,大語言模型可能會(hui) 編造出完全不存在的新聞事件;在法律領域,它可能引用虛構的法律條文和案例;在醫學領域,它可能會(hui) 提供錯誤的診療建議,甚至危及患者生命安全。鑒於(yu) 此,用戶在使用這些大語言模型輸出的答案時不要盲目相信,而應對每次輸出的答案進行仔細核實和驗證。

英國牛津大學研究團隊近日在國際學術期刊《自然》上發表論文,嚐試解決(jue) 大語言模型輸出中的這種“幻覺”現象,從(cong) 而提高輸出的可信性。通過評估大語言模型在特定提示詞下生成內(nei) 容時的不確定性,可計算出該模型的困惑程度。作為(wei) 一種警示,它提醒用戶或模型自身采取額外的循證措施,以確保更準確地輸出答案。

為(wei) 了更準確衡量模型的困惑程度,該論文引入了“語義(yi) 熵”概念來計算輸出的不確定性。所謂語義(yi) 熵,實際上是信息熵的一種,用於(yu) 衡量一個(ge) 物理係統中所包含的信息量。

為(wei) 了簡單理解“熵”所表示的意思,我們(men) 可以想象一個(ge) 人在岔路口時作出判斷的情形:如果這個(ge) 人向左走或向右走的概率相同,那麽(me) 這是“熵”的最大情況,代表信息不確定性的極大值,說明這個(ge) 人對前方的路完全沒有把握;而如果這個(ge) 人總是選擇向左走,從(cong) 不選擇向右走,則這是“熵”的最小情況,代表信息不確定性的極小值,說明這個(ge) 人對前方的路完全有把握。

然而,當涉及語言時,情況會(hui) 變得更加複雜。相同的意思可以通過不同的表達方式來傳(chuan) 達。例如, “埃菲爾鐵塔的位置在哪裏”,答案可以是“巴黎”“在巴黎”或“在法國首都”。為(wei) 了解決(jue) 這種語言本身導致的不確定性,研究人員將意義(yi) 相同的回答進行聚類,從(cong) 而形成一個(ge) 統一的輸出答案,進而計算出聚類後模型輸出答案的“熵”。如果模型輸出的句子都是表達相同語義(yi) 的句子,那麽(me) 語義(yi) 熵值就會(hui) 較低,這意味著模型對於(yu) 自己的輸出答案非常確定;反之, 語義(yi) 熵則會(hui) 很高,表明模型對自己輸出的答案感到不確定。

利用語義(yi) 熵概念,研究人員對包括GPT-4和LLaMA2在內(nei) 的多個(ge) 大語言模型進行深入研究。結果顯示,語義(yi) 熵在所有模型和數據集上的表現都非常出色,是目前用於(yu) 評估模型困惑程度的最佳方法,能有效識別出大語言模型是否在“胡言亂(luan) 語”。另外,通過對大語言模型進行反複提問,我們(men) 可以有效地定量計算出它對問題答案的不確定程度,並通過拒絕回答不確定的問題來提高輸出答案的整體(ti) 準確度。

語義(yi) 熵的優(you) 勢顯而易見,它不需要對大語言模型進行改動或重新訓練,也不需要額外的成本就可立即應用於(yu) 目前所有的大語言模型。此外,在設計大語言模型時,我們(men) 可以將語義(yi) 熵作為(wei) 參考指標,在遇到可能不確定的答案時可以選擇拒絕回答或嚐試進行聯網搜索,從(cong) 而提高答案的可靠性。語義(yi) 熵甚至可以用於(yu) 人類也不知道答案的未知問題,定量判斷大語言模型輸出答案的確定性。

值得注意的是,利用語義(yi) 熵來判斷大語言模型輸出的困惑程度,並不等同於(yu) 對輸出正確與(yu) 否的判斷。換句話說,大語言模型輸出答案具有很低的語義(yi) 熵,隻意味著它在其已有的訓練數據基礎上確信自己答案是正確的。這表明大語言模型有極高概率生成單一語義(yi) 的句子,但這些句子是否實際正確仍無法完全保證。

盡管如此,這項研究無疑是在實現完全機器自主語言生成的道路上邁出了重要一步,為(wei) 大語言模型理解其自信度提供了新的視角,給未來發展帶來了無限可能。

(作者王琳琳係中國科普作家協會(hui) 會(hui) 員、吉林省科學技術工作者服務中心助理研究員,劉傳(chuan) 波係吉林省科普創作協會(hui) 會(hui) 員、中國科學院長春應用化學研究所博士)




歡迎掃碼關(guan) 注深i科普!

我們(men) 將定期推出

公益、免費、優(you) 惠的科普活動和科普好物!


聽說,打賞我的人最後都找到了真愛。
做科普,我們是認真的!
掃描關注深i科普公眾號
加入科普活動群
  • 參加最新科普活動
  • 認識科普小朋友
  • 成為科學小記者