清華大學(xué)黃民烈團(tuán)隊(duì)：發(fā)布安全評估框架促大模型邁向可控可信 - 國內(nèi)

中新網(wǎng)北京3月27日電 (賈君玉張素)記者近日采訪清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘副教授黃民烈獲悉，歷時(shí)兩年多時(shí)間，由他帶領(lǐng)的科研團(tuán)隊(duì)建立了大模型安全分類體系，并從系統(tǒng)層面和模型層面等打造了大模型安全框架。

近年來，隨著技術(shù)突破，大模型獲得快速發(fā)展并在多個(gè)場景得到應(yīng)用。不過，其存在的事實(shí)性錯(cuò)誤、知識盲區(qū)等問題，以及面臨的訓(xùn)練數(shù)據(jù)來源合規(guī)性、生成內(nèi)容安全性等風(fēng)險(xiǎn)，也已受到廣泛關(guān)注。

在黃民烈看來，要規(guī)避安全風(fēng)險(xiǎn)，降低人工智能對人類的負(fù)面影響，關(guān)鍵在于大模型底座。“大規(guī)模語言模型(LLM)發(fā)展到現(xiàn)在，模型結(jié)構(gòu)和規(guī)模已有很大進(jìn)展，但實(shí)用性還有待加強(qiáng)，我們應(yīng)該通過技術(shù)讓模型更加安全、可控，使其快速適配更多的應(yīng)用場景。”他說。

此次，聆心智能聯(lián)合清華大學(xué)CoAI實(shí)驗(yàn)室共同發(fā)布大模型安全評估框架。作為聆心智能的創(chuàng)始人，黃民烈介紹說，他們希望通過對大模型應(yīng)用邊界進(jìn)行定義，促進(jìn)大模型生態(tài)健康發(fā)展，推動(dòng)人工智能研究和應(yīng)用向更有用、更可信、更安全邁進(jìn)。

據(jù)知，黃民烈團(tuán)隊(duì)建立的大模型安全分類體系中設(shè)定的不安全對話場景，包括犯罪違法、身體健康、心理健康、財(cái)產(chǎn)隱私、歧視/偏見、辱罵/仇恨言論等方面。科研人員針對這些安全場景對大模型進(jìn)行升級，使之具備基本的安全性，“能夠在遇到安全問題時(shí)給予正確的回復(fù)策略，不進(jìn)行判斷誤導(dǎo)”。

此外，著眼于容易觸發(fā)的安全問題類型，科研團(tuán)隊(duì)還總結(jié)、設(shè)計(jì)出一般模型難以處理的“安全攻擊方式”，使安全體系更加完善。

黃民烈表示，未來，他們將打造中文大模型的安全風(fēng)險(xiǎn)評估的Leaderboard，為國內(nèi)對話大模型的安全評估提供公平公開的測試平臺(tái)，并提供針對中文對話的安全場景等，“依托自身核心技術(shù)，在可控可信的超擬人大模型基礎(chǔ)之上，通過建立安全、可控的模型邊界，讓人工智能提供可信、可靠的輸出”。(完)