大模型的安全風(fēng)險及應(yīng)對建議
文 | 中國科學(xué)院信息工程研究所 虎嵩林
習(xí)近平總書記指出:“要重視通用人工智能發(fā)展,營造創(chuàng)新生態(tài),重視防范風(fēng)險”。近年來,以生成式預(yù)訓(xùn)練大模型(GPT)為代表的生成式人工智能大模型(簡稱“大模型”)迅猛發(fā)展,顯著提升了通用理解和生成能力,但也帶來了前所未有的安全風(fēng)險。本文在梳理當(dāng)前大模型的認(rèn)知應(yīng)用、信息應(yīng)用和物理應(yīng)用三類應(yīng)用模式的基礎(chǔ)上,分析其對國家安全的沖擊。因此,本文建議建立國家級大模型安全科技平臺,搶占人工智能安全科技制高點,突破大模型安全關(guān)鍵技術(shù),培育人才隊伍,助力人工智能安全產(chǎn)業(yè)集群發(fā)展,為人工智能大模型的可持續(xù)健康發(fā)展保駕護(hù)航。
一、大模型應(yīng)用的深度和廣度不斷拓展
隨著大模型及其應(yīng)用的蓬勃發(fā)展,繼 OpenAI推 出 ChatGPT 之后,國內(nèi)外科技公司如谷歌、Meta、百度、阿里巴巴、智譜和百川等也迅速跟進(jìn),相繼推出了各自的大模型,并積極投入到大模型賦能的新型應(yīng)用中。參照認(rèn)知域、信息域和物理域的劃分方法,當(dāng)前基于大模型的應(yīng)用主要可以分為三類。
一是認(rèn)知應(yīng)用,即基于大模型的信息內(nèi)容生成應(yīng)用,涵蓋文本、圖像、音頻、視頻生成以及跨模態(tài)生成,典型的代表如 ChatGPT、Sora、GPT-4o 等。據(jù)量子位智庫測算,2028 年起,我國人工智能生成內(nèi)容(AIGC)產(chǎn)業(yè)市場規(guī)模將持續(xù)保持高速增長,2030 年市場規(guī)模超萬億。人工智能生成內(nèi)容將成為認(rèn)知域的重要組成部分。同時,大模型認(rèn)知類應(yīng)用也將成為繼社交網(wǎng)絡(luò)和推薦平臺之后,人們獲取信息的新形態(tài),這將深刻影響人類的思想和意識形態(tài)。
二是信息應(yīng)用,即基于大模型的信息系統(tǒng)指令控制應(yīng)用,以智能體為典型代表。大模型賦能的智能體能夠訪問網(wǎng)絡(luò)、調(diào)用應(yīng)用程序編程接口(API),使用各類信息系統(tǒng)工具,例如電力系統(tǒng)智能體能夠自主理解歷史數(shù)據(jù)、感知實時信息,從而實現(xiàn)電力調(diào)度策略的優(yōu)化等。大模型與信息系統(tǒng)的深度融合將對信息域的應(yīng)用形態(tài)演變產(chǎn)生深遠(yuǎn)影響。據(jù)國外調(diào)研機(jī)構(gòu) Markets and Markets預(yù)計,2023 年全球自主人工智能和自主智能體(Autonomous Agent)市場的收入規(guī)模超過 48 億美元,到 2028 年有望達(dá)到 285 億美元左右(約合2000 億元人民幣)。
三是物理應(yīng)用,即基于大模型的物理世界行為控制,包括對工業(yè)設(shè)備、無人機(jī)、機(jī)器人等的控制,典型代表如具身智能。人形機(jī)器人作為具身智能的一種形態(tài),有望成為人工智能下一個重要落地應(yīng)用場景。根據(jù)IFR和中國電子學(xué)會數(shù)據(jù),盡管人形機(jī)器人處于起步階段,但參照其他電子產(chǎn)品滲透率超過 20% 后將爆發(fā)式增長,預(yù)計到 2030 年,我國人形機(jī)器人市場規(guī)模有望達(dá)到約 8700 億元。此外,由人工智能賦能的各類自主武器系統(tǒng)也已經(jīng)投入實戰(zhàn),有望引發(fā)繼火藥和核武器之后的“第三次軍事革命”。從認(rèn)知應(yīng)用到信息應(yīng)用、物理應(yīng)用,大模型應(yīng)用的深度和廣度不斷擴(kuò)展,正在發(fā)展成為人類價值觀和知識的重要載體,以及認(rèn)知和決策的重要基礎(chǔ)設(shè)施。
二、大模型安全風(fēng)險引發(fā)全球關(guān)切
在賦能新質(zhì)生產(chǎn)力發(fā)展的同時,大模型的安全風(fēng)險也在全球范圍內(nèi)引發(fā)了高度關(guān)注。計算機(jī)領(lǐng)域的國際最高獎項——圖靈獎得主杰弗里·辛頓以及 OpenAI 公司 CEO 薩姆·奧爾特曼等領(lǐng)軍人物,都曾通過聲明或文章聯(lián)名發(fā)出警告,指出這些模型可能帶來的“毀滅性”風(fēng)險,并將其與流行病以及核戰(zhàn)爭相提并論。此外,《自然》(Nature)雜志預(yù)測 2024 年值得期待的重大科學(xué)事件:GPT5的發(fā)布和聯(lián)合國人工智能高級別咨詢機(jī)構(gòu)將于 2024 年年中發(fā)布人工智能治理報告,這也反映出全球?qū)y(tǒng)籌發(fā)展和安全的重大關(guān)切。我們認(rèn)為,大模型將在認(rèn)知、信息和物理三個領(lǐng)域?qū)φ巍⒔?jīng)濟(jì)、軍事、文化等總體國家安全觀涉及的各個方面產(chǎn)生沖擊。
一是認(rèn)知域安全。數(shù)據(jù)污染、模型算法的局限性或者惡意攻擊等因素,都可能導(dǎo)致大模型歪曲正確的價值觀,生成和散播虛假有害信息,誤導(dǎo)人類決策,從而破壞政治、文化等領(lǐng)域的認(rèn)知安全根基,甚至成為破壞穩(wěn)定的社會操縱工具。
二是信息域安全。大模型正迅速成為智能化時代的基礎(chǔ)底座,其地位類似于數(shù)字化時代“數(shù)據(jù)庫”。如果安全漏洞被惡意利用,可能產(chǎn)生各類非法工具調(diào)用和操作,將嚴(yán)重威脅信息系統(tǒng)的安全與穩(wěn)定運(yùn)行。此外,基于大模型的網(wǎng)絡(luò)攻防技術(shù)的發(fā)展也將加速大模型武器化的趨勢,顛覆現(xiàn)有的網(wǎng)絡(luò)和系統(tǒng)安全格局,對信息系統(tǒng)產(chǎn)生破壞性影響。
三是物理域安全。大模型已經(jīng)被廣泛應(yīng)用于無人機(jī)等領(lǐng)域的自動控制以及 FigureAI(與 OpenAI 合作開發(fā)自主通用人形機(jī)器人的公司)為代表的具身智能中,成為包括工控設(shè)備、武器裝備在內(nèi)的各類物理系統(tǒng)的“神經(jīng)中樞”。對大模型的惡意利用或安全攻擊,可能引發(fā)設(shè)備失控、物理系統(tǒng)損毀,甚至導(dǎo)致嚴(yán)重的戰(zhàn)爭災(zāi)難。
需要強(qiáng)調(diào)的是,大模型本身正在從人類可利用的工具客體向認(rèn)識和改造自然社會的主體轉(zhuǎn)變。由于其豐富的創(chuàng)造潛力,大模型已被廣泛應(yīng)用于數(shù)學(xué)定理證明、化學(xué)研究等科學(xué)探索中。在社會層面,《科學(xué)》(Science)雜志的政策論壇(Policy Forum)欄目中的一篇文章中提出,人工智能可以在無需人類指導(dǎo)的情況下獨立運(yùn)營公司,成為具有權(quán)利和義務(wù)的法律主體,并呼吁為這一新的“物種”制定相應(yīng)的法律框架。隨著大模型在社會生產(chǎn)和生活各個領(lǐng)域的“主體化”,技術(shù)革新將不斷引發(fā)倫理和法律層面的深刻變革。更嚴(yán)重的是,一旦機(jī)器實現(xiàn)了通用人工智能,擺脫了人類的控制,在認(rèn)知域、信息域、物理域上自主部署,與各類武器系統(tǒng)連接,并“毫無人性”地指揮殺戮和破壞,這將給人類和地球帶來滅絕式的風(fēng)險?!罢驹谑致房诘娜祟悺睂⒂瓉砣斯ぶ悄艿摹皧W本海默時刻”。
在大模型基礎(chǔ)設(shè)施屬性日益凸顯的智能時代,沒有大模型的安全,就無法保障大模型技術(shù)和產(chǎn)業(yè)的健康快速發(fā)展。確?;诖竽P偷臄?shù)字和物理空間應(yīng)用安全,促使大模型遵循人類價值觀、服從人類意圖,并實現(xiàn)有用性(Helpful)、無害性(Harmless)和誠實性(Honest)3H 多目標(biāo)的平衡,已經(jīng)成為亟待解決的重大難題。
三、大模型安全科技發(fā)展仍處在起步階段
當(dāng)前,大模型安全已成為全球共識,并成為大國科技競爭的重要制高點。歐盟發(fā)布《人工智能法案》,提出全面的人工智能分級監(jiān)管機(jī)制,開啟了人工智能全球監(jiān)管時代。美國于 2023 年通過行政命令,要求評估人工智能的安全風(fēng)險。拜登政府已多次與人工智能領(lǐng)域的企業(yè)家和學(xué)者會面,并提出了《人工智能權(quán)利法案藍(lán)圖》。在英國召開的首屆人工智能安全全球峰會上,中國、美國、英國、德國等 28 國及歐盟共同簽署了《布萊切利宣言》,強(qiáng)調(diào)了理解和解決人工智能安全問題的緊迫性。我國于 2023 年 7 月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,提出促進(jìn)創(chuàng)新和依法治理相結(jié)合的監(jiān)管原則,以支持生成式人工智能大模型的安全發(fā)展。同時,我國也積極在國際上發(fā)出人工智能治理的中國倡議,提出堅持“智能向善(AI for good)”的宗旨,以不斷提升人工智能技術(shù)的安全性、可靠性、可控性和公平性。
(一)大模型安全技術(shù)研究尚處于早期發(fā)展階段當(dāng)前,大模型安全研究尚處于早期發(fā)展階段,涵蓋了眾多的研究方向。這些研究領(lǐng)域包括但不限于生成內(nèi)容檢測、模型水印、紅隊測試、對齊、越獄攻擊、有害內(nèi)容識別、隱私保護(hù)以及安全理論探析等,且目前尚未形成一個得到廣泛認(rèn)可的分類體系。從網(wǎng)絡(luò)安全角度出發(fā),我們可以將其簡單劃分為安全測評、安全攻擊、風(fēng)險識別和安全防護(hù)四個方面。
一是安全測評。主要目標(biāo)是測評大模型在預(yù)防不良輸出、確保數(shù)據(jù)隱私、消除偏見和保障公平性、防范對抗性攻擊等方面的能力。目前,安全測評基準(zhǔn)包括關(guān)注有毒和虛假信息的 HELM,聚焦攻擊冒犯、偏見歧視等七個安全維度的 SafetyBench,以及一些專注于某一特定安全維度的評測工作等。
二是安全攻擊。 主要分為“善意”的紅隊測試和惡意攻擊兩種形態(tài)。紅隊測試通過人工或自動化手段與待測大模型進(jìn)行對抗性交互,以發(fā)現(xiàn)模型的安全風(fēng)險,主要用于主動測試模型風(fēng)險和發(fā)現(xiàn)潛在漏洞,常被應(yīng)用于風(fēng)險的主動測評和安全對齊。惡意攻擊主要包括越獄攻擊和提示注入攻擊。其中,越獄攻擊利用大模型漏洞,誤導(dǎo)模型輸出有害或不實內(nèi)容;提示注入攻擊則通過操縱模型輸入,劫持或誘導(dǎo)模型接受攻擊者控制的指令,從而產(chǎn)生欺騙性輸出或泄露信息。盡管提示注入也是越獄攻擊的一種手段,但相比而言,越獄攻擊主要是針對模型,而提示注入的攻擊目標(biāo)則主要是針對用戶或系統(tǒng)提示。
三是風(fēng)險識別。當(dāng)前,生成式內(nèi)容安全風(fēng)險識別的常見方法分為判別式和生成式兩種。判別式風(fēng)險識別主要基于預(yù)訓(xùn)練的小模型來識別生成式有害內(nèi)容,以 OpenAI 和 Google 的 Moderation 和 Perspective 為代表,這些工具廣泛用于識別有害內(nèi)容。生成式風(fēng)險識別則利用大模型自身的能力來判斷生成的有害內(nèi)容,以基于 GPT-4 的內(nèi)容審核為代表,旨在提高模型和用戶生成有害內(nèi)容的發(fā)現(xiàn)效率。風(fēng)險識別可以服務(wù)于數(shù)據(jù)準(zhǔn)備階段的有害信息過濾、推理階段的用戶問題和模型生成回復(fù)的有害性判別,并且也是安全測評和紅隊測試中自動化有害判別的主要依據(jù)。
四是安全防護(hù)。常見的方法包括關(guān)注模型內(nèi)生的安全對齊方法、關(guān)注特定知識安全的模型編輯方法、關(guān)注外部安全的護(hù)欄方法以及關(guān)注模型輸出安全的檢索增強(qiáng)方法等。安全對齊主要利用監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)等方法引導(dǎo)模型對齊人類偏好,以消除模型本身的有害性和幻覺。典型的對齊方法還包括人工智能憲法、面向過程的細(xì)粒度對齊、直接偏好優(yōu)化、即插即用對齊、超級對齊和社會對齊等。關(guān)注特定知識安全的模型編輯方法旨在不重新訓(xùn)練模型的情況下,對模型的不安全知識進(jìn)行更新和修正,主要包括神經(jīng)元編輯、模型層編輯和微調(diào)編輯等。關(guān)注外部安全的護(hù)欄方法則通過分類判別模型對大模型的輸入(用戶請求)和輸出進(jìn)行不良和不實內(nèi)容的識別和過濾,以保護(hù)模型免受惡意用戶的提示攻擊,并矯正不良或不實內(nèi)容。關(guān)注模型輸出安全的檢索增強(qiáng)方法則通過檢索外部信息來修正大模型生成的內(nèi)容或約束大模型執(zhí)行的行為。
(二)大模型研究理論和方法等多個層面面臨突出挑戰(zhàn)經(jīng)過近兩年的快速發(fā)展,雖然學(xué)術(shù)界和工業(yè)界在大模型安全攻擊、風(fēng)險檢測、安全防護(hù)和風(fēng)險測評方向取得了一定成果,但仍面臨以下難題和挑戰(zhàn)。
一是對大模型安全缺陷的機(jī)理缺乏認(rèn)知。科學(xué)界目前對大模型“智能涌現(xiàn)”原理尚缺乏深入理解,也不是非常清楚提示學(xué)習(xí)、上下文學(xué)習(xí)、思維鏈等新學(xué)習(xí)范式的內(nèi)在機(jī)理,這嚴(yán)重制約了我們從理論上認(rèn)知安全缺陷的機(jī)理,并防御利用這些新型學(xué)習(xí)范式進(jìn)行的各類攻擊。
二是大模型的安全性無理論保障。學(xué)界普遍認(rèn)為無法 100% 保證系統(tǒng)的安全,已有理論證明,對于任意安全對齊的模型,總存在一定長度的攻擊提示可以攻破其安全防護(hù),因此“可安全性”的邊界不明確。
三是大模型當(dāng)前的安全技術(shù)存在局限性。例如,安全對齊的泛化能力遠(yuǎn)小于模型的泛化能力,造成泛化能力的失配;模型的預(yù)訓(xùn)練目標(biāo)與安全對齊目標(biāo)沖突也會帶來潛在安全風(fēng)險。主流的基于人類反饋的強(qiáng)化學(xué)習(xí)也存在錯誤目標(biāo)泛化和錯誤獎勵管理等突出問題??傮w來看,大模型在內(nèi)在機(jī)理、安全理論和技術(shù)方法等方面仍存在諸多局限性。如何解決認(rèn)知域,尤其是信息域和物理域的大模型安全仍面臨重重挑戰(zhàn)。
四、統(tǒng)籌布局建立國家級大模型安全科技平臺
國務(wù)院《新一代人工智能發(fā)展規(guī)劃》明確提出,“在大力發(fā)展人工智能的同時,必須高度重視可能帶來的安全風(fēng)險挑戰(zhàn),加強(qiáng)前瞻預(yù)防與約束引導(dǎo),最大限度降低風(fēng)險,確保人工智能的安全、可靠、可控發(fā)展”。加強(qiáng)生成式人工智能安全技術(shù)研究,搶占科技制高點,為我國大模型安全健康發(fā)展保駕護(hù)航,是落實《規(guī)劃》精神的必要舉措,也是國家戰(zhàn)略所需和科技發(fā)展所向。
大模型安全不再像傳統(tǒng)安全那樣僅僅是計算機(jī)應(yīng)用的伴生物,而是需要優(yōu)先構(gòu)筑的基礎(chǔ)底座。由于大模型能力具有可解釋性差、隨機(jī)性強(qiáng)等典型特征,如果沒有這個安全底座,在認(rèn)知域,尤其是信息域和物理域中,將難以預(yù)判和干預(yù)各類風(fēng)險,這將嚴(yán)重制約乃至?xí)髿?yīng)用的推廣,大模型自身也將無法實現(xiàn)可持續(xù)的發(fā)展。
大模型安全研究必然需要大算力、各類用于安全的大數(shù)據(jù)、齊全的主流大模型以及大規(guī)模的認(rèn)知域、信息域和物理域基礎(chǔ)設(shè)施條件。我們將這些需求概括為“四大”:大算力、大數(shù)據(jù)、大模型和大設(shè)施。當(dāng)前,我國大模型企業(yè)面臨國內(nèi)外人工智能技術(shù)的激烈競爭和推廣應(yīng)用的巨大壓力,切近的發(fā)展目標(biāo)與需要大規(guī)模投入的安全目標(biāo)之間難以有效協(xié)調(diào),企業(yè)間的市場競爭也使得安全能力的共創(chuàng)和共享難以實現(xiàn)??平虇挝灰矡o力獨立建設(shè)“四大”條件。因此,亟需國家層面介入,以統(tǒng)籌發(fā)展與安全,落實國務(wù)院發(fā)展規(guī)劃精神,部署前瞻性的第三方國立研究隊伍,匯聚國內(nèi)各方優(yōu)勢力量,測繪“安全風(fēng)險”,推動技術(shù)突破,以支撐“前瞻預(yù)防與約束引導(dǎo)”,并有效助力第三方大模型安全企業(yè)的成長。建議發(fā)揮新型舉國體制優(yōu)勢,統(tǒng)籌布局、加快推動生成式人工智能安全科技發(fā)展,建立國家級生成式人工智能安全平臺,推動形成發(fā)展與安全協(xié)同并進(jìn)、相互促進(jìn)的良好循環(huán)態(tài)勢。
一是盡快建設(shè)國家級開放式大模型安全科技平臺。搭建國家級的統(tǒng)一算力支撐平臺,提供統(tǒng)一數(shù)據(jù)服務(wù),支持國產(chǎn)商用大模型和國內(nèi)外開源大模型的統(tǒng)一部署,建設(shè)統(tǒng)一的認(rèn)知、信息和物理安全所需的基礎(chǔ)設(shè)施。同時,建設(shè)開放的大模型安全“攻檢防”一體化平臺,不斷評測并集成各類先進(jìn)的“攻檢防”算法、工具和數(shù)據(jù),為科學(xué)現(xiàn)象觀察、分析研究和實驗提供基礎(chǔ)環(huán)境,為突破生成式人工智能內(nèi)生安全缺陷機(jī)理和新型安全理論等科學(xué)難題,取得重要技術(shù)突破和引領(lǐng)性原創(chuàng)發(fā)現(xiàn)創(chuàng)造條件,并為我國大模型安全漏洞挖掘防護(hù)、技術(shù)發(fā)展和產(chǎn)業(yè)孵化等提供堅實的平臺環(huán)境支持。
二是匯聚、選拔和培育大模型安全人才隊伍。匯聚優(yōu)質(zhì)產(chǎn)、學(xué)、研、用各界資源,通過舉辦國家級大模型安全大賽等形式,選拔在攻擊、風(fēng)險發(fā)現(xiàn)、安全防護(hù)等領(lǐng)域具有優(yōu)勢的隊伍,深度融合產(chǎn)、學(xué)、研、用的大模型安全和發(fā)展需求,培養(yǎng)更多具備前瞻性和實戰(zhàn)能力的生成式人工智能安全專家,為我國生成式人工智能安全領(lǐng)域的發(fā)展提供堅實的人才支撐。
三是助力人工智能安全產(chǎn)業(yè)的企業(yè)集群發(fā)展。基于大模型安全的關(guān)鍵核心技術(shù)突破,打通科技轉(zhuǎn)化價值鏈,助力“專精特新”硬科技企業(yè)的創(chuàng)業(yè)與發(fā)展,打造人工智能安全產(chǎn)業(yè)的企業(yè)集群,加強(qiáng)人工智能技術(shù)和應(yīng)用發(fā)展產(chǎn)業(yè)與安全產(chǎn)業(yè)的協(xié)同,營造安全的人工智能發(fā)展生態(tài),助力我國人工智能技術(shù)及其賦能的“新質(zhì)生產(chǎn)力”安全、可持續(xù)發(fā)展。建議加快制訂統(tǒng)籌生成式人工智能發(fā)展與安全的具體舉措,采取多措并舉的策略,充分利用我國在人工智能科技發(fā)展的政策優(yōu)勢、當(dāng)前生成式人工智能研究和產(chǎn)業(yè)化基礎(chǔ),以及巨大的市場空間和規(guī)?;瘧?yīng)用潛力,促進(jìn)生成式人工智能安全科技與產(chǎn)業(yè)發(fā)展,為解決全球人工智能安全和治理貢獻(xiàn)中國智慧和中國力量。
(本文刊登于《中國信息安全》雜志2024年第6期)