国自产偷精品不卡在线,性高湖久久久久久久久AAAAA

大模型的安全風(fēng)險及應(yīng)對建議

【時間】2024-08-22

【編輯】Admin001

【瀏覽量】

【等級保護(hù)QQ交流群】881590869

文 | 中國科學(xué)院信息工程研究所虎嵩林

習(xí)近平總書記指出：“要重視通用人工智能發(fā)展，營造創(chuàng)新生態(tài)，重視防范風(fēng)險”。近年來，以生成式預(yù)訓(xùn)練大模型（GPT）為代表的生成式人工智能大模型（簡稱“大模型”）迅猛發(fā)展，顯著提升了通用理解和生成能力，但也帶來了前所未有的安全風(fēng)險。本文在梳理當(dāng)前大模型的認(rèn)知應(yīng)用、信息應(yīng)用和物理應(yīng)用三類應(yīng)用模式的基礎(chǔ)上，分析其對國家安全的沖擊。因此，本文建議建立國家級大模型安全科技平臺，搶占人工智能安全科技制高點，突破大模型安全關(guān)鍵技術(shù)，培育人才隊伍，助力人工智能安全產(chǎn)業(yè)集群發(fā)展，為人工智能大模型的可持續(xù)健康發(fā)展保駕護(hù)航。

一、大模型應(yīng)用的深度和廣度不斷拓展

隨著大模型及其應(yīng)用的蓬勃發(fā)展，繼 OpenAI推出 ChatGPT 之后，國內(nèi)外科技公司如谷歌、Meta、百度、阿里巴巴、智譜和百川等也迅速跟進(jìn)，相繼推出了各自的大模型，并積極投入到大模型賦能的新型應(yīng)用中。參照認(rèn)知域、信息域和物理域的劃分方法，當(dāng)前基于大模型的應(yīng)用主要可以分為三類。

一是認(rèn)知應(yīng)用，即基于大模型的信息內(nèi)容生成應(yīng)用，涵蓋文本、圖像、音頻、視頻生成以及跨模態(tài)生成，典型的代表如 ChatGPT、Sora、GPT-4o 等。據(jù)量子位智庫測算，2028 年起，我國人工智能生成內(nèi)容（AIGC）產(chǎn)業(yè)市場規(guī)模將持續(xù)保持高速增長，2030 年市場規(guī)模超萬億。人工智能生成內(nèi)容將成為認(rèn)知域的重要組成部分。同時，大模型認(rèn)知類應(yīng)用也將成為繼社交網(wǎng)絡(luò)和推薦平臺之后，人們獲取信息的新形態(tài)，這將深刻影響人類的思想和意識形態(tài)。

二是信息應(yīng)用，即基于大模型的信息系統(tǒng)指令控制應(yīng)用，以智能體為典型代表。大模型賦能的智能體能夠訪問網(wǎng)絡(luò)、調(diào)用應(yīng)用程序編程接口（API），使用各類信息系統(tǒng)工具，例如電力系統(tǒng)智能體能夠自主理解歷史數(shù)據(jù)、感知實時信息，從而實現(xiàn)電力調(diào)度策略的優(yōu)化等。大模型與信息系統(tǒng)的深度融合將對信息域的應(yīng)用形態(tài)演變產(chǎn)生深遠(yuǎn)影響。據(jù)國外調(diào)研機(jī)構(gòu) Markets and Markets預(yù)計，2023 年全球自主人工智能和自主智能體（Autonomous Agent）市場的收入規(guī)模超過 48 億美元，到 2028 年有望達(dá)到 285 億美元左右（約合2000 億元人民幣）。

三是物理應(yīng)用，即基于大模型的物理世界行為控制，包括對工業(yè)設(shè)備、無人機(jī)、機(jī)器人等的控制，典型代表如具身智能。人形機(jī)器人作為具身智能的一種形態(tài)，有望成為人工智能下一個重要落地應(yīng)用場景。根據(jù)IFR和中國電子學(xué)會數(shù)據(jù)，盡管人形機(jī)器人處于起步階段，但參照其他電子產(chǎn)品滲透率超過 20% 后將爆發(fā)式增長，預(yù)計到 2030 年，我國人形機(jī)器人市場規(guī)模有望達(dá)到約 8700 億元。此外，由人工智能賦能的各類自主武器系統(tǒng)也已經(jīng)投入實戰(zhàn)，有望引發(fā)繼火藥和核武器之后的“第三次軍事革命”。從認(rèn)知應(yīng)用到信息應(yīng)用、物理應(yīng)用，大模型應(yīng)用的深度和廣度不斷擴(kuò)展，正在發(fā)展成為人類價值觀和知識的重要載體，以及認(rèn)知和決策的重要基礎(chǔ)設(shè)施。

二、大模型安全風(fēng)險引發(fā)全球關(guān)切

在賦能新質(zhì)生產(chǎn)力發(fā)展的同時，大模型的安全風(fēng)險也在全球范圍內(nèi)引發(fā)了高度關(guān)注。計算機(jī)領(lǐng)域的國際最高獎項——圖靈獎得主杰弗里·辛頓以及 OpenAI 公司 CEO 薩姆·奧爾特曼等領(lǐng)軍人物，都曾通過聲明或文章聯(lián)名發(fā)出警告，指出這些模型可能帶來的“毀滅性”風(fēng)險，并將其與流行病以及核戰(zhàn)爭相提并論。此外，《自然》（Nature）雜志預(yù)測 2024 年值得期待的重大科學(xué)事件：GPT5的發(fā)布和聯(lián)合國人工智能高級別咨詢機(jī)構(gòu)將于 2024 年年中發(fā)布人工智能治理報告，這也反映出全球?qū)y(tǒng)籌發(fā)展和安全的重大關(guān)切。我們認(rèn)為，大模型將在認(rèn)知、信息和物理三個領(lǐng)域?qū)φ巍⒔?jīng)濟(jì)、軍事、文化等總體國家安全觀涉及的各個方面產(chǎn)生沖擊。

一是認(rèn)知域安全。數(shù)據(jù)污染、模型算法的局限性或者惡意攻擊等因素，都可能導(dǎo)致大模型歪曲正確的價值觀，生成和散播虛假有害信息，誤導(dǎo)人類決策，從而破壞政治、文化等領(lǐng)域的認(rèn)知安全根基，甚至成為破壞穩(wěn)定的社會操縱工具。

二是信息域安全。大模型正迅速成為智能化時代的基礎(chǔ)底座，其地位類似于數(shù)字化時代“數(shù)據(jù)庫”。如果安全漏洞被惡意利用，可能產(chǎn)生各類非法工具調(diào)用和操作，將嚴(yán)重威脅信息系統(tǒng)的安全與穩(wěn)定運(yùn)行。此外，基于大模型的網(wǎng)絡(luò)攻防技術(shù)的發(fā)展也將加速大模型武器化的趨勢，顛覆現(xiàn)有的網(wǎng)絡(luò)和系統(tǒng)安全格局，對信息系統(tǒng)產(chǎn)生破壞性影響。

三是物理域安全。大模型已經(jīng)被廣泛應(yīng)用于無人機(jī)等領(lǐng)域的自動控制以及 FigureAI（與 OpenAI 合作開發(fā)自主通用人形機(jī)器人的公司）為代表的具身智能中，成為包括工控設(shè)備、武器裝備在內(nèi)的各類物理系統(tǒng)的“神經(jīng)中樞”。對大模型的惡意利用或安全攻擊，可能引發(fā)設(shè)備失控、物理系統(tǒng)損毀，甚至導(dǎo)致嚴(yán)重的戰(zhàn)爭災(zāi)難。

需要強(qiáng)調(diào)的是，大模型本身正在從人類可利用的工具客體向認(rèn)識和改造自然社會的主體轉(zhuǎn)變。由于其豐富的創(chuàng)造潛力，大模型已被廣泛應(yīng)用于數(shù)學(xué)定理證明、化學(xué)研究等科學(xué)探索中。在社會層面，《科學(xué)》（Science）雜志的政策論壇（Policy Forum）欄目中的一篇文章中提出，人工智能可以在無需人類指導(dǎo)的情況下獨立運(yùn)營公司，成為具有權(quán)利和義務(wù)的法律主體，并呼吁為這一新的“物種”制定相應(yīng)的法律框架。隨著大模型在社會生產(chǎn)和生活各個領(lǐng)域的“主體化”，技術(shù)革新將不斷引發(fā)倫理和法律層面的深刻變革。更嚴(yán)重的是，一旦機(jī)器實現(xiàn)了通用人工智能，擺脫了人類的控制，在認(rèn)知域、信息域、物理域上自主部署，與各類武器系統(tǒng)連接，并“毫無人性”地指揮殺戮和破壞，這將給人類和地球帶來滅絕式的風(fēng)險?！罢驹谑致房诘娜祟悺睂⒂瓉砣斯ぶ悄艿摹皧W本海默時刻”。

在大模型基礎(chǔ)設(shè)施屬性日益凸顯的智能時代，沒有大模型的安全，就無法保障大模型技術(shù)和產(chǎn)業(yè)的健康快速發(fā)展。確?；诖竽Ｐ偷臄?shù)字和物理空間應(yīng)用安全，促使大模型遵循人類價值觀、服從人類意圖，并實現(xiàn)有用性（Helpful）、無害性（Harmless）和誠實性（Honest）3H 多目標(biāo)的平衡，已經(jīng)成為亟待解決的重大難題。

三、大模型安全科技發(fā)展仍處在起步階段

當(dāng)前，大模型安全已成為全球共識，并成為大國科技競爭的重要制高點。歐盟發(fā)布《人工智能法案》，提出全面的人工智能分級監(jiān)管機(jī)制，開啟了人工智能全球監(jiān)管時代。美國于 2023 年通過行政命令，要求評估人工智能的安全風(fēng)險。拜登政府已多次與人工智能領(lǐng)域的企業(yè)家和學(xué)者會面，并提出了《人工智能權(quán)利法案藍(lán)圖》。在英國召開的首屆人工智能安全全球峰會上，中國、美國、英國、德國等 28 國及歐盟共同簽署了《布萊切利宣言》，強(qiáng)調(diào)了理解和解決人工智能安全問題的緊迫性。我國于 2023 年 7 月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》，提出促進(jìn)創(chuàng)新和依法治理相結(jié)合的監(jiān)管原則，以支持生成式人工智能大模型的安全發(fā)展。同時，我國也積極在國際上發(fā)出人工智能治理的中國倡議，提出堅持“智能向善（AI for good）”的宗旨，以不斷提升人工智能技術(shù)的安全性、可靠性、可控性和公平性。

（一）大模型安全技術(shù)研究尚處于早期發(fā)展階段當(dāng)前，大模型安全研究尚處于早期發(fā)展階段，涵蓋了眾多的研究方向。這些研究領(lǐng)域包括但不限于生成內(nèi)容檢測、模型水印、紅隊測試、對齊、越獄攻擊、有害內(nèi)容識別、隱私保護(hù)以及安全理論探析等，且目前尚未形成一個得到廣泛認(rèn)可的分類體系。從網(wǎng)絡(luò)安全角度出發(fā)，我們可以將其簡單劃分為安全測評、安全攻擊、風(fēng)險識別和安全防護(hù)四個方面。
一是安全測評。主要目標(biāo)是測評大模型在預(yù)防不良輸出、確保數(shù)據(jù)隱私、消除偏見和保障公平性、防范對抗性攻擊等方面的能力。目前，安全測評基準(zhǔn)包括關(guān)注有毒和虛假信息的 HELM，聚焦攻擊冒犯、偏見歧視等七個安全維度的 SafetyBench，以及一些專注于某一特定安全維度的評測工作等。
二是安全攻擊。 主要分為“善意”的紅隊測試和惡意攻擊兩種形態(tài)。紅隊測試通過人工或自動化手段與待測大模型進(jìn)行對抗性交互，以發(fā)現(xiàn)模型的安全風(fēng)險，主要用于主動測試模型風(fēng)險和發(fā)現(xiàn)潛在漏洞，常被應(yīng)用于風(fēng)險的主動測評和安全對齊。惡意攻擊主要包括越獄攻擊和提示注入攻擊。其中，越獄攻擊利用大模型漏洞，誤導(dǎo)模型輸出有害或不實內(nèi)容；提示注入攻擊則通過操縱模型輸入，劫持或誘導(dǎo)模型接受攻擊者控制的指令，從而產(chǎn)生欺騙性輸出或泄露信息。盡管提示注入也是越獄攻擊的一種手段，但相比而言，越獄攻擊主要是針對模型，而提示注入的攻擊目標(biāo)則主要是針對用戶或系統(tǒng)提示。
三是風(fēng)險識別。當(dāng)前，生成式內(nèi)容安全風(fēng)險識別的常見方法分為判別式和生成式兩種。判別式風(fēng)險識別主要基于預(yù)訓(xùn)練的小模型來識別生成式有害內(nèi)容，以 OpenAI 和 Google 的 Moderation 和 Perspective 為代表，這些工具廣泛用于識別有害內(nèi)容。生成式風(fēng)險識別則利用大模型自身的能力來判斷生成的有害內(nèi)容，以基于 GPT-4 的內(nèi)容審核為代表，旨在提高模型和用戶生成有害內(nèi)容的發(fā)現(xiàn)效率。風(fēng)險識別可以服務(wù)于數(shù)據(jù)準(zhǔn)備階段的有害信息過濾、推理階段的用戶問題和模型生成回復(fù)的有害性判別，并且也是安全測評和紅隊測試中自動化有害判別的主要依據(jù)。
四是安全防護(hù)。常見的方法包括關(guān)注模型內(nèi)生的安全對齊方法、關(guān)注特定知識安全的模型編輯方法、關(guān)注外部安全的護(hù)欄方法以及關(guān)注模型輸出安全的檢索增強(qiáng)方法等。安全對齊主要利用監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)等方法引導(dǎo)模型對齊人類偏好，以消除模型本身的有害性和幻覺。典型的對齊方法還包括人工智能憲法、面向過程的細(xì)粒度對齊、直接偏好優(yōu)化、即插即用對齊、超級對齊和社會對齊等。關(guān)注特定知識安全的模型編輯方法旨在不重新訓(xùn)練模型的情況下，對模型的不安全知識進(jìn)行更新和修正，主要包括神經(jīng)元編輯、模型層編輯和微調(diào)編輯等。關(guān)注外部安全的護(hù)欄方法則通過分類判別模型對大模型的輸入（用戶請求）和輸出進(jìn)行不良和不實內(nèi)容的識別和過濾，以保護(hù)模型免受惡意用戶的提示攻擊，并矯正不良或不實內(nèi)容。關(guān)注模型輸出安全的檢索增強(qiáng)方法則通過檢索外部信息來修正大模型生成的內(nèi)容或約束大模型執(zhí)行的行為。
（二）大模型研究理論和方法等多個層面面臨突出挑戰(zhàn)經(jīng)過近兩年的快速發(fā)展，雖然學(xué)術(shù)界和工業(yè)界在大模型安全攻擊、風(fēng)險檢測、安全防護(hù)和風(fēng)險測評方向取得了一定成果，但仍面臨以下難題和挑戰(zhàn)。
一是對大模型安全缺陷的機(jī)理缺乏認(rèn)知。科學(xué)界目前對大模型“智能涌現(xiàn)”原理尚缺乏深入理解，也不是非常清楚提示學(xué)習(xí)、上下文學(xué)習(xí)、思維鏈等新學(xué)習(xí)范式的內(nèi)在機(jī)理，這嚴(yán)重制約了我們從理論上認(rèn)知安全缺陷的機(jī)理，并防御利用這些新型學(xué)習(xí)范式進(jìn)行的各類攻擊。
二是大模型的安全性無理論保障。學(xué)界普遍認(rèn)為無法 100% 保證系統(tǒng)的安全，已有理論證明，對于任意安全對齊的模型，總存在一定長度的攻擊提示可以攻破其安全防護(hù)，因此“可安全性”的邊界不明確。
三是大模型當(dāng)前的安全技術(shù)存在局限性。例如，安全對齊的泛化能力遠(yuǎn)小于模型的泛化能力，造成泛化能力的失配；模型的預(yù)訓(xùn)練目標(biāo)與安全對齊目標(biāo)沖突也會帶來潛在安全風(fēng)險。主流的基于人類反饋的強(qiáng)化學(xué)習(xí)也存在錯誤目標(biāo)泛化和錯誤獎勵管理等突出問題?？傮w來看，大模型在內(nèi)在機(jī)理、安全理論和技術(shù)方法等方面仍存在諸多局限性。如何解決認(rèn)知域，尤其是信息域和物理域的大模型安全仍面臨重重挑戰(zhàn)。

四、統(tǒng)籌布局建立國家級大模型安全科技平臺

國務(wù)院《新一代人工智能發(fā)展規(guī)劃》明確提出，“在大力發(fā)展人工智能的同時，必須高度重視可能帶來的安全風(fēng)險挑戰(zhàn)，加強(qiáng)前瞻預(yù)防與約束引導(dǎo)，最大限度降低風(fēng)險，確保人工智能的安全、可靠、可控發(fā)展”。加強(qiáng)生成式人工智能安全技術(shù)研究，搶占科技制高點，為我國大模型安全健康發(fā)展保駕護(hù)航，是落實《規(guī)劃》精神的必要舉措，也是國家戰(zhàn)略所需和科技發(fā)展所向。

大模型安全不再像傳統(tǒng)安全那樣僅僅是計算機(jī)應(yīng)用的伴生物，而是需要優(yōu)先構(gòu)筑的基礎(chǔ)底座。由于大模型能力具有可解釋性差、隨機(jī)性強(qiáng)等典型特征，如果沒有這個安全底座，在認(rèn)知域，尤其是信息域和物理域中，將難以預(yù)判和干預(yù)各類風(fēng)險，這將嚴(yán)重制約乃至?xí)髿?yīng)用的推廣，大模型自身也將無法實現(xiàn)可持續(xù)的發(fā)展。

大模型安全研究必然需要大算力、各類用于安全的大數(shù)據(jù)、齊全的主流大模型以及大規(guī)模的認(rèn)知域、信息域和物理域基礎(chǔ)設(shè)施條件。我們將這些需求概括為“四大”：大算力、大數(shù)據(jù)、大模型和大設(shè)施。當(dāng)前，我國大模型企業(yè)面臨國內(nèi)外人工智能技術(shù)的激烈競爭和推廣應(yīng)用的巨大壓力，切近的發(fā)展目標(biāo)與需要大規(guī)模投入的安全目標(biāo)之間難以有效協(xié)調(diào)，企業(yè)間的市場競爭也使得安全能力的共創(chuàng)和共享難以實現(xiàn)?？平虇挝灰矡o力獨立建設(shè)“四大”條件。因此，亟需國家層面介入，以統(tǒng)籌發(fā)展與安全，落實國務(wù)院發(fā)展規(guī)劃精神，部署前瞻性的第三方國立研究隊伍，匯聚國內(nèi)各方優(yōu)勢力量，測繪“安全風(fēng)險”，推動技術(shù)突破，以支撐“前瞻預(yù)防與約束引導(dǎo)”，并有效助力第三方大模型安全企業(yè)的成長。建議發(fā)揮新型舉國體制優(yōu)勢，統(tǒng)籌布局、加快推動生成式人工智能安全科技發(fā)展，建立國家級生成式人工智能安全平臺，推動形成發(fā)展與安全協(xié)同并進(jìn)、相互促進(jìn)的良好循環(huán)態(tài)勢。
一是盡快建設(shè)國家級開放式大模型安全科技平臺。搭建國家級的統(tǒng)一算力支撐平臺，提供統(tǒng)一數(shù)據(jù)服務(wù)，支持國產(chǎn)商用大模型和國內(nèi)外開源大模型的統(tǒng)一部署，建設(shè)統(tǒng)一的認(rèn)知、信息和物理安全所需的基礎(chǔ)設(shè)施。同時，建設(shè)開放的大模型安全“攻檢防”一體化平臺，不斷評測并集成各類先進(jìn)的“攻檢防”算法、工具和數(shù)據(jù)，為科學(xué)現(xiàn)象觀察、分析研究和實驗提供基礎(chǔ)環(huán)境，為突破生成式人工智能內(nèi)生安全缺陷機(jī)理和新型安全理論等科學(xué)難題，取得重要技術(shù)突破和引領(lǐng)性原創(chuàng)發(fā)現(xiàn)創(chuàng)造條件，并為我國大模型安全漏洞挖掘防護(hù)、技術(shù)發(fā)展和產(chǎn)業(yè)孵化等提供堅實的平臺環(huán)境支持。
二是匯聚、選拔和培育大模型安全人才隊伍。匯聚優(yōu)質(zhì)產(chǎn)、學(xué)、研、用各界資源，通過舉辦國家級大模型安全大賽等形式，選拔在攻擊、風(fēng)險發(fā)現(xiàn)、安全防護(hù)等領(lǐng)域具有優(yōu)勢的隊伍，深度融合產(chǎn)、學(xué)、研、用的大模型安全和發(fā)展需求，培養(yǎng)更多具備前瞻性和實戰(zhàn)能力的生成式人工智能安全專家，為我國生成式人工智能安全領(lǐng)域的發(fā)展提供堅實的人才支撐。
三是助力人工智能安全產(chǎn)業(yè)的企業(yè)集群發(fā)展。基于大模型安全的關(guān)鍵核心技術(shù)突破，打通科技轉(zhuǎn)化價值鏈，助力“專精特新”硬科技企業(yè)的創(chuàng)業(yè)與發(fā)展，打造人工智能安全產(chǎn)業(yè)的企業(yè)集群，加強(qiáng)人工智能技術(shù)和應(yīng)用發(fā)展產(chǎn)業(yè)與安全產(chǎn)業(yè)的協(xié)同，營造安全的人工智能發(fā)展生態(tài)，助力我國人工智能技術(shù)及其賦能的“新質(zhì)生產(chǎn)力”安全、可持續(xù)發(fā)展。建議加快制訂統(tǒng)籌生成式人工智能發(fā)展與安全的具體舉措，采取多措并舉的策略，充分利用我國在人工智能科技發(fā)展的政策優(yōu)勢、當(dāng)前生成式人工智能研究和產(chǎn)業(yè)化基礎(chǔ)，以及巨大的市場空間和規(guī)?；瘧?yīng)用潛力，促進(jìn)生成式人工智能安全科技與產(chǎn)業(yè)發(fā)展，為解決全球人工智能安全和治理貢獻(xiàn)中國智慧和中國力量。

（本文刊登于《中國信息安全》雜志2024年第6期）

久久久亚洲精品成人,色五月丁香六月欧美综合,午夜影视啪啪免费体验区,噜噜综合亚洲AV中文无码

安全資訊

大模型的安全風(fēng)險及應(yīng)對建議

關(guān)于我們

解決方案

客戶案例

安全產(chǎn)品

咨詢在線客服