行業(yè)動態(tài)

機器智能的安全之困

來源:聚銘網絡    發(fā)布時間:2019-10-29    瀏覽次數:
 

信息來源:4hou

智能系統(tǒng)的核心范式

真正意義上的智能系統(tǒng),實例的核心范式一定有如下幾個組成部分:感知體系、認知體系、決策體系、行動體系。同時,一個智能系統(tǒng)的實例,一定離不開與環(huán)境的交互,過去我們總是過多的強調和關注系統(tǒng)內在本身,卻容易忽視與環(huán)境交互的作用。

感知體系的作用是對環(huán)境進行觀測和沉淀,產出的是數據。一切數據的產生都源于對環(huán)境的觀測和沉淀,觀測和沉淀背后的動機是我們測量、記錄、分析世界的渴望。信息時時刻刻存在于環(huán)境中(數字空間或物理空間),在不同的場景下,我們用硬件、軟件、算法的方式,將其「數據化」。硬件有如傳感器、攝像頭等,軟件如日志記錄器、數據采集器等,算法如各類智能視覺算法、智能語音算法等。終有一天,我們能夠將一切物理空間都數據化,將物理空間完完全全映射到數據空間。

認知體系的作用是對數據進行歸納和總結,提煉出知識。人類理解的知識一定是要用自然語言表達,而對機器而言,用能夠代表問題空間的數據集進行訓練,再用訓練好的「模型」來在新的數據空間中進行推理。只要是能解決特定目標任務,無論其表現(xiàn)形態(tài)是向量、圖譜還是自然語言,其實都是知識,特征空間的表達本身就是一種知識。

決策體系的作用是對目標任務進行規(guī)劃和決策,生成對目標任務的策略。行動體系根據策略執(zhí)行具體動作,和環(huán)境進行交互、對環(huán)境產生影響。動作作用于環(huán)境后形成反饋,反饋又促進感知體系感知更多的數據,進而持續(xù)獲取更多的知識,對目標任務作出更好的決策,形成閉環(huán)持續(xù)迭代進化。

從這個角度來看,機器智能的本質,實質是一種觀測環(huán)境沉淀數據、歸納數據提煉知識、規(guī)劃目標在線決策、作出行動影響環(huán)境的自主機器。機器智能是一種自主機器,而自主機器與過去自動化機器的最大區(qū)別在于其能否自主獲取解決目標任務的知識。

單體智能到群體智能

今天大多數的智能系統(tǒng),都是一個個孤立分布的單體智能實例,解決的相應也是一個個孤立分布的單體問題。云計算的本質是「計算在線」,大數據的本質是「數據在線」,而機器智能最終也需要實現(xiàn)讓智能在線,讓智能實例之間進行自主在線交互。

單個智能實例都是由「感知-認知-決策-行動」的體系構成的自主系統(tǒng),有著自己的世界表征形式,能自主完成自身的目標任務。在同一個動態(tài)復雜的博弈環(huán)境之中,實例與實例之間通過互聯(lián)實現(xiàn)在線,彼此存在相互作用,可以合作、競爭,可以競合并存,也可以既不合作也不競爭。一個實例的策略變化不光會影響自身的環(huán)境,也會影響其他實例的策略變化。

對于合作的多個智能實例之間,可以選擇共享數據、知識、策略或動作,協(xié)調協(xié)作以完成更為復雜的目標任務,共同形成更為高階的智能實例。當單位空間內智能實例的覆蓋密度足夠大的時候,單體智能開始向群體智能演進。

智能與安全的四象限

安全是所有技術中最為特殊的一種,嚴格意義上甚至或許都不能稱「安全」為一門技術。早在人類還未發(fā)明任何技術之前,安全就已經伴隨著人類的各種活動。迄今為止,沒有任何一種技術是安全領域獨有或者說從安全領域長出來的,但安全從來都是與其他技術相伴相生、相輔相成。

任何一門通用技術,與安全的結合都有如下四種方式。機器智能技術也不例外,縱向是「給智能以安全」和「給安全以智能」,橫向是「攻擊視角」和「防御視角」。給智能以安全,是指機器智能技術本身會帶來新的安全問題,一種是機器智能自身脆弱性導致的安全問題,一種是機器智能引發(fā)周邊場景衍生出的安全問題。給安全以智能,是指將機器智能應用于安全場景,攻擊者利用機器智能賦能攻擊,防御者利用機器智能賦能防御。

而在這四個象限中,新技術與安全發(fā)生交集的時間和發(fā)展的成熟程度又有所不同。攻擊者相比防御者而言,有更強的動機和利益,所以攻擊相關的象限通常都會更容易去探索新技術去接納新技術。防御者總是滯后,也總是容易沉迷于舊技術和人工經驗營造出的安全假象中,導致第四象限總是發(fā)展最滯后最緩慢的一個象限。當然,這與防御視角自身的屬性與困境也有直接關系。

機器智能的安全之困

圍棋是簡單的復雜游戲,而安全是復雜的簡單游戲。1994年,認知科學家Steven Pinker在《The Language Instinct》中寫道「對機器智能而言,困難的問題是易解的,簡單的問題是難解的」?!负唵蔚膹碗s問題」指的是問題空間是閉合的,但是問題本身卻又有較高的復雜度,「復雜的簡單問題」指的是問題空間是是無限開放式的,但問題本身卻并沒有很高的復雜度。今天機器智能技術在「簡單的復雜問題」的領域,往往都比人類會更強,但對于「復雜的簡單問題」,泛化界限引起的維數災難,機器智能往往都會失效。

安全是一個典型的「復雜的簡單問題」,莫拉維克悖論在安全領域更為明顯。高度不確定性是安全最大的特點,安全自身最大的困境就是如何去應對「未知的未知」。很多時候我們問題都沒定義清楚問題就沖上去說要用機器智能解決問題,這是絕大多數機器智能在安全領域失效的主要原因。今天在安全領域,不太需要去突破智能技術的天花板,亟待解決的反而是「定義清楚問題」,即如何閉合掉問題空間。

安全的問題空間通常都是無界的,同時問題空間對應的正負樣本的樣本空間卻又嚴重的不對稱?!肝粗奈粗挂鸬呢撓驍祿ㄈ绻魯祿?、風險數據等)的嚴重缺乏導致特征空間的不對稱,進而導致特征空間無法真正表征問題空間?!改P汀故且延袛祿臻g下關于世界的假設,并且用于在新的數據空間下進行推理。今天機器智能技術已經能很好的解決表示輸入和輸出之間的非線性復雜關系,但對于樣本空間與問題空間存在的巨大鴻溝卻依然比較乏力。

20世紀六十年代,貝爾-拉帕杜拉安全模型(Bell-La Padula )指出「當僅當系統(tǒng)開始于安全的狀態(tài),且一直不會落入非安全狀態(tài),它才是安全的」。由于安全的本質是對抗,對抗的存在導致安全領域的機器智能模型多數都逃不過的「上線即衰減」的命運。在訓練集上表現(xiàn)良好的模型,對于大規(guī)模的現(xiàn)實環(huán)境,從上線那一刻起就在引起對抗升級,進而不斷跌入失效的狀態(tài)。模型衰減和封閉系統(tǒng)中的熵增一樣,是一個必然。

同時,安全場景中對檢測結果的準確性、結果可解釋性都高度敏感。機器智能相比于傳統(tǒng)安全中經常使用的基于規(guī)則、基于策略的檢測技術,優(yōu)勢在于其強大的表征能力,但同時其不可解釋性、模糊性導致推理結果在決策場景下無法直接使用,這也是今天很多智能安全系統(tǒng)大都只在做「感知」,至多也只是做輔助決策的原因。

然而這些都還不是最大的「困」,機器智能在安全領域最大的「困」是思維模式上的困局。安全的思維模式是「守正出奇」,而機器智能的思維模式是「Model The World」。這兩種思維模式之間不僅存在巨大的差異,也異常難調和。一方面極少有人能同時駕馭這兩種思維方式,另一方面把兩種思維的人放到一起也極難協(xié)作起來,本質原因是缺少橋梁來銜接安全問題到算法問題之間的相互轉換和定義。

問題空間之困、樣本空間之困、推理結果之困、對抗衰減之困、思維模式之困,這些問題導致了今天絕大多數現(xiàn)實中的智能安全系統(tǒng)的表現(xiàn)都差強人意?;蛘咭部梢哉f得更悲觀一點,今天在安全領域,迄今為止還沒有真正意義的智能安全系統(tǒng)。

真正的智能安全系統(tǒng)

先來說說通用安全場景下的通用數據范式。柏拉圖學派認為「我們感知的世界是洞穴里面墻壁上的投影」,現(xiàn)象世界都是理性世界的倒影,理性世界才是世界的本質或本原?!付囱ū扔鳌挂馕吨嬖谝粋€外在的客觀的知識體系,不依賴人類的認知而存在,人類探索知識的過程就是不斷從現(xiàn)實世界的現(xiàn)象觀察中,摸索、推測這個客觀知識體系的過程。亞里士多德進一步奠定了本體論最初的思想,定義其為研究「存在」的科學,是形而上學的基本分支。再到17世紀,哲學家郭克蘭紐 (R. Goclenius) 首次提出「Ontology」一詞,再到20世紀60年代,機器智能領域開始引入Ontology的思想,之后又進一步演化出語義網、知識圖譜等。

安全中的對抗本質是知識的對抗,獲取知識更多的一方就能擁有更多的不對稱優(yōu)勢。無論是威脅分析、情報研判、攻擊檢測、事件溯源……本質都是在探索知識的一個過程,這就是為什么Palantir的Gotham、IBM的I2、UEBA、各種威脅情報產品等等背后都不約而同或多或少借鑒了Ontology思想的根本原因。

而安全場景下的通用數據范式,也離不開Ontology。實體、屬性、行為、事件、關系,通過這五大元數據類型,可以構建出所有安全場景中的數據架構(無論是基礎安全、業(yè)務安全、數據安全、公共安全、城市安全……注:公共安全領域也單獨關注「軌跡」這一類元數據類型,因「軌跡」是一種特殊的「行為」數據,故這里統(tǒng)一都合并成行為)。

· 實體:實體是客觀存在并可以與其他對象區(qū)分開來的對象;

· 屬性:屬性即為標簽,是描述實體的表述,對實體抽象方面的刻畫;

· 行為:行為是實體在特定時間、空間下發(fā)出的動作;

· 事件:事件是一定時空或條件下所認識到的可識別的事情;

· 關系:關系是實體與其他實體之間的關聯(lián)程度與表述。

安全領域絕大多數沉淀的源數據都是行為類數據,無論是網絡流量日志、主機命令日志、業(yè)務日志、攝像頭數據流、感知設備數據流……,這些都是行為數據。而實體、屬性、關系、事件的產生都是從行為數據中進行萃取,通過對不同的行為數據運行不同的 Function 來產生。

當 Function 是生成事件的時候,即為安全檢測問題,包括攻擊檢測、威脅檢測、風險檢測、異常檢測等等。絕大多數安全檢測問題的原子范式都可以抽象為Y=F(X),其中X是實體的行為數據,Y是檢測結果,F(xiàn)是檢測模型。F可以是基于規(guī)則、基于策略、詞法語義、統(tǒng)計檢測、機器學習、深度神經網絡等等,Y可以是正常、異常、攻擊或者未知。

更為復雜的檢測場景也都可以通過一個個基本F與各類算子組裝編排而成。每一種類型的F都有其優(yōu)勢和劣勢,有不同的最優(yōu)使用場景,并不存在一種絕對先進絕對領先的檢測技術。事實上算法在安全檢測中最應該關注的不是去做檢測模型本身,而是能否自主化的根據各種場景生成最優(yōu)的檢測模型,并能自主化持續(xù)迭代檢測模型。

真正意義上的智能安全系統(tǒng)一定也是具備感知體系、認知體系、決策體系和行動體系,同時和環(huán)境形成反饋閉環(huán)。感知體系至少包括異常感知器、攻擊感知器、漏報感知器和誤報感知器?!府惓8兄鳌沟淖饔靡环矫媸潜3指兄肝粗奈粗沟哪芰Γ硪环矫媸抢谩竿ㄟ^定義正常來尋找異?!沟乃枷雭斫狻笜颖究臻g之困」的問題?!腹舾兄鳌沟淖饔檬窃诋惓祿幕A上去檢測攻擊,為了解「推理結果之困」的同時,也大大縮減推理結果誤報漏報范圍?!嘎﹫蟾兄鳌购汀刚`報感知器」是為了去解「對抗衰減之困」。由此可以看出,整個行業(yè)內大家最常關注的「用算法做攻擊檢測」,其實只是做了智能系統(tǒng)當中感知體系里很小的一小步。

認知體系沉淀的是跟安全相關的各種知識,至少包括正常知識、攻擊知識、漏報知識、誤報知識。安全知識可以是基于專家規(guī)則、向量、模型、圖譜、自然語言等等,但無論是哪種形態(tài),一定都是精細化個性化的「千人千面」的知識。即對每一個受保護對象(如用戶、系統(tǒng)、資產、域名、數據等),沉淀形成適用于該受保護對象的一套感知異常、攻擊、漏報、誤報的知識。決策體系當中至少包含對目標任務的攔截策略、各類模型的上線下線等策略等,能自主決策哪些行為該攔截,哪些模型已經衰減該重訓練該替換等。

行動體系當中是各類作用于環(huán)境的動作,如放行、阻斷、重訓練、發(fā)布等等。一個真正的智能安全 instance 里面包了含成千上萬的 agent ,每一個 agent 只作用于其對應的受保護對象。最后,「問題空間之困」的解法是將開放的問題空間收斂為一個個小的閉合的風險場景,一方面靠的是四個感知器的級連形成的縱深檢測,另一方面靠的就是「千人千面」的 agent 。

機器智能重塑新安全

安全領域發(fā)展至今,一直處于問題消滅得少概念卻造得不少的階段,亟待利用新技術去真正解決舊問題。機器智能在各個行業(yè)的炙手可熱,同樣也引起了安全行業(yè)的追捧。但今天安全領域的智能能力參差不一的同時,又難以分辨其真假。以至于但凡用了一丁點算法的,都會宣稱「基于人工智能的XX安全系統(tǒng)」。同早年的智能駕駛領域一樣,今天的智能安全也亟需統(tǒng)一的分級標準,用以明確不同級別智能安全技術之間的差異性?!赴踩谋举|是智能體的對抗」,故根據自主對抗的程度,我們將智能安全劃分為L0~5共如下6個級別:

· L0級別為「人工對抗」,即完全沒有任何機器智能的能力,完全由防御者人工雨攻擊者進行對抗,對抗操作、感知判斷、任務支援全都由人工進行。

· L1級別為「輔助對抗」,由機器完成已知攻擊的攻擊檢測和攻擊防御,其余的操作(如感知未知威脅、感知漏報、感知誤報等)由人類進行。

· L2級別為「低度自主對抗」,由機器完成已知攻擊攻擊檢測和攻擊防御,并具備能感知未知威脅或誤報漏報,其余由人類操作。

· L3級別為「中度自主對抗」,由機器完成所有的對抗操作(攻擊檢測、攻擊防御、主動感知未知威脅、誤報漏報主動感知、對抗升級自動學習),根據系統(tǒng)要求,人類在適當的時候進行應答(中間過程必須需要人類參與)。

· L4級別為「高度自主對抗」,由機器完成所有的對抗操作,根據系統(tǒng)要求,人類不一定提供所有的應答(中間過程非必須有人類參與),但只能作用于限定的特定的安全場景(如網絡域、主機域等)。

· L5級別為「完全自主對抗」,由機器完成所有的對抗操作,根據系統(tǒng)要求,人類不一定提供所有的應答,不限定特定的場景,作用于全域范圍。

不同于智能駕駛技術,不同的 Level 采用的是完全不同的技術棧,智能安全中的 L0~5 是需要逐步往上構建往上發(fā)展。按照這個劃分,今天行業(yè)內絕大部份的安全系統(tǒng)都是L1 的系統(tǒng),極少一部分能達到 L2,但還沒有真正意義上的L3及以上的智能安全系統(tǒng)。隨著級別往上走,能夠將防御者從低水平對抗中逐步釋放出來,能更加關注高級對抗,L3是個分水嶺,有望在5年內實現(xiàn)?!甘加趪褰K于安全」,機器智能在安全領域的終局是什么?網絡層、主機層、應用層、業(yè)務層、數據層都分別有各自的智能實例,不同層的實例在線互聯(lián),實現(xiàn)真正意義的協(xié)同防御與情報共享。當智能「Intelligence」和情報「Intelligence」融合的那一天,才是真正的「Intelligence Remodels New Security」。


 
 

上一篇:邊緣計算安全性的挑戰(zhàn)與好處

下一篇:2019年10月29日 聚銘安全速遞