行業(yè)動態(tài)

使用機器學(xué)習(xí)來幫助安全服務(wù)

來源:聚銘網(wǎng)絡(luò)    發(fā)布時間:2016-12-29    瀏覽次數(shù):
 

信息來源:企業(yè)網(wǎng)

美國國務(wù)院每年對20億封電子郵件進行分類是一項艱巨的任務(wù)。目前,其已經(jīng)看到了機器學(xué)習(xí)和自動化的好處。

美國安全部門的協(xié)調(diào)失敗已經(jīng)在諸如9/11襲擊事件之后被廣泛報道。美國安全部門工作人員可能會獲得防止攻擊所需的知識,但是缺乏協(xié)調(diào),導(dǎo)致這種情況沒有應(yīng)該擁有的人才。結(jié)果,發(fā)生了本可預(yù)防的暴行。

最近一篇文章探討了如何使用人工智能來改善美國國務(wù)院的內(nèi)部流程。該部門這項工作特別感興趣的是,如何更好地正確分類每年在內(nèi)部生成的大量電子郵件。

進行分類

該部門被認為每年產(chǎn)生約20億封電子郵件,其中許多包含分類信息。然而,了解(并因此正確地標(biāo)記)秘需要分類的內(nèi)容是一項艱巨的工作。

研究人員使用機器學(xué)習(xí)來改善這一點。他們開始通過訓(xùn)練他們的算法從上世紀(jì)70年代美國國務(wù)院和海外外交官之間的通訊的大約一百萬封郵件分類。每封郵件以前都標(biāo)記為秘密,機密,有限的官方使用或未分類。

在訓(xùn)練了系統(tǒng)之后,他們設(shè)置這個系統(tǒng)工作,以查看它是否可以正確地分類文檔,特別是它是否可以正確地標(biāo)記內(nèi)容應(yīng)該是分類狀態(tài)。

該算法在這樣做時證明是特別有效的,其在分類內(nèi)容的成功率為90%,錯誤率僅為11%。更重要的是,團隊認為他們可以用更好的數(shù)據(jù)做更好的工作。

什么使這些內(nèi)容進行分類?

除了對內(nèi)容進行分類的能力之外,這項工作還揭示了一個有助于其安全狀態(tài)的信息方面的新亮點。例如,出現(xiàn)了某些單詞的頻率是整個消息的安全狀態(tài)的最佳指示符,而發(fā)送者和接收者更不可靠。

有趣的是,機器分配的一些錯誤標(biāo)簽實際上被證明是人為的錯誤。換句話說,他們應(yīng)該被分類,但人類卻標(biāo)記了它們。

這表明,機器可以在確保內(nèi)容被正確分類方面發(fā)揮越來越重要的作用,但是為了使其有效,人們需要有良好的質(zhì)量數(shù)據(jù)來訓(xùn)練機器。

此外,該工作還具有揭示數(shù)據(jù)共享中的模式的潛力,以及實際上在人們的安全服務(wù)中的數(shù)據(jù)移除,其本身可能具有安全影響。畢竟,分類內(nèi)容有丟失的習(xí)慣。

雖然這無疑是有趣的,但也很清楚,這樣的過程是一個非常早期的階段。然而,鑒于美國國務(wù)院每年花費數(shù)十億美元對文件進行分類,這項工作有希望值得進一步發(fā)展。

 
 

上一篇:2016年12月27日 聚銘安全速遞

下一篇:濫用Edge瀏覽器的“惡意站點警告”特性,實現(xiàn)地址欄欺騙