地鐵跑酷百米爆輔助腳本v1.7(地鐵跑酷自動(dòng)跑腳本免root)
Twitter 是一個(gè)流行的威脅追蹤公共資源,許多安全供應(yīng)商和安全專家在實(shí)踐中使用 Twitter 來(lái)收集入侵指標(biāo) (IOC, Indicators of Compromise)。然而,在 Twitter 上對(duì) IOC 的研究甚少。它們的重要特征從未被研究過,如早期性、唯一性和準(zhǔn)確性。而且,如何從 Twitter 中高精度地提取 IOC并不明顯。在本文中介紹了 Twiti,這是一個(gè)從 Twitter 自動(dòng)提取各種形式的惡意軟件 IOC 的系統(tǒng),Twiti 的源代碼可在 https://github.com/Samsung/Twiti 獲得?;谑占降?IOC,對(duì) Twitter 上的惡意軟件 IOC 進(jìn)行了首次實(shí)證評(píng)估和徹底分析。Twiti 通過利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù)從被識(shí)別為具有惡意軟件 IOC 信息的推文中提取 IOC。通過廣泛的評(píng)估,證明 Twiti 不僅可以準(zhǔn)確地提取惡意軟件 IOC,而且提取的 IOC 是唯一且早期的。通過從各個(gè)方面分析 Twiti 中的 IOC,發(fā)現(xiàn) Twitter 比其他公共威脅情報(bào) (TI) 反饋更好地捕獲持續(xù)的惡意軟件威脅,例如 Emotet 變體和惡意軟件分發(fā)站點(diǎn)。還發(fā)現(xiàn) Twitter 上只有一小部分 IOC 來(lái)自商業(yè)供應(yīng)商帳戶、個(gè)人 Twitter 用戶是早期發(fā)現(xiàn)或獨(dú)家 IOC 的主要貢獻(xiàn)者,這表明 Twitter 可以提供許多在商業(yè)領(lǐng)域發(fā)現(xiàn)的有價(jià)值的 IOC。
1
Introduction
惡意軟件攻擊每年都在增加。特別是,通過網(wǎng)站傳播的惡意軟件正在迅速增加。正如在 Dyn 攻擊和 Garmin 勒索軟件攻擊中所見,惡意軟件可以迅速傳播,其破壞可能是災(zāi)難性的。考慮到其風(fēng)險(xiǎn),預(yù)防是最好的防御。盡管存在一些基于預(yù)測(cè)的惡意軟件檢測(cè)解決方案,但入侵指標(biāo) (IOC) 是防御惡意軟件的關(guān)鍵。IOC 是網(wǎng)絡(luò)攻擊的取證工件,因此它們能夠檢測(cè)系統(tǒng)或網(wǎng)絡(luò)上的入侵企圖或任何其他惡意活動(dòng)。當(dāng)及時(shí)提供最新的 IOC 時(shí),它們?cè)诒Wo(hù)系統(tǒng)或網(wǎng)絡(luò)免受未來(lái)攻擊方面發(fā)揮著關(guān)鍵作用。IOC 的示例包括惡意文件的 MD5 哈希值、IP 地址、僵尸網(wǎng)絡(luò)的 URL 或域以及文件名。
大多數(shù)組織訂閱威脅情報(bào) (TI) 源以接收惡意軟件 IOC,但單個(gè)源是不夠的。許多 tivirus 解決方案和商業(yè) TI 源通常不會(huì)立即反映新的或正在進(jìn)行的攻擊的 IOC。由于這些原因,許多行業(yè)和安全專業(yè)人士通過開源威脅情報(bào)豐富了 IOC。根據(jù) 2019 年對(duì)北美和英國(guó) 1,908 名 IT 和安全從業(yè)人員的調(diào)查,至少 37% 的受訪者表示他們的組織將公共 TI 訂閱源與商業(yè)訂閱源一起使用(41% 的受訪者表示他們的組織使用一個(gè)付費(fèi) TI 反饋,而 78% 的人回應(yīng)使用多個(gè) TI 反饋)。
展開全文
有很多公共資源可以收集惡意軟件 IOC。最容易訪問的來(lái)源是公共惡意軟件黑名單列表,例如 Feodo tracker 和 AlienVault IP 聲譽(yù) 。安全供應(yīng)商博客是 IOC 挖掘的另一個(gè)常見來(lái)源。安全郵件列表、安全論壇和暗網(wǎng)也經(jīng)常用于 IOC 搜索 。在眾多公共資源中,Twitter 保證攻擊的數(shù)量、及時(shí)性和多樣性。它通過將推文鏈接到外部站點(diǎn)來(lái)從整個(gè)網(wǎng)絡(luò)帶來(lái)大量?jī)?nèi)容,這使 Twitter 能夠涵蓋來(lái)自各種來(lái)源的大量新 IOC,例如安全供應(yīng)商博客、蜜罐和惡意軟件沙箱。這使得許多安全供應(yīng)商在實(shí)踐中利用 Twitter 進(jìn)行 IOC 搜索。
然而,由于 Twitter 的獨(dú)特特性,如文本短、非標(biāo)準(zhǔn)語(yǔ)言以及與推文相關(guān)的外部來(lái)源多樣,從 Twitter 中挖掘出高精度的 IOCs 并不明顯。有一些開放系統(tǒng)從 Twitter 收集 IOC。但是,正如稍后展示的那樣,實(shí)驗(yàn)表明在 Twitter 上使用 IOC 時(shí),兩個(gè)系統(tǒng)的覆蓋率和準(zhǔn)確性都不令人滿意。因此開發(fā)了 Twiti,一個(gè)用于 Twitter 的自動(dòng) IOC 提取系統(tǒng)。Twiti 使用推文分類器和選定的外部源列表識(shí)別可能包含惡意軟件 IOC 的推文。然后它從推文和推文中的外部鏈接中提取 IOC。這種方法使 Twiti 能夠以高精度收集大量 IOC。
此外,盡管 Twitter 作為 IOC 的數(shù)據(jù)源廣受歡迎,但人們對(duì)從中收集的 IOC 知之甚少——Twitter 上有多少 IOC、它們有多新、多準(zhǔn)確、與其他公共或商業(yè)機(jī)構(gòu)相比有多獨(dú)特TI 反饋、報(bào)告了哪些惡意軟件 IOC、誰(shuí)報(bào)告了獨(dú)家 IOC、Twitter 上有多少 IOC 可以用于任何目的、可以從外部鏈接獲取多少 IOC等等。為了回答這些問題,通過 Twiti 收集惡意文件哈希以及與惡意軟件相關(guān)的 IP 地址、域和 URL。然后評(píng)估數(shù)量、延遲、準(zhǔn)確性和排他性。最終從數(shù)據(jù)源、文件類型到惡意軟件類型等各個(gè)方面分析了收集到的 IOC 的特征,以提供有關(guān) Twitter 上 IOC 的見解。
2
TWITI:Design and Implementation
下圖說明了 Twiti 的架構(gòu)。Twiti 由三個(gè)步驟組成——數(shù)據(jù)收集、相關(guān)推文選擇和 IOC 提取。Twiti 旨在以高精度收集盡可能多的與惡意軟件相關(guān)的 IOC。為了實(shí)現(xiàn)這一目標(biāo),在 2019 年 11 月進(jìn)行了一項(xiàng)試點(diǎn)研究,精心設(shè)計(jì)了數(shù)據(jù)收集器和 IOC 提取器。
A.推文收集器
為了最大化要收集的 IOC 的數(shù)量,Twiti 主要通過使用 Twitter 搜索 API 的關(guān)鍵字跟蹤來(lái)收集數(shù)據(jù),其次是使用時(shí)間線 API通過用戶跟蹤來(lái)收集數(shù)據(jù)。跟蹤了 35 個(gè)可能與惡意軟件 IOC 一起出現(xiàn)的關(guān)鍵字。關(guān)鍵字的示例包括 “malware”、“ransomware”、“botnet”、“spyware”、“adware”、“malspam”、“iocs” 和“virustotal.com”。此外,還跟蹤了 146 名 Twitter 用戶,其中包括 86% 的安全專家、12% 的安全供應(yīng)商和 2% 的其他安全組織。請(qǐng)注意,在 125 位安全專家中,67% 的人在他們的個(gè)人資料中將自己介紹為惡意軟件分析師、惡意軟件研究員、威脅獵人d或威脅情報(bào)研究員。另請(qǐng)注意,Twiti 會(huì)收集轉(zhuǎn)發(fā)的原始推文并從中提取 IOC。
B.相關(guān)推文選擇器
使用模式匹配簡(jiǎn)單提取 IOC 會(huì)導(dǎo)致許多誤報(bào)。大多數(shù)推文都包含他們自己的推文或參考的鏈接(例如,https://t.co/qQdme1Buxh)。一些推文提到軟件版本與 IP 模式匹配(例如,Tuleap 9.17.99.189)。一些推文提到了用于引用提交 ID 或區(qū)塊鏈交易的哈希值。為了減少這種誤報(bào),Twiti 首先處理推文中的鏈接,然后對(duì)推文進(jìn)行分類以過濾掉那些沒有 IOC 的推文。
(1)推文預(yù)處理器
短URL移除器:Twitter 的 t.co 服務(wù)會(huì)自動(dòng)縮短推文中發(fā)布的所有鏈接(URL)。由于 Twitter 轉(zhuǎn)換的鏈接會(huì)針對(duì)潛在危險(xiǎn)站點(diǎn)進(jìn)行檢查,因此會(huì)從文本中刪除“http://t.co”鏈接,以避免將推文中的良性 URL 錯(cuò)誤地檢測(cè)為 IOC。盡管在此過程中,由其他 URL 縮短器縮短的某些鏈接有時(shí)仍會(huì)保留在推文中。因此還會(huì)刪除域名為“bit.ly”、“tinyurl.com”、“buff.ly”、“goo.gl”、“youtu.be”或“ow.ly”的短URL。
正則表達(dá)式檢查器:刪除短URL后,會(huì)檢查每條推文中是否有與哈希、IP 地址、域和 URL 的正則表達(dá)式匹配的術(shù)語(yǔ)。
文本預(yù)處理器:對(duì)于通過正則表達(dá)式檢查器的每條推文,應(yīng)用以下自然語(yǔ)言處理 (NLP) 為分類器提取特征:
(1) 所有類型的hash都替換為“[hash]”。IP 地址、URL、域、文件名、文件路徑和電子郵件的術(shù)語(yǔ)也替換為“[ip]”、“[url]”、“[domain]”、“[filename]”、“[filepath]” ,和“[email]”,分別。請(qǐng)注意,所有經(jīng)過修改的 URL、IP 地址和域都被轉(zhuǎn)換為它們的代表標(biāo)記,例如“[url]”。Twitter 句柄和 CVE ID 也被替換為“[username]”和“[cve]”。所有數(shù)字都替換為“[num]”。
(2) 命名實(shí)體識(shí)別 (NER) 應(yīng)用于每條推文。標(biāo)記為惡意軟件的詞被替換為“[malware_name]”。
(3) 刪除了前文和后文中的 Twitter 句柄。
(4) 刪除了 IOC 中未使用的 Unicode 字符和符號(hào)。
(5) 推文是小寫的。跟蹤的關(guān)鍵字及其別名由單個(gè)標(biāo)記形式的單個(gè)代表性術(shù)語(yǔ)替換。例如,“cc”、“cnc”和“command and-control”被替換為“c2”。
(6) 對(duì)推文進(jìn)行標(biāo)記化并對(duì)每個(gè)單詞應(yīng)用詞形還原,以將單詞的屈折形式表示為單個(gè)單詞。停用詞被刪除。刪除由單個(gè)字符“[username]”和“[num]”組成的詞。
請(qǐng)注意,現(xiàn)有的 NER 工具如 NLTK、CoreNLP和 twitter_nlp未在網(wǎng)絡(luò)安全領(lǐng)域接受過訓(xùn)練。因此,使用提及網(wǎng)絡(luò)安全事件的推文訓(xùn)練了 Bert 模型,并在步驟 (2) 中使用了它?;?Bert 的 NER 的詳細(xì)信息可以在 https://github.com/Samsung/Twiti上找到。
(2)推文分類器
開發(fā)了一種高性能推文分類器,用于確定推文是否包含 IOC。在下文中根據(jù)是否包含 IOC 將推文稱為 IOC 推文或非 IOC 推文。
數(shù)據(jù)集:為了構(gòu)建 IOC 推文分類器,收集了 2019 年 1 月至 9 月包含 IOC 模式的推文。在此期間,可以收集 21,937 條推文。去除Jaccard相似度大于0.70的相似推文后,剩余5675條推文。三位安全專家手動(dòng)注釋每條推文是否包含任何 IOC。有 3,007 條IOC推文和 2,668 條非IOC推文。
特征:認(rèn)為以下是初始特征:
? Defanged IOCs:此功能檢查每條推文中是否至少有一個(gè)defanged IOC。在推特上發(fā)布 IOC 時(shí),defang 技術(shù)通常應(yīng)用于 IP 地址、URL 和域,以防止意外暴露于惡意活動(dòng)內(nèi)容。此類推文的示例包括“#gandcrab @ hxxp://92.63.197.106/c.exe”、“#Roam ingMantis new landing pages:67[.] 198.129.27 …”、“#darkcomet /elumadns.eluma101 .com …”,“This app impersonate…#c2 hold[.]jcgloball[.]org:11880”。
? 上下文n-gram:這些是圍繞IOC 關(guān)鍵詞的上下文詞。使用的關(guān)鍵詞是被跟蹤的關(guān)鍵字(例如, “malware”, “ransomware”, “botnet”)、“[hash]”、“[ip]”、“[url]”、“[domain]”和“[malware_name]”。很明顯,在 IOC 和非 IOC 推文中,有關(guān)感興趣模式的詞會(huì)大不相同。例如,“version [ip]”、“up to [ip]”、“before [ip]”、“preor to [ip]”和“commit [hash]”清楚地出現(xiàn)在關(guān)于軟件漏洞的推文中,而“ hash [hash]”、“c2 [url]”、“c2 [ip]”、“botnet c2”、“from [ip]”、“ransomware [hash]”、“[file name] [hash]”、和“[malware_name] md5s [hash]”絕對(duì)屬于IOC的推文。為了提取這樣的上下文特征,首先將文本預(yù)處理 (1)-(5) 應(yīng)用于每條推文。然后提取由目標(biāo)詞及其左右兩側(cè)的 1-2 個(gè)詞組成的二元詞組和三元詞組。
? 詞袋:與IOC 共同出現(xiàn)的詞也不同于非IOC 推文中的詞。例如,“c2”、“md5s”、“yara”、“botnet”、“[malware_name]”、“ransomware”顯然更多地出現(xiàn)在IOC的推文中。相反,在 IOC 推文中不太可能觀察到“[cve]”、“csrf”、“0daytoday”、“vulnerability”、“xss”和“sql”。文本預(yù)處理(1)-(6)用于提取單詞。然后刪除常見的英語(yǔ)單詞。通過將詞形還原詞視為特征,可以考慮在上下文特征中無(wú)法考慮的詞變異。
請(qǐng)注意,這里的所有特征都是二元特征。也就是說,如果每個(gè)特征在推文中,則取值為 1,否則取值為 0。
特征選擇:并非所有特征對(duì)分類都很重要。選擇了使用互信息 (MI) 將 IOC 推文與非 IOC 推文區(qū)分開來(lái)的特征。對(duì)于特征 X 和類標(biāo)簽 Y ∈ {IOC tweet, non-IOC tweet},X 和 Y 的互信息計(jì)算如下:
其中 PX,Y 是 X 和 Y 的聯(lián)合分布,PX , PY 分別是 X 和 Y 的邊際分布。MI 衡量知道 X 減少了關(guān)于 Y 的不確定性的程度,反之亦然。例如,如果 X 和 Y 是獨(dú)立的,那么知道 X 并不會(huì)給出關(guān)于 Y 的任何信息,因此它們的 MI 為零。因此,MI 能夠選擇有助于區(qū)分 IOC 推文和非 IOC 推文的特征。取 MI 大于 0.0002 的詞和 n-gram。選擇閾值是為了最大化分類器的預(yù)測(cè)性能。
分類器:有 22,316 個(gè)初始特征。特征選擇后,保留了 1,456 個(gè)特征。它們包含 483 個(gè)單詞(unigrams)和 972 個(gè)二元詞和三元詞??紤]了 3 個(gè)分類器——邏輯回歸、隨機(jī)森林和 XGBoost。使用由 3,007 條 IOC 推文和 2,668 條非 IOC 推文組成的數(shù)據(jù)集使用 5 折交叉驗(yàn)證評(píng)估了這些分類器。選擇了隨機(jī)森林分類器,因?yàn)樗憩F(xiàn)出最好的性能——精度為 0.95,召回率為 0.96。在下圖中展示了 3 個(gè)分類器的 ROC 曲線,在下表中展示了隨機(jī)森林分類器的重要特征示例。
(3)外部鏈接檢查器
由于推文文本簡(jiǎn)潔(280 個(gè)字符限制),用戶經(jīng)常通過外部鏈接分享詳細(xì)信息。因此通過分析試點(diǎn)研究中推文中的外部鏈接,構(gòu)建了一個(gè)外部來(lái)源列表,這些來(lái)源為大量 IOC 提供了較小的誤報(bào)。由于推文中的所有鏈接都被 Twitter 縮短,Twiti 從 Twitter API 檢索“http://t.co”鏈接的完整URL。然后檢查完整的 URL 是否來(lái)自選定的外部源。
C.IOC 提取器
在 Twitter 上,有各種與威脅相關(guān)的信息,從漏洞、漏洞利用和惡意軟件到異常網(wǎng)絡(luò)活動(dòng)。但是,此類信息的詳細(xì)程度因作者而異。一些 Twitter 用戶發(fā)布 CC 服務(wù)器或其他有價(jià)值的 IOC 信息,如 IP 地址、URL 和文件哈希。另一方面,其他用戶在沒有太多細(xì)節(jié)的情況下分享他們的發(fā)現(xiàn)或經(jīng)驗(yàn)。根據(jù)信息的詳細(xì)程度,從 Twitter 尋找 IOC 的方法有所不同。在 Twiti 中,IOC 提取器會(huì)遇到以下兩種情況:
? 例1:推文中的IOC。
? 例2:推文中沒有 IOC,但外部鏈接中有 IOC
從推文中提取 IOC:Twiti 首先通過正則表達(dá)式的模式匹配在推文文本中查找 IOC。但是,某些類型的 IOC(例如 URL 和 IP 地址)通常會(huì)被破壞,以避免無(wú)意中點(diǎn)擊惡意鏈接。從評(píng)估中發(fā)現(xiàn) 38% 的收集到的 IP 被篡改,73% 的收集到的 URL 被篡改。這表明 Twitter 在處理 defang 技術(shù)方面比在安全博客、論壇和郵件列表中面臨更多挑戰(zhàn)。Twiti 通過在開源 IOC 提取器中使用各種去污技術(shù)以及為擴(kuò)展檢測(cè)范圍而添加的更多脫移URL 模式來(lái)檢測(cè)脫移IOC。Twiti 還從鏈接文本本身收集文件哈希、IP 地址和域?;叵胍幌?,Twiti 在模式匹配之前從文本中刪除了“http://t.co”鏈接,盡管它們是推文的一部分。但是,從外部鏈接分析中,觀察到某些類型的 IOC 嵌入在惡意軟件分析服務(wù)的給定鏈接文本中。例如,“https://www.virustotal.com/gui/ip-address/78.155.199.119/detection”。因此,Twiti 直接從給定的鏈接中提取這些 IOC。
從外部來(lái)源提取 IOC:當(dāng)推文中的鏈接位于選定列表中時(shí),Twiti 從外部來(lái)源收集 IOC。為了選擇提供大量 IOC 且誤報(bào)較小的外部來(lái)源,分析了 2019 年 11 月收集的推文中嵌入的鏈接。從分析發(fā)現(xiàn),安全供應(yīng)商博客、惡意軟件分析服務(wù)和 Pastebin.com 是 IOC 的主要來(lái)源。針對(duì)不同類型的數(shù)據(jù)源分別開發(fā)IOC提取器如下:
? Pastebin.com:觀察到 Pastebin.com 是推文中給出的頂級(jí)外部鏈接之一。這是一個(gè)用戶可以在線存儲(chǔ)文本的網(wǎng)站。正如稍后展示的,Twiti 收集的許多 IOC 都來(lái)自它。在 Pastebin 中,有來(lái)自源代碼片段、泄露到 IOC 的憑據(jù)的各種類型的信息。因此,對(duì)于 IOC 集合,在推文中搜索 Pastebin.com 的所有鏈接并不是一個(gè)好主意。因此,分析了與 Pastebin.com 共現(xiàn)的詞,并在應(yīng)用文本預(yù)處理 (1)-(6) 后提取了前 50 個(gè)詞。經(jīng)過人工審核,最終選擇了18個(gè)詞。
此類詞的示例包括“惡意軟件”、“malware”, “ransomware”, “trojan”, “botnet”、“[malware_name]”、“c2”、“ioc”和“payload”。當(dāng)這些詞與 Pastebin.com 鏈接一起出現(xiàn)時(shí),Twiti 從 Pastebin 收集 IOC。
? 惡意軟件分析服務(wù):觀察到推文中的IOC 通常與分析報(bào)告的鏈接一起提供。從外部鏈接分析中,觀察到推文中發(fā)布的 57% 的分析報(bào)告來(lái)自 VirusTotal,33% 來(lái)自 Any.Run,7% 來(lái)自 urlscan.io,3% 來(lái)自其余惡意軟件分析服務(wù).其中許多在給定的鏈接文本中包含 IOC,但有些在其站點(diǎn)中提供 IOC。在后一種情況下,Twiti 使用他們的 API 收集 IOC。請(qǐng)注意,雖然觀察到許多早于 VirusTotal 的惡意文件哈希經(jīng)常通過 app.any.run 報(bào)告,但 Twiti 無(wú)法從 Any.Run 收集 IOC,因?yàn)樗鼪]有提供公共 API。
? 安全供應(yīng)商博客:從外部鏈接分析中觀察到 100 多個(gè)安全供應(yīng)商博客。每個(gè)供應(yīng)商在提供 IOC 時(shí)都有自己的格式。因此,需要為每個(gè)博客開發(fā)專用的解析器。
? 除了上面提到的那些,Twiti 使用 API 從 AlienVault OTX收集 IOC。
請(qǐng)注意,幾乎所有安全供應(yīng)商博客都在其服務(wù)條款中嚴(yán)格限制對(duì)其數(shù)據(jù)的使用。因此,Twiti 從數(shù)百個(gè)供應(yīng)商博客中的 IOC 數(shù)量中收集了 10 個(gè)主要安全供應(yīng)商博客的數(shù)據(jù),僅供參考,以提供有關(guān)從安全供應(yīng)商收集的 IOC 數(shù)據(jù)的見解。
3
Design Choice
以下是對(duì) Twiti 的設(shè)計(jì)選擇,以盡可能多地收集惡意軟件 IOC,并具有較小的誤報(bào)。
數(shù)據(jù)收集方法:有兩種方法可以從 Twitter 收集數(shù)據(jù)——(i) 關(guān)鍵字跟蹤和 (ii) 用戶跟蹤。為了確定 Twiti 的數(shù)據(jù)收集方法,試驗(yàn)了兩種方法之間 IOC 數(shù)量的差異。在實(shí)驗(yàn)中,在 2019 年 11 月跟蹤了 35 個(gè)關(guān)鍵字和 82 個(gè) Twitter 用戶。觀察到,收集的 IOC 中有 36.2% 來(lái)自關(guān)鍵字跟蹤,25.6% 來(lái)自用戶跟蹤,38.2% 來(lái)自兩者。因此決定利用這兩種方式來(lái)最大化 IOC 收集。由于關(guān)鍵詞追蹤對(duì)IOC的拉動(dòng)更大,更容易擴(kuò)展,所以Twiti使用關(guān)鍵詞追蹤作為主要的數(shù)據(jù)收集方法,用戶追蹤作為輔助方法。
關(guān)鍵詞的選擇:選擇了可能與 IOC 共同出現(xiàn)的關(guān)鍵字,但不要制造太多噪音。使用數(shù)據(jù)集提取了在 IOC 推文中比非 IOC 推文中出現(xiàn)次數(shù)更多的前 100 個(gè)單詞。應(yīng)用了文本預(yù)處理 (1)-(6),然后刪除了 Twitter 中的常用詞和規(guī)范化的詞,如“[mal ware_name]”和“[cve]”。刪除可能導(dǎo)致很多誤報(bào)的一般詞后,得到了 35 個(gè)詞。
推特用戶的選擇:為了使基于用戶的數(shù)據(jù)收集與基于關(guān)鍵字的數(shù)據(jù)收集相輔相成,選擇了滿足以下任一條件的 Twitter 用戶:
(1) 用戶是否經(jīng)常在沒有上述關(guān)鍵詞的情況下提及 IOC?
(2) 用戶是包含 IOC 的轉(zhuǎn)推的原始推文作者還是在有關(guān) IOC 的討論中?
(3) 用戶是否是 IOC 的貢獻(xiàn)者?
(4) 用戶的個(gè)人資料中是否包含 “malware”, “ransomware”, “threat hunter”, “threatintel”等詞?
通過分析數(shù)據(jù)集及其個(gè)人資料來(lái)收集此類用戶,提取了至少創(chuàng)建了一條沒有關(guān)鍵字的 IOC 推文并且其帳戶處于活動(dòng)狀態(tài)的作者。此外,在IOC推文的前后文本中提取用戶,因?yàn)橛^察到位于IOC推文開頭和結(jié)尾的用戶屬于條件(2)-(3)。然后保留了在 IOC 推文中出現(xiàn)統(tǒng)計(jì)顯著大于非 IOC 推文的用戶。最后分析了收集到的用戶的帳戶資料,發(fā)現(xiàn)其中許多人自我介紹為惡意軟件分析師、惡意軟件研究人員、威脅獵人或威脅情報(bào)研究人員。從他們的個(gè)人資料中提取了一些重要的詞,然后收集了更多的 Twitter 用戶,包括這些詞。經(jīng)過以上所有流程和人工審核,最終選出了 146 位 Twitter 用戶。
外部源的選擇:分析了 2019 年 11 月收集的 IOC 推文中嵌入的鏈接。獲得了 25,437 個(gè)唯一參考 URL,其中包含 5,605 個(gè)唯一域。其中,選擇了IOC收藏的頂級(jí)站點(diǎn)。請(qǐng)注意,在 25,437 個(gè)外部鏈接中,6.2% 來(lái)自惡意軟件分析服務(wù),4.2% 來(lái)自安全供應(yīng)商博客,1.4% 來(lái)自 Pastebin.com,0.15% 來(lái)自 AlienVault OTX。
4
Evalution
A.評(píng)估設(shè)置
評(píng)估指標(biāo):為了評(píng)估 Twiti 的性能,通過將 Twiti 收集的 IOC 與選定的參考源進(jìn)行比較來(lái)測(cè)量數(shù)量、排他性、延遲和準(zhǔn)確性。對(duì)于每種類型(例如文件哈希)的指標(biāo),定義了:
? 數(shù)量,作為評(píng)估期間飼料中指標(biāo)的總數(shù)。
? 排他性,即 Twiti 中指標(biāo)在其生命周期內(nèi)不在參考源中的比例。它的正式形式為 |Twiti\A|/|Twiti|。
? 延遲是指Twiti 首次檢測(cè)到指標(biāo)與其生命周期內(nèi)首次出現(xiàn)在參考源之間所經(jīng)過的時(shí)間。
? 準(zhǔn)確度是指反饋中真正惡意的指標(biāo)的比例,它對(duì)應(yīng)于準(zhǔn)確度。
覆蓋率(反饋捕獲的預(yù)期指標(biāo)的比例)是一個(gè)重要的性能指標(biāo)。然而,在缺乏所有持續(xù)威脅的真實(shí)情況的情況下,很難衡量覆蓋率。所以,改為測(cè)量當(dāng)反饋中的整套指標(biāo)可用時(shí),Twiti 捕獲的反饋中指標(biāo)的比例。參考來(lái)源。下表總結(jié)了用于評(píng)估的參考來(lái)源。使用 VirusTotal 作為一個(gè)基本事實(shí)來(lái)衡量哈希和 URL 的準(zhǔn)確性。還使用 VirusTotal 來(lái)衡量所有 IOC 類型的獨(dú)占性和延遲。VirusTotal 不僅是一項(xiàng)分析可疑文件和 URL 以檢測(cè)惡意軟件的服務(wù),而且還是最大的 TI 反饋,由 72 個(gè)防病毒引擎和 68 個(gè)網(wǎng)站/域掃描引擎和黑名單列表支持。
與 VirusTotal 相比,高排他性和低延遲將是 Twiti 作為 TI 反饋實(shí)力的一個(gè)很好的指標(biāo)。請(qǐng)注意,使用 VirusTotal 私有 API v3.0 來(lái)獲取有關(guān)文件哈希、URL、IP 地址和域的報(bào)告,以用于研究目的。還使用了以下參考:
(i) 對(duì)于文件哈希,將 Twiti 與 AlienVault OTX Pulse 和 Mal wareBazaar進(jìn)行了比較。他們都不是 VirusTotal 的貢獻(xiàn)者。AlienVault OTX 是最大的開放威脅交換平臺(tái),任何人都可以通過脈沖訂閱來(lái)訂閱 IOC。MalwareBazaar 聲稱其三分之二的樣本未被 VirusTotal 檢測(cè)到。
(ii) 對(duì)于域,使用 Alexa top 1M、Cisco Umbrella top 1M和 Majestic 1M數(shù)據(jù)中的前 25k 域來(lái)檢查有多少良性域被報(bào)告為惡意。對(duì)于每個(gè) 25k 域集,們?cè)谠u(píng)估期間連續(xù)出現(xiàn)的域,因?yàn)榱斜碇锌赡艽嬖谝欢螘r(shí)間的惡意域。
(iii) 對(duì)于 IP 地址,將 Twiti 與一些與惡意軟件相關(guān)的公共 IP 黑名單列表進(jìn)行了比較。選定的公共 IP 黑名單列表包括 AlienVault IP Reputation、Bambenek_c2、Feodo Tracker、SSL 黑名單和 Mirai 相關(guān)反饋。為了衡量準(zhǔn)確性,使用上述頂級(jí) 25k 域數(shù)據(jù)和主要內(nèi)容交付網(wǎng)絡(luò) (CDN) 服務(wù)(AWS CloudFront、CloudFlare、Fastly、EdgeCast 和 MaxCDN)構(gòu)建了一個(gè) IP 地址許可列表。由于 VirusTotal 包含幾乎所有向公眾開放的流行 URL 和域黑名單列表,因此僅將 Twiti 中的 URL 和域與 VirusTotal 進(jìn)行了比較。
用于評(píng)估的數(shù)據(jù)集和 IOC。從 2020 年 2 月到 2020 年 4 月,通過跟蹤 35 個(gè)關(guān)鍵字和 146 個(gè)用戶收集到的 978,414 條推文每天運(yùn)行 Twiti。通過正則表達(dá)式、推文分類器和外部鏈接檢查器刪除重復(fù)和過濾后,17,904 條推文歸類為 IOC推文和 9,372 條推文,包括觀察列表中的外部鏈接。從這些推文中,Twiti 收集了 32,200 個(gè)唯一文件哈希值、18,718 個(gè)唯一 URL、70,515 個(gè)唯一 IP 地址和 11,060 個(gè)唯一域。評(píng)估收集了 3 個(gè)月的所有文件哈希。同時(shí)只評(píng)估了 4 月份的 URL、IP 和域,因?yàn)槊刻旄櫟拇罅?URL、IP 和域很容易超過 VirusTotal API 的每日查詢限制。出于同樣的原因,僅針對(duì)文件哈希將 Twiti 與 AlienVault OTX Pulse 進(jìn)行了比較。
B.評(píng)價(jià)結(jié)果(1)文件哈希
每天Twiti 都會(huì)收集以前從未見過的文件哈希值。上表顯示了 Twiti 3 個(gè)月收集的文件哈希的評(píng)估結(jié)果。
數(shù)量:Twiti 在 3 個(gè)月內(nèi)收集了 32,200 個(gè)文件哈希,其中 2 月份收集了 20,837 個(gè)哈希,3 月份收集了 5,306 個(gè)哈希,4 月份收集了 6,057 個(gè)哈希。它們由 10,022 個(gè) MD5 哈希(31.1%)、2,024 個(gè) SHA1 哈希(6.3%)和 20,154 個(gè) SHA256 哈希(62.6%)組成。通過向 VirusTotal 查詢它們,發(fā)現(xiàn) VirusTotal 中存在 Twiti 中的 30,207 個(gè)哈希值,它們對(duì)應(yīng)于 22,824 個(gè)唯一文件。其中,Android應(yīng)用程序有982個(gè)哈希值,ELF文件有320個(gè)哈希值,iOS應(yīng)用程序有33個(gè)哈希值,分別對(duì)應(yīng)712、227和31個(gè)文件。上圖顯示了 Twiti 每天收集的文件哈希數(shù)。Twiti 可以在 3 個(gè)月內(nèi)穩(wěn)定收集足夠的 IOC,除非一堆文件哈希來(lái)自 Pastebin.com。請(qǐng)注意,在 2 月的前幾天,2-3 名用戶通過 Pastebin.com 鏈接共享了數(shù)百到數(shù)千個(gè) IOC。除了那幾天,平均每天提到 421 個(gè)文件哈希,在評(píng)估期間,Twiti 平均每天可以收集 200 個(gè)新文件哈希。
排他性:使用它們的 API 將所有收集的哈希值與 VirusTotal 和 AlienVault OTX Pulse 進(jìn)行了比較。查詢每個(gè)源的哈希值,然后檢查是否在每個(gè)源中找到它們。當(dāng) 72 個(gè)防病毒引擎中的至少一個(gè)檢測(cè)到它是惡意的時(shí),將其視為存在于 VirusTotal 中。換句話說,不在 VirusTotal 中的哈希是那些未被任何引擎檢測(cè)到或在 VirusTotal 中找不到的哈希。通過這樣做,觀察到,截至 5 月 1 日,在 Twiti 的 32,200 個(gè)文件哈希中,7.20% 不在 VirusTotal 中,62.74% 不在 AlienVault OTX Pulse 中。
延遲:將 Twiti 對(duì)文件哈希的首次檢測(cè)時(shí)間定義為它在自 2 月以來(lái)收集的推文中的首次出現(xiàn)時(shí)間。這意味著在 2 月 1 日收集的所有文件哈希都將其首次檢測(cè)日期設(shè)為 2 月 1 日,盡管它們可能更早出現(xiàn)在 Twitter 上。將此類文件散列的延遲與參考進(jìn)行比較可能會(huì)錯(cuò)誤地描述 Twiti 的性能。因此,僅針對(duì)參考源中首次檢測(cè)日期為 2 月 1 日或該日期之后的文件哈希計(jì)算了 Twiti 的延遲。Twiti 中有 21,175 個(gè)文件哈希值可用于與 VirusTotal 進(jìn)行延遲比較。其中,Twiti 比 VirusTotal 平均早 1.2 天(最長(zhǎng) 27.5 天)檢測(cè)到 814 個(gè)文件哈希(3.84%),并且在 VirusTotal 首次檢測(cè)后的 24 小時(shí)內(nèi)檢測(cè)到 14,052 個(gè)文件哈希(66.36%)。為了與 AlienVault OTX Pulse 進(jìn)行比較,可以使用 Twiti 中的 8,508 個(gè)文件哈希值。其中,Twiti 中出現(xiàn) 5,094 個(gè)文件哈希(59.87%)比 AlienVault OTX Pulse 平均早 3.5 天(最多 86.2 天)。下圖顯示了 Twiti 與 VirusTotal 和 OTX Pulse 相比的延遲分布。
準(zhǔn)確性:由于 VirusTotal 可能存在誤報(bào)并且檢測(cè)可能會(huì)延遲,因此再次查詢了 5 月底收集的所有哈希值。然后,測(cè)量了被至少一個(gè)防病毒引擎和受信任軟件標(biāo)記為惡意的哈希值的比例。在完成所有這些之后,到 5 月底,Twiti 中 92.86% 的文件哈希是惡意的,0.03% 是良性的,7.11% 在 VirusTotal 中仍然未知。在未知哈希中,10.5% 來(lái)自安全供應(yīng)商報(bào)告,6.6% 來(lái)自惡意軟件分析服務(wù)的分析報(bào)告,如混合分析和 URLhaus,5.4% 來(lái)自帶有 app.any.run結(jié)果的推文和 1.9% 是由蜜罐賬戶報(bào)告的。這意味著它們足夠可疑,盡管 VirusTotal 中的任何引擎都沒有檢測(cè)到它們。
Emotet 哈希:Emotet 惡意軟件于 2014 年被發(fā)現(xiàn),最近它通過分發(fā)和丟棄其他銀行木馬(如 Trickbot、Ursnif 和 Ryuk 有效負(fù)載),演變?yōu)槌洚?dāng)惡意軟件即服務(wù)的威脅分發(fā)者。為了有效地抵御大量變體,TI 反饋盡早收集大量 Emotet 哈希非常重要。Twiti 可以批量收集 Emotet 的惡意軟件哈希。它收集了 3 個(gè)月內(nèi)與“emotet”一詞同時(shí)出現(xiàn)的 16,539 個(gè)文件哈希(對(duì)應(yīng)于 11,761 個(gè)惡意軟件樣本)。通過向 VirusTotal 查詢它們,觀察到 95.04% 是惡意的,4.95% 仍然未知,只有 1 個(gè)哈希是良性的。與其他惡意軟件哈希相比,Twiti 對(duì) Emotet 哈希顯示出更高的準(zhǔn)確性。此外,Twiti 比 AlienVault OTX Pulse 早 1.8 天收集了 92.09% 的 Emotet 哈希值,并且比 MalwareBazaar 早 33.3 天收集了所有 Emotet 哈希值。還測(cè)量了 Emotet 惡意軟件樣本在 Twiti、AlienValut OTX Pulse 和 MalwareBazaar 之間的重疊情況。結(jié)果如下表所示。與 AlienVault OTX Pulse 和 MalwareBazaar 相比,Twiti 不僅可以高度獨(dú)家地收集最多數(shù)量的 Emotet 惡意軟件樣本(77.06% 和 99.09%),而且可以覆蓋其他惡意軟件樣本的三分之一公共 TI 反饋。
(2)URL
URL 的評(píng)估比文件哈希更復(fù)雜。URL 的所有者或內(nèi)容隨時(shí)間而變化,因此它可能在某一天是惡意的,但在另一天是良性的。根據(jù)早期的研究認(rèn)為 30 天是與惡意軟件相關(guān)的惡意 URL 的生命周期,例如惡意軟件分發(fā)站點(diǎn)或 CC URL。下表顯示了 Twiti 使用 30 天窗口收集一個(gè)月的 URL 的評(píng)估結(jié)果。體積。Twiti 在 4 月份收集了 6,873 個(gè)惡意 URL。URL 的平均每日數(shù)量為 229。請(qǐng)注意,Twiti 在 2 月份收集了 7,630 個(gè) URL,在 3 月份收集了 4,911 個(gè) URL。
排他性:將收集到的 URL 與 VirusTotal 進(jìn)行了比較。每天向 VirusTotal 查詢每個(gè) URL 并檢查它是否是惡意的。為了判斷一個(gè) URL 是否為惡意,使用了 VirusTotal 的最新掃描結(jié)果。如果 VirusTotal 中某個(gè) URL 的最新掃描結(jié)果(last analysis result)是惡意的,并且其掃描日期(last analysis date)在最近 30 天內(nèi),則確定該 URL 是惡意的。如果 VirusTotal 中最近一次掃描的 URL 是惡意的,但其掃描日期在最近 30 天之前,要求對(duì)該 URL 進(jìn)行分析,當(dāng)重新掃描結(jié)果為惡意時(shí),會(huì)在 VirusTotal 中確定該 URL 是惡意的。否則,確定 URL 不在 VirusTotal 中。Twiti 檢測(cè)到 2,368 個(gè)不在 VirusTotal 中的 URL,占收集到的 URL 的 34.45%。認(rèn)為掃描更新間隔與惡意網(wǎng)址相對(duì)較短的生命周期之間的時(shí)間間隔使得網(wǎng)站掃描儀無(wú)法檢測(cè)到短命的惡意網(wǎng)址,從而導(dǎo)致網(wǎng)址的排他率較高。這種高度的排他性說明即使是最大的商業(yè)提要也是不完整的,因此將來(lái)自多個(gè)提要的 URL 聚合有利于防止惡意軟件的傳播。
延遲:惡意 URL 的延遲是通過其在 Twiti 中的首次檢測(cè)日期與其在過去 30 天內(nèi)有效的 VirusTotal 中的最新掃描日期之間的差異計(jì)算得出的。與文件哈希類似,測(cè)量了 VirusTotal 中最新掃描日期為 4 月 1 日或該日期之后的 URL 的 Twiti 延遲。Twiti 中有 4,229 個(gè) URL 可用于延遲比較。Twiti 平均比 VirusTotal 早 1.7 天發(fā)現(xiàn) 2,191 個(gè) URL (51.81%),同一天發(fā)現(xiàn) 1,741 個(gè) URL (41.17%),之后 297 個(gè) URL (7.02%)。
準(zhǔn)確性:通過向 VirusTotal 發(fā)出分析請(qǐng)求來(lái)檢查收集的 URL 是否真的是惡意的。然而,這個(gè)分析請(qǐng)求修改了最新的掃描日期,所以上面的延遲計(jì)算結(jié)果被扭曲了。因此進(jìn)行了額外的實(shí)驗(yàn)。從 2020 年 5 月 1 日到 14 日,要求 VirusTotal 在 Twiti 檢測(cè)到收集到的 URL 后立即對(duì)其進(jìn)行掃描,然后在掃描結(jié)果中測(cè)量其中有多少是惡意或可疑的。在此期間,Twiti 收集了 2,386 個(gè) URL。其中,Virust Total掃描結(jié)果中惡意網(wǎng)址1992個(gè),可疑網(wǎng)址72個(gè),干凈網(wǎng)址317個(gè),未發(fā)現(xiàn)網(wǎng)址站點(diǎn)5個(gè)。由于 VirusTotal 中的網(wǎng)站掃描器無(wú)法始終提供最新結(jié)果,我們?cè)?5 月底再次查詢了干凈的 URL,發(fā)現(xiàn) 2 周后有 142 個(gè)干凈的 URL 變?yōu)閻阂?。因此,Twiti 從 5 月 1 日到 14 日檢測(cè)到的 2,386 個(gè) URL 中有 89.44% 是真正惡意的。包括可疑 URL 在內(nèi),Twiti 的整體準(zhǔn)確率為 92.45%。盡管實(shí)時(shí)掃描精度很高,但 Twiti 收集了 7.33% 的干凈 URL,這使得 Twiti 難以用作自動(dòng)提要。由于 VirusTotal 中的實(shí)時(shí)網(wǎng)絡(luò)掃描程序可能會(huì)產(chǎn)生誤報(bào),對(duì) VirusTotal 確定為干凈的 175 個(gè) URL 進(jìn)行了誤報(bào) (FP) 分析。FP 分析結(jié)果可以在GitHub 存儲(chǔ)庫(kù)中找到。發(fā)現(xiàn) (i) Twiti 的實(shí)際誤報(bào)為 98 個(gè) URL,即準(zhǔn)確率為 95.89%,以及 (ii) 當(dāng)用戶發(fā)布帶有參考鏈接的 IOC 時(shí),98 個(gè)干凈 URL 中有 50% 來(lái)自 Pastebin.com。因此,由網(wǎng)絡(luò)安全領(lǐng)域的可信域(例如,virustotal.com、app.any.run、urlhaus、abuse.ch)組成的許可名單最終可以將 Twiti 的準(zhǔn)確率提高到 97.53%。
(3)IP 地址
IP 地址具有像 URL 一樣隨時(shí)間變化的屬性。許多最近的研究假設(shè)惡意 IP 的生命周期為 30 天。還使用 30 天的窗口進(jìn)行評(píng)估。下表顯示了 Twiti 一個(gè)月收集的 IP 地址的評(píng)估結(jié)果。
數(shù)量:Twiti 在 4 月份收集了 12,765 個(gè)惡意 IP 地址。Twiti 平均每天可以收集的惡意 IP 地址數(shù)為 426。請(qǐng)注意,Twiti 在 2 月份收集了 16,668 個(gè) IP 地址,在 3 月份收集了 45,683 個(gè) IP 地址。還調(diào)查了同期其他公共 IP 黑名單列表的數(shù)量。雖然公共 IP 黑名單列表的數(shù)量大多很少,但 Twiti 可以提供大量惡意 IP 地址。在公共 IP 黑名單列表中,AlienVault IP 聲譽(yù)的數(shù)量最大,因?yàn)樗鼒?bào)告了任何惡意 IP,不僅限于惡意軟件。
排他性:判斷 Twiti 檢測(cè)到的 IP 地址在 VirusTotal 中,當(dāng)該 IP 地址在 Twiti 中的第一次檢測(cè)日期和考慮的 IP 黑名單列表中的 30 天內(nèi)在 VirusTotal 中被標(biāo)記為惡意時(shí)。同樣,檢查了 Twiti 中的 IP 是否在 30 天窗口內(nèi)的每個(gè) IP 黑名單列表中。在上表中,為 VirusTotal 和每個(gè) IP 黑名單列表提供了獨(dú)占 IP 地址的比例。與 VirusTotal 相比,Twiti 中超過一半 (53.63%) 的 IP 地址是獨(dú)占的。Twiti 對(duì)公共 IP 黑名單列表顯示出更高的排他性 (90%)。在公共 IP 黑名單列表中,Twiti 與 AlienVault IP 聲譽(yù)的重疊度最高 (9.80%)。這表明,無(wú)論其數(shù)量如何,每個(gè)反饋對(duì) IP 地址的貢獻(xiàn)都非常獨(dú)特。
延遲:將惡意 IP 地址的首次檢測(cè)日期定義為它在 30 天窗口內(nèi)在 Twiti 中出現(xiàn)的第一天。與 VirusTotal 相比,Twiti 平均可以提前 5.9上表到 813 個(gè) IP 地址。請(qǐng)注意,VirusTotal API v3.0 不提供惡意 IP 的檢測(cè)時(shí)間,因此只能計(jì)算首先在 Twiti 中檢測(cè)到然后在 VirusTotal 中檢測(cè)到的 IP 的延遲。計(jì)算了 Twiti 中首次檢測(cè)日期與 30 天內(nèi)每個(gè)黑名單列表之間的差異。Twiti 發(fā)現(xiàn) 274 個(gè) IP 比 AlienVault IP 聲譽(yù)早 10.6 天,這是最大的公共 IP 黑名單列表之一。與其他 IP 黑名單列表相比,Twiti 最多可以提前 25 天檢測(cè)到惡意 IP,但它們與 Twiti 的重疊太小,無(wú)法討論延遲。
準(zhǔn)確性:與 URL 不同,沒有掃描方法來(lái)檢查 Twiti 檢測(cè)到的 IP 地址是惡意的還是良性的。因此們只測(cè)量了 Twiti 中有多少 IP 地址在使用第 4.1 節(jié)中列出的頂級(jí)流行域和主要 CDN 構(gòu)建的 IP 許可名單中。觀察到 Twiti 中只有 4 個(gè) (0.03%) 的 IP 被錯(cuò)誤地報(bào)告為惡意。
(4)域
域的評(píng)估方式與 IP 地址完全相同。Twiti 在 4 月份收集的域的評(píng)估結(jié)果如下表所示。
數(shù)量、排他性和延遲:Twiti 在 4 月份收集了 3,302 個(gè)惡意域名。惡意域的平均每日數(shù)量為 110。Twiti 2 月份收集了 4,737 個(gè)域名,3 月份收集了 4,633 個(gè)域名。與 VirusTotal 相比,Twiti 在 4 月份僅收集了 1,888 個(gè)域(57.18%)。在延遲比較有效的 1,414 個(gè)域中,Twiti 比 VirusTotal 提前 2.5 天檢測(cè)到 452 個(gè)域(38.40%),在同一天檢測(cè)到 463 個(gè)域(39.34%)。
準(zhǔn)確性:與 IP 地址類似,僅使用 Alexa、Umbrella 和 Majestic 前 25k 域列表測(cè)量了 Twiti 中有多少良性域。觀察到,在 Twiti 中總共有 2.57% 的域在許可名單中。
C.與現(xiàn)有系統(tǒng)的比較
將 Twiti 與從 Twitter 收集 IOC 的現(xiàn)有系統(tǒng)進(jìn)行了比較:InQuest IOC DB和 Twitter IOC Hunter。在許多其他類型的 IOC 中,通過它們的 API 從兩個(gè)系統(tǒng)收集了 2 周的 URL。以與 Twiti 完全相同的方式檢查所收集 URL 的準(zhǔn)確性。評(píng)價(jià)結(jié)果如下表所示。觀察到,Twiti 不僅可以比兩個(gè)系統(tǒng)收集更多的 URL,而且 Twiti 的準(zhǔn)確性也比現(xiàn)有系統(tǒng)高得多。
5
Measurement and Analysis
A.推特上的IOC數(shù)量
按數(shù)據(jù)源分類的 IOC:Twiti 從推文本身和推文中發(fā)布的鏈接中收集 IOC。上表顯示了 Twiti 的數(shù)據(jù)來(lái)源以及每個(gè)來(lái)源中 IOC 的評(píng)估結(jié)果。請(qǐng)注意,上表中的排他性和延遲是根據(jù)與 VirusTotal 的比較計(jì)算得出的。觀察到,推文、Paste bin.com 和 AlienVault OTX Pulse 是通過 Twitter 收集 IOC 的主要來(lái)源——收集的文件哈希的 93.26%、收集的 URL 的 94.99%、收集的 IP 地址的 98.75% 和 93.55 % 的收集域來(lái)自這 3 個(gè)數(shù)據(jù)源。具體來(lái)說,發(fā)現(xiàn):
(i) Pastebin.com 是推文中鏈接的最大 IOC 來(lái)源。如上表所示,Twiti 中 30-70% 的文件哈希、URL、IP 地址和域來(lái)自 Pastebin.com。它還提供了大量新鮮的IOC。例如,33.54% 早于 Virus Total 的文件哈希和 80.88% 早于 Virustotal 的 URL 是通過 Pastebin.com 共享的。
(ii) 推文是惡意 IP 收集的最大和最獨(dú)特的來(lái)源。較短的 IP 長(zhǎng)度會(huì)鼓勵(lì)用戶直接在推文文本中報(bào)告 IP。此外,推文文本是惡意文件哈希的第二大來(lái)源。除了在帶有 Pastebin.com 鏈接的推文中報(bào)告大量文件散列的日子外,近 50% 的文件散列來(lái)自推文文本。Twiti 每天可以從推文文本中提取 60 個(gè)新的惡意文件哈希。
(iii) AlienVault OTX Pulse 是與推文相關(guān)的頂級(jí) IOC 來(lái)源之一,但它帶來(lái)了大量延遲的 IOC。例如,16.94% 晚于 VirusTotal 的文件哈希來(lái)自 AlienVault OTX Pulse,與 VirusTotal 相比,它們平均導(dǎo)致 11 天的延遲。
(iv) URLhaus 是文件哈希的一個(gè)小來(lái)源,但它是新文件哈希的最大來(lái)源。59.21% 早于 VirusTotal 檢測(cè)到的文件哈希是通過 URLhaus 鏈接報(bào)告的。由于 URLhaus 不接受匿名用戶的 IOC,數(shù)量很少,但 IOC 的質(zhì)量可以高于其他接受匿名提交的 feed。(v) 安全廠商博客是惡意文件散列和 URL 的最早來(lái)源,但同時(shí)也是最遲的來(lái)源。觀察到,來(lái)自供應(yīng)商全面分析報(bào)告的 IOC 導(dǎo)致顯著延遲。
通過數(shù)據(jù)采集進(jìn)行 IOC:Twiti 通過跟蹤關(guān)鍵字和用戶來(lái)收集推文,以最大化要收集的 IOC 數(shù)量。觀察到,Twiti 收集的 IOC 中有 31.1% 完全來(lái)自關(guān)鍵字跟蹤,16.3% 完全來(lái)自用戶跟蹤,52.6% 來(lái)自這兩種方法。有趣的是,對(duì)于文件哈希,95.9% 是通過關(guān)鍵字跟蹤獲得的,只有 4.1% 是專門通過用戶跟蹤獲得的。另一方面,用戶跟蹤數(shù)據(jù)收集對(duì)惡意 URL、IP 和域收集的貢獻(xiàn)要大得多。觀察到,23.9% 的收集 URL、38.6% 的收集 IP 地址和 31.8% 的收集域完全來(lái)自用戶跟蹤。
來(lái)自商業(yè)領(lǐng)域的 IOC:大多數(shù)安全供應(yīng)商通過博客或 Twitter 分享他們的一小部分報(bào)告以進(jìn)行營(yíng)銷。安全研究人員也經(jīng)常發(fā)布或轉(zhuǎn)發(fā)此類信息。這些活動(dòng)使得一些商業(yè)領(lǐng)域的 IOC 數(shù)據(jù)進(jìn)入了公共領(lǐng)域。測(cè)量了 Twiti 中來(lái)自商業(yè)領(lǐng)域的 IOC 的比例。如果 IOC 來(lái)自安全供應(yīng)商運(yùn)營(yíng)的帳戶,或者來(lái)自與安全博客對(duì)應(yīng)的外部鏈接,認(rèn)為 IOC 來(lái)自商業(yè)領(lǐng)域。觀察到 Twiti 中 6% 的文件哈希、5% 的 URL、1.2% 的 IP 和 7.5% 的域來(lái)自商業(yè)域。
受數(shù)據(jù)使用限制的 IOC:Twiti 從與推文相關(guān)的各種來(lái)源收集 IOC。每個(gè)來(lái)源都有不同的數(shù)據(jù)使用條件。例如,URLhaus 是在 CC0 下獲得許可的,這甚至允許將其數(shù)據(jù)用于商業(yè)用途。通過分析各個(gè)來(lái)源的license,發(fā)現(xiàn)Twiti 96%的IOCs可以用于非商業(yè)和商業(yè)用途,0.4%可以用于商業(yè)用途,有l(wèi)icense可以使用,3.6%不允許用于商業(yè)用途任何商業(yè)目的。大部分沒有數(shù)據(jù)使用限制的 IOC 表明 Twitter 是開源威脅情報(bào)的良好來(lái)源。
B.推特上IOC的特征(1)文件哈希
文件類型:對(duì)于在 VirusTotal 中找到的文件哈希,從 VirusTotal 中收集了它們的文件類型。將 VirusTotal 中未找到的哈希文件類型歸類為“未知”。下圖顯示Twiti 中文件哈希的文件類型分布。盡管許多哈希是針對(duì) PE 和 MS Office 文件的,但 Twitter 上報(bào)告了各種類型的惡意文件,從 Android、Linux、iOS 文件到圖像、音頻和視頻文件。可以從 Twitter 獲取一堆惡意 Android 應(yīng)用程序的文件哈希值以及 Linux 惡意軟件的哈希值。請(qǐng)注意,2 月初通過 Pastebin.com 獲得了大量 MS Office 文件的哈希值,因此 Office 文件在該月占主導(dǎo)地位。
惡意軟件類型:對(duì)于 Twiti 中在 VirusTotal 中被檢測(cè)為惡意的文件哈希,使用 VirusTotal 檢測(cè)結(jié)果分析了它們的惡意軟件類型。在多個(gè)反病毒引擎的不同檢測(cè)結(jié)果中選擇了一個(gè)主導(dǎo)標(biāo)簽作為惡意文件哈希的惡意軟件類型。下圖顯示了 VirusTotal 檢測(cè)到的文件哈希的惡意軟件類型分布。特洛伊木馬是 3 個(gè)月內(nèi)報(bào)告的最主要的威脅類型。除了 2 月,Twiti 中近 30% 的文件哈希是勒索軟件。通過按文件類型分析 Twiti 中文件散列的惡意軟件類型分布,觀察到 (i) Office 文件的近 90% 的散列是木馬下載程序,(ii) 28% 的 PE 文件散列運(yùn)行了軟件,15 % 是木馬銀行,8% 是后門,(iii) 30% 的 Android 應(yīng)用程序哈希是木馬銀行,17% 是間諜軟件,12% 是后門,4% 是廣告軟件,以及 (iv) 64% Linux 惡意軟件的哈希是后門,24% 是木馬。對(duì)于 VirusTotal 未檢測(cè)到的文件哈希,分析了 Twitter 上下文。
上圖) 顯示了基于 Twitter 上下文的這些散列的惡意軟件類型分布。雖然大多數(shù)文件哈希是在沒有任何惡意軟件類型信息的情況下共享的,但 22.6% 的文件哈希與惡意軟件類型有關(guān)。不在 VirusTotal 中的主要惡意軟件文件哈希類型是遠(yuǎn)程訪問木馬 (RAT) (5.5%)、網(wǎng)絡(luò)釣魚 (5.4%) 和僵尸網(wǎng)絡(luò) (4.6%)。
惡意軟件家族:在解析 VirusTotal 中的防病毒檢測(cè)結(jié)果后,為惡意軟件家族取了一個(gè)主導(dǎo)標(biāo)簽。在下圖中按操作系統(tǒng)顯示了 Twiti 中文件哈希的前 30 個(gè)惡意軟件系列。Emotet 是 Twitter 上報(bào)告的最大的惡意軟件,這與 Emotet 是最普遍的威脅之一的事實(shí)一致。在 Twitter 上觀察到一些 Emotet 跟蹤帳戶,但 Emotet 哈希值主要是通過關(guān)鍵字跟蹤收集的,這表明各種用戶組報(bào)告 Emotet 并且 Emotet 是一個(gè)嚴(yán)重的持續(xù)威脅。
WannaCry 是 Twitter 上第二大惡意軟件。Mirai 和 Gafgyt 等物聯(lián)網(wǎng)僵尸網(wǎng)絡(luò)是 Twitter 上最主要的 Linux 惡意軟件,而 Lady 和 CoinMiner 等加密貨幣挖掘惡意軟件是第二大 Linux 惡意軟件。Cerberus、Hqwar、Anubis 和 Asacub 等銀行木馬是 Twitter 上最主要的 Android 惡意軟件,而 HiddenAds 和 IconHider 等廣告軟件是第二大 Android 惡意軟件。從 2 月 3 日到 4 月底,報(bào)告了使用冠狀病毒網(wǎng)絡(luò)釣魚電子郵件的 Netwalker 勒索軟件的幾個(gè)文件哈希值。從 3 月 26 日起,許多用戶就已經(jīng)提到了針對(duì) iPhone 的間諜軟件 LightRiver 超過 2 周。
早期檢測(cè)到的哈希值:分析了 Twiti 檢測(cè)到的文件哈希值早于 VirusTotal 用戶。有 74 個(gè)用戶,其中大部分是個(gè)人惡意軟件分析師。下表給出了報(bào)告早期檢測(cè)到的哈希值的頂級(jí)用戶。
Hash不在 VirusTotal 中:分析了誰(shuí)生成了獨(dú)占文件哈希。有 33 名用戶在 3 個(gè)月內(nèi)報(bào)告了 20 次以上的獨(dú)占哈希。其中 70% 是個(gè)人惡意軟件分析師,15% 是安全公司,其中近 80% 通過 Pastebin.com 鏈接、AlienVault OTX 鏈接、惡意軟件沙箱鏈接或安全供應(yīng)商博客文章報(bào)告文件哈希。下表顯示了報(bào)告獨(dú)占哈希的選定頂級(jí)用戶。
在 Twitter 上提及的持續(xù)時(shí)間:下圖顯示了在 Twitter 上提及文件哈希的天數(shù)。大多數(shù)文件哈希已經(jīng)被提及了 1-2 天。僅一天就提到了近 50% 的文件哈希。同時(shí),有 0.8% 的文件哈希被提及超過一周,特別是 NetWalker 勒索軟件的一個(gè)文件哈希被連續(xù)提及了 35 天。惡意行為者以醫(yī)療保健部門為目標(biāo),以利用 COVID-19 大流行,因此許多安全專家從 3 月初開始在 Twitter 上反復(fù)警告。
(2)URL
攻擊類型:對(duì)于 Twiti 中在 VirusTotal 中被檢測(cè)為惡意的 URL,分析了它們的 VirusTotal 檢測(cè)結(jié)果并觀察到,其中 75.5% 是惡意軟件站點(diǎn),16.5% 是釣魚站點(diǎn),8% 是包含漏洞或其他漏洞的惡意站點(diǎn)。對(duì) 5 月 1 日至 15 日收集的 URL 獲得了類似的結(jié)果,其中 75.8% 的惡意 URL 是與惡意軟件相關(guān)的站點(diǎn),19.6% 是釣魚站點(diǎn),4.6% 是惡意站點(diǎn)。請(qǐng)注意,65% 的網(wǎng)絡(luò)釣魚站點(diǎn)完全來(lái)自用戶跟蹤收集的推文。此外分析了推文文本,因?yàn)樗鼈兙哂杏杏玫纳舷挛脑~,例如“c2”。觀察到 5.6% 的收集到的 URL 與單詞“c2”同時(shí)出現(xiàn),這表明 Twiti 中至少 5.6% 的 URL 是 CC URL。還觀察到,不在 VirusTotal co 中的 URL 出現(xiàn)在“c2”中的頻率幾乎是 VirusTotal 中的 2 倍,這表明 CC URL 通常存活時(shí)間很短,因此 VirusTotal 可能經(jīng)常無(wú)法檢測(cè)到它們。這表明 Twitter 比 VirusTotal 在獲取短期 CC URL 方面更有優(yōu)勢(shì)??上螺d的惡意軟件??上螺d的惡意軟件樣本對(duì)于進(jìn)一步的惡意軟件分析特別有用。通過分析 URL 末尾給出的擴(kuò)展名,觀察到 32.3% 的收集 URL 包含可下載的文件擴(kuò)展名,例如“pdf”、“zip”、“exe”、“apk”、“sh”、“jar” ”和“bin”。
(3)域
DGA(域生成算法)域:DGA 域往往會(huì)在短時(shí)間內(nèi)(1-3 天)處于活動(dòng)狀態(tài)。因此,早期檢測(cè) DGA 域?qū)τ诤诿麊瘟斜碛行Ш苤匾S^察到 Twiti 中 2% 的域在推文中出現(xiàn)了“dga”一詞,并且它們都比 VirusTotal 提前一天檢測(cè)到。此外應(yīng)用了基于 LSTM 的 DGA 檢測(cè)算法,并觀察到 Twiti 中 5.4% 的域被歸類為 DGA 域。Twiti 平均比 VirusTotal 提前 1.9 天檢測(cè)到 64% 的 DGA 域,并且在同一天檢測(cè)到 18%。
6
Discussion
其他類型威脅的 IOC:盡管專注于惡意軟件 IOC,但通過添加“phishing” 和 “spam” 等關(guān)鍵字并重新訓(xùn)練推文分類器,Twiti 可以輕松擴(kuò)展為收集任何類型的攻擊(例如,網(wǎng)絡(luò)釣魚、垃圾郵件、掃描)的 IOC。
局限性:
(1) 由于 Twitter 是一個(gè)任何人都可以生成數(shù)據(jù)的社交媒體平臺(tái),因此存在大量新的威脅信息,但同時(shí)也可能存在虛假信息。因此盡管在評(píng)估中觀察到 Twiti 的高精度,但 Twiti 容易受到數(shù)據(jù)投毒攻擊。為了克服這一弱點(diǎn),可以利用 VirusTotal 和 IP 許可名單來(lái)驗(yàn)證 Twiti 收集的 IOC。
(2) 由于 Twiti 從 Pastebin.com 收集 IOC 僅使用詞過濾器,因此當(dāng)將一些良性指標(biāo)與惡意指標(biāo)一起發(fā)布時(shí),無(wú)法保證從中獲取的 IOC 的準(zhǔn)確性,正如對(duì) URL 的誤報(bào)分析所觀察到的那樣,盡管觀察到 Twiti 的準(zhǔn)確率很高(文件哈希為 92.86% 真陽(yáng)性和 0.03% 假陽(yáng)性,URL 為 95.89% 真陽(yáng)性和 4.1% 假陽(yáng)性),但它的假陽(yáng)性率不足以用作自動(dòng)反饋。
然而,大多數(shù)公共 TI 反饋都存在誤報(bào)率高的限制。出于這個(gè)原因,公共 IOC 反饋在使用之前需要一個(gè)驗(yàn)證過程。為了進(jìn)一步減少 Twiti 中的 FP,可以將 Twiti 用作 (i) 由用戶選擇的自動(dòng)反饋,類似于 AlienVault OTX 中的選擇性脈沖訂閱,以及 (ii) 其他協(xié)作安全系統(tǒng)(如多 IP 反饋聚合器)的初始來(lái)源或域拆卸系統(tǒng)。(iii)從外部鏈接收集IOC使得Twiti大量收集各種類型的IOC,但帶來(lái)了對(duì)外部來(lái)源的額外依賴。因此,對(duì)于免費(fèi)和開源威脅情報(bào),Twiti 無(wú)法利用限制數(shù)據(jù)使用的外部來(lái)源。
7
Conclusion
在本文中提出了一種用于 Twitter 的高保真 IOC 提取系統(tǒng)。通過對(duì)收集到的 IOC 的廣泛評(píng)估,證明所提議的系統(tǒng)能夠比其他公共 TI 反饋更早地收集獨(dú)特且準(zhǔn)確的惡意軟件 IOC。這使得 Twitter 成為一個(gè)有價(jià)值的開源威脅情報(bào)源。還展示了 Twitter 能夠以高精度和早期的方式捕獲大量正在進(jìn)行的惡意軟件攻擊。通過從各個(gè)方面分析 IOC 的特征,可以更好地了解 Twitter 上的惡意軟件 IOC,以及如何利用 Twitter 對(duì)抗惡意軟件威脅的指南。
- 結(jié)尾 -
【技術(shù)分享】BrokenStrokes:針對(duì)無(wú)線鍵盤的三類攻擊
【技術(shù)分享】Office文檔安全:以O(shè)DF和OOXML為例
【技術(shù)分享】Horus:發(fā)現(xiàn)并分析對(duì)以太坊智能合約的攻擊
戳“閱讀原文”查看更多內(nèi)容
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。