官术网_书友最值得收藏!

3.2 數(shù)據(jù)集

數(shù)據(jù)集合和算法就像黃油和面包一樣缺一不可,很多時(shí)候數(shù)據(jù)比算法還要重要。本書(shū)的例子涉及的數(shù)據(jù)主要來(lái)自多年搜集的開(kāi)源數(shù)據(jù)集合以及部分脫敏的測(cè)試數(shù)據(jù)。

3.2.1 KDD 99數(shù)據(jù)

KDD是知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘(Knowledge Discovery and Data Mining)的簡(jiǎn)稱(chēng),KDD CUP是由ACM組織的年度競(jìng)賽如圖3-1所示。KDD 99數(shù)據(jù)集就是KDD競(jìng)賽在1999年舉行時(shí)采用的數(shù)據(jù)集。

圖3-1 KDD大賽

1998年美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)在MIT林肯實(shí)驗(yàn)室進(jìn)行了一個(gè)入侵檢測(cè)評(píng)估項(xiàng)目。林肯實(shí)驗(yàn)室建立了模擬美國(guó)空軍局域網(wǎng)的一個(gè)網(wǎng)絡(luò)環(huán)境,收集了9周的網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)數(shù)據(jù),仿真各種用戶(hù)類(lèi)型、各種不同的網(wǎng)絡(luò)流量和攻擊手段,使它就像一個(gè)真實(shí)的網(wǎng)絡(luò)環(huán)境。一個(gè)網(wǎng)絡(luò)連接定義為:在某個(gè)時(shí)間內(nèi)從開(kāi)始到結(jié)束的TCP數(shù)據(jù)包序列,并且在這段時(shí)間內(nèi),數(shù)據(jù)在預(yù)定義的協(xié)議下從源IP地址到目的IP地址的傳遞。每個(gè)網(wǎng)絡(luò)連接被標(biāo)記為正常(normal)或異常(attack),異常類(lèi)型被細(xì)分為4大類(lèi)共39種攻擊類(lèi)型,其中22種攻擊類(lèi)型出現(xiàn)在訓(xùn)練集中,另有17種未知攻擊類(lèi)型出現(xiàn)在測(cè)試集中,見(jiàn)表3-2。

表3-2 KDD 99 攻擊類(lèi)型詳情

隨后來(lái)自哥倫比亞大學(xué)的Sal Stolfo教授和來(lái)自北卡羅萊納州立大學(xué)的Wenke Lee教授采用數(shù)據(jù)挖掘等技術(shù)對(duì)以上數(shù)據(jù)集進(jìn)行特征分析和數(shù)據(jù)預(yù)處理,形成了一個(gè)新的數(shù)據(jù)集。該數(shù)據(jù)集用于1999年舉行的KDD競(jìng)賽中,成為著名的KDD 99數(shù)據(jù)集。雖然年代有些久遠(yuǎn),但KDD99數(shù)據(jù)集仍然是網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域的權(quán)威測(cè)試集,為基于計(jì)算智能的網(wǎng)絡(luò)入侵檢測(cè)研究奠定基礎(chǔ)。

KDD99數(shù)據(jù)集中每個(gè)連接用41個(gè)特征來(lái)描述:

    0, udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00
,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, normal.
    0, udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00
,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, normal.
    0, udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00
,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, normal.
    0, udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00
,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, snmpgetattack.

上面是數(shù)據(jù)集中的3條記錄,以CSV格式寫(xiě)成,加上最后的標(biāo)記(label),一共有42項(xiàng),其中前41項(xiàng)特征分為4大類(lèi)。

● TCP連接基本特征(見(jiàn)表3-3),基本連接特征包含了一些連接的基本屬性,如連續(xù)時(shí)間、協(xié)議類(lèi)型、傳送的字節(jié)數(shù)等。

表3-3 KDD 99 TCP連接基本特征

● TCP連接的內(nèi)容特征,見(jiàn)表3-4。

表3-4 KDD 99 TCP連接的內(nèi)容的特征

● 基于時(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征,見(jiàn)表3-5。

表3-5 KDD 99 基于時(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征

● 基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征,見(jiàn)表3-6。

表3-6 KDD 99 基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征

3.2.2 HTTP DATASET CSIC 2010

HTTP DATASET CSIC 2010包含大量標(biāo)注過(guò)的針對(duì)Web服務(wù)的36000個(gè)正常請(qǐng)求以及25000個(gè)攻擊請(qǐng)求,攻擊類(lèi)型包括sql注入、緩沖區(qū)溢出、信息泄露、文件包含、xss等,被廣泛用于WAF類(lèi)產(chǎn)品的功能評(píng)測(cè)。

正常請(qǐng)求格式如圖3-2所示。

圖3-2 CSIC 2010正常請(qǐng)求示例

攻擊請(qǐng)求格式如圖3-3所示。

圖3-3 CSIC 2010攻擊請(qǐng)求示例

3.2.3 SEA數(shù)據(jù)集

2001年Schonlau等人第一次將內(nèi)部攻擊者分類(lèi)為“叛徒”(Traitor)與“偽裝者”(Masquerader),其中“叛徒”指攻擊者來(lái)源于組織內(nèi)部,本身是內(nèi)部合法用戶(hù);而“偽裝者”指外部攻擊者竊取了內(nèi)部合法用戶(hù)的身份憑證,從而利用內(nèi)部用戶(hù)身份實(shí)施內(nèi)部攻擊。隨后該團(tuán)隊(duì)構(gòu)造了一個(gè)公開(kāi)的檢測(cè)偽裝者攻擊的數(shù)據(jù)集SEA,該數(shù)據(jù)集被廣泛用于內(nèi)部偽裝者威脅檢測(cè)研究。

SEA數(shù)據(jù)集涵蓋70多個(gè)UNIX系統(tǒng)用戶(hù)的行為日志,這些數(shù)據(jù)來(lái)自于UNIX系統(tǒng)acct機(jī)制記錄的用戶(hù)使用的命令。SEA數(shù)據(jù)集中每個(gè)用戶(hù)都采集了15000條命令,從用戶(hù)集合中隨機(jī)抽取50個(gè)用戶(hù)作為正常用戶(hù),剩余用戶(hù)的命令塊中隨機(jī)插入模擬命令作為內(nèi)部偽裝者攻擊數(shù)據(jù)。SEA數(shù)據(jù)集中的用戶(hù)日志類(lèi)似于下面的命令序列:

    {cpp, sh, cpp, sh, xrdb, mkpts...}

每個(gè)用戶(hù)的數(shù)據(jù)按照每100個(gè)命令為一塊,分為150個(gè)塊,前三分之一數(shù)據(jù)塊用作訓(xùn)練該用戶(hù)正常行為模型,剩余三分之二數(shù)據(jù)塊隨機(jī)插入了測(cè)試用的惡意數(shù)據(jù)。SEA數(shù)據(jù)集中惡意數(shù)據(jù)的分布具有統(tǒng)計(jì)規(guī)律,任意給定一個(gè)測(cè)試集命令塊,其中含有惡意指令的概率為1%;而當(dāng)一個(gè)命令塊中含有惡意指令,則后續(xù)命令塊也含有惡意指令的概率達(dá)到80%。可以看出SEA中的數(shù)據(jù)集將連續(xù)數(shù)據(jù)塊看作一個(gè)會(huì)話(huà),只能模擬連續(xù)會(huì)話(huà)關(guān)聯(lián)的攻擊行為;此外由于缺乏用戶(hù)詳細(xì)個(gè)人信息(職位、權(quán)限等)、數(shù)據(jù)維度單一(僅有命令信息)以及構(gòu)造性(惡意數(shù)據(jù)由人工模擬)等因素,數(shù)據(jù)集在內(nèi)部威脅檢測(cè)研究中作用有限。

Schonlau在他的個(gè)人網(wǎng)站http://www.schonlau.net/上發(fā)布了SEA數(shù)據(jù)集,見(jiàn)圖3-4。

圖3-4 Schonlau個(gè)人網(wǎng)站

3.2.4 ADFA-LD數(shù)據(jù)集

ADFA-LD數(shù)據(jù)集是澳大利亞國(guó)防學(xué)院對(duì)外發(fā)布的一套主機(jī)級(jí)入侵檢測(cè)系統(tǒng)的數(shù)據(jù)集合,被廣泛應(yīng)用于入侵檢測(cè)類(lèi)產(chǎn)品的測(cè)試。該數(shù)據(jù)集包括Linux和Windows,記錄了系統(tǒng)調(diào)用數(shù)據(jù),Gideon Creech是這個(gè)項(xiàng)目的負(fù)責(zé)人,項(xiàng)目主頁(yè)為:https://www.unsw.adfa.edu.au,見(jiàn)圖3-5。

圖3-5 ADFA主頁(yè)

ADFA-LD數(shù)據(jù)集已經(jīng)將各類(lèi)系統(tǒng)調(diào)用完成了特征化,并針對(duì)攻擊類(lèi)型進(jìn)行了標(biāo)注,各種攻擊類(lèi)型列舉見(jiàn)表3-7。

表3-7 ADFA-LD攻擊類(lèi)型

ADFA-LD數(shù)據(jù)集的每個(gè)數(shù)據(jù)文件都獨(dú)立記錄了一段時(shí)間內(nèi)的系統(tǒng)調(diào)用順序,每個(gè)系統(tǒng)調(diào)用都用數(shù)字編號(hào),對(duì)應(yīng)的編號(hào)舉例如下:

    #define __NR_io_setup 0 __SYSCALL(__NR_io_setup, sys_io_setup)
    #define __NR_io_destroy 1 __SYSCALL(__NR_io_destroy, sys_io_destroy)
    #define __NR_io_submit 2 __SYSCALL(__NR_io_submit, sys_io_submit)
    #define __NR_io_cancel 3 __SYSCALL(__NR_io_cancel, sys_io_cancel)
    #define __NR_io_getevents 4 __SYSCALL(__NR_io_getevents, sys_io_getevents)
    #define __NR_setxattr 5 __SYSCALL(__NR_setxattr, sys_setxattr)
    #define __NR_lsetxattr 6 __SYSCALL(__NR_lsetxattr, sys_lsetxattr)

3.2.5 Alexa域名數(shù)據(jù)

Alexa是一家專(zhuān)門(mén)發(fā)布網(wǎng)站世界排名的網(wǎng)站。以搜索引擎起家的Alexa創(chuàng)建于1996年4月(美國(guó)),目的是讓互聯(lián)網(wǎng)網(wǎng)友在分享虛擬世界資源的同時(shí),更多地參與互聯(lián)網(wǎng)資源的組織。Alexa每天在網(wǎng)上搜集超過(guò)1000GB的信息,不僅給出多達(dá)幾十億的網(wǎng)址鏈接,而且為其中的每一個(gè)網(wǎng)站進(jìn)行了排名。可以說(shuō),Alexa是當(dāng)前擁有URL數(shù)量最龐大、排名信息發(fā)布最詳盡的網(wǎng)站。Alexa排名是常被引用的用來(lái)評(píng)價(jià)某一網(wǎng)站訪(fǎng)問(wèn)量的指標(biāo)之一。事實(shí)上,Alexa排名是根據(jù)用戶(hù)下載并安裝了Alexa Tools Bar嵌入到IE、FireFox等瀏覽器,從而監(jiān)控其訪(fǎng)問(wèn)的網(wǎng)站數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的,因此,其排名數(shù)據(jù)并不具有絕對(duì)的權(quán)威性。但其提供了包括綜合排名、到訪(fǎng)量排名、頁(yè)面訪(fǎng)問(wèn)量排名等多個(gè)評(píng)價(jià)指標(biāo)信息,且尚沒(méi)有而且也很難有更科學(xué)、合理的評(píng)價(jià)參考。Alexa對(duì)外提供了全球排名TOP一百萬(wàn)的網(wǎng)站域名的下載,文件是CSV格式,以排名、域名組成,如圖3-6所示。

圖3-6 Alexa排名數(shù)據(jù)

3.2.6 Scikit-Learn數(shù)據(jù)集

Scikit-Learn自帶的數(shù)據(jù)集合也十分經(jīng)典,其中最常見(jiàn)的是iris數(shù)據(jù)集。

iris中文指鳶尾植物,這里存儲(chǔ)了其萼片和花瓣的長(zhǎng)寬,一共4個(gè)屬性,鳶尾植物又分3類(lèi)。與之相對(duì),iris里有2個(gè)屬性:iris.data和iris.target。data里是一個(gè)矩陣,每一列代表了萼片或花瓣的長(zhǎng)寬,一共4列,一共采樣了150條記錄。target是一個(gè)數(shù)組,存儲(chǔ)了data中每條記錄屬于哪一類(lèi)鳶尾植物,所以數(shù)組的長(zhǎng)度是150,數(shù)組元素的值因?yàn)楣灿?類(lèi)鳶尾植物,所以不同值只有3個(gè)。

3.2.7 MNIST數(shù)據(jù)集

MNIST是一個(gè)入門(mén)級(jí)的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集,它包含各種手寫(xiě)數(shù)字圖片,如圖3-7所示。

圖3-7 MNIST圖片示例

MNIST也包含每一張圖片對(duì)應(yīng)的標(biāo)簽,告訴我們這是數(shù)字幾。比如,圖3-7中4張圖片的標(biāo)簽分別是5,0,4,1。數(shù)據(jù)集包括60000個(gè)訓(xùn)練數(shù)據(jù)和10000個(gè)測(cè)試數(shù)據(jù)。每一個(gè)MNIST數(shù)據(jù)單元由兩部分組成:一張包含手寫(xiě)數(shù)字的圖片和一個(gè)對(duì)應(yīng)的標(biāo)簽。每一張圖片包含28×28個(gè)像素點(diǎn),可以把這個(gè)數(shù)組展開(kāi)成一個(gè)向量,長(zhǎng)度是28×28 = 784。MNIST數(shù)據(jù)集詳解見(jiàn)表3-8。

表3-8 MNIST數(shù)據(jù)集合詳解

MNIST的網(wǎng)址為http://yann.lecun.com/exdb/mnist/,如圖3-8所示。

圖3-8 MNIST官網(wǎng)

也可以使用離線(xiàn)版的MNIST文件,下載鏈接為:

    http∶//www.iro.umontreal.ca/~lisa/deep/data/mnist/mnist.pkl.gz

文件讀取方式為:

    import pickle
    import gzip
    def load_data()∶
        with gzip.open('./mnist.pkl.gz') as fp∶
            training_data, valid_data, test_data = pickle.load(fp)
        return training_data, valid_data, test_data

3.2.8 Movie Review Data

Movie Review Data數(shù)據(jù)集包含1000條正面的評(píng)論和1000條負(fù)面評(píng)論,被廣泛應(yīng)用于文本分類(lèi),尤其是惡意評(píng)論識(shí)別方面。本書(shū)使用其最新的版本,polarity dataset v2.0。其官網(wǎng)如圖3-9所示。

圖3-9 Movie Review Data官網(wǎng)

Movie Review Data數(shù)據(jù)集記錄的都是原始評(píng)論數(shù)據(jù),全部為英文,文本內(nèi)容舉例如下:

    films adapted from comic books have had plenty of success , whether they're about
superheroes ( batman , superman , spawn ) , or geared toward kids ( casper ) or the
arthouse crowd ( ghost world ) , but there's never really been a comic book like from
hell before .
    for starters , it was created by alan moore ( and eddie campbell ) , who brought
the  medium  to  a  whole  new  level  in  the  mid  '80s  with  a  12-part  series  called  the
watchmen .
    the film , however , is all good .
    2 ∶ 00- r for strong violence/gore , sexuality , language and drug content

文件包含在neg和pos兩個(gè)文件夾下面,見(jiàn)圖3-10,分別代表正面和負(fù)面評(píng)價(jià)。

圖3-10 Movie Review Dat文件夾結(jié)構(gòu)

Movie Review Data對(duì)應(yīng)網(wǎng)址為:http://www.cs.cornell.edu/People/pabo/movie-review-data/

3.2.9 SpamBase數(shù)據(jù)集

SpamBase是入門(mén)級(jí)的垃圾郵件分類(lèi)訓(xùn)練集,其主頁(yè)如圖3-11所示。

圖3-11 SpamBase主頁(yè)

SpamBase的數(shù)據(jù)不是原始的郵件內(nèi)容而是已經(jīng)特征化的數(shù)據(jù),對(duì)應(yīng)的特征是統(tǒng)計(jì)的關(guān)鍵字以及特殊符號(hào)的詞頻,一共58個(gè)屬性,其中最后一個(gè)是垃圾郵件的標(biāo)記位。

特征屬性舉例如圖3-12所示。

圖3-12 SpamBase數(shù)據(jù)特征舉例

數(shù)據(jù)來(lái)源為4601封郵件,其中1813封為垃圾郵件,數(shù)據(jù)內(nèi)容舉例如下:

    0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.778,0,0,3.756,61,278,1 0.21,0.28,0.5,
0,0.14,0.28,0.21,0.07,0,0.94,0.21,0.79,0.65,0.21,0.14,0.14,0.07,0.28,3.47,0,1.59,0,0.
43,0.43,0,0,0,0,0,0,0,0,0,0,0,0,0.07,0,0,0,0,0,0,0,0,0,0,0,0,0.132,0,0.372,0.18,0.048
,5.114,101,1028,1

SpamBase對(duì)應(yīng)網(wǎng)址為:http://archive.ics.uci.edu/ml/datasets/Spambase

3.2.10 Enron數(shù)據(jù)集

Enron(安然公司)在2001年宣告破產(chǎn)之前,擁有約21000名雇員,曾是世界上最大的電力、天然氣以及電訊公司之一,2000年披露的營(yíng)業(yè)額達(dá)1010億美元之巨。公司連續(xù)六年被財(cái)富雜志評(píng)選為“美國(guó)最具創(chuàng)新精神公司”,然而真正使Enron公司在全世界聲名大噪的,卻是這個(gè)擁有上千億資產(chǎn)的公司2002年在幾周內(nèi)破產(chǎn),以及持續(xù)多年精心策劃、乃至制度化系統(tǒng)化的財(cái)務(wù)造假丑聞。Enron歐洲分公司于2001年11月30日申請(qǐng)破產(chǎn),美國(guó)本部于2日后同樣申請(qǐng)破產(chǎn)保護(hù)。但在其破產(chǎn)前的資產(chǎn)規(guī)模為498億美元,并有312億的沉重債務(wù)。過(guò)度膨脹的快速發(fā)展使其無(wú)法應(yīng)對(duì)經(jīng)濟(jì)環(huán)境的逆轉(zhuǎn),從而導(dǎo)致無(wú)法經(jīng)營(yíng)運(yùn)作狀況的惡化,最終以破產(chǎn)結(jié)束企業(yè)。機(jī)器學(xué)習(xí)領(lǐng)域使用Enron公司的歸檔郵件來(lái)研究文檔分類(lèi)、詞性標(biāo)注、垃圾郵件識(shí)別等,由于Enron的郵件都是真實(shí)環(huán)境下的真實(shí)郵件,非常具有實(shí)際意義。本書(shū)使用的Enron數(shù)據(jù)集是經(jīng)過(guò)人工標(biāo)注過(guò)的正常郵件和垃圾郵件(見(jiàn)圖3-13),屬于狹義的Enron數(shù)據(jù)集合,廣義的Enron數(shù)據(jù)集指全量真實(shí)且未被標(biāo)記的Enron公司歸檔郵件。

圖3-13 Enron數(shù)據(jù)集主頁(yè)

Enron數(shù)據(jù)集合使用不同文件夾區(qū)分正常郵件和垃圾郵件,如圖3-14所示。

圖3-14 Enron數(shù)據(jù)集文件夾結(jié)構(gòu)

正常郵件內(nèi)容舉例如下:

    Subject∶ christmas baskets
    the christmas baskets have been ordered .
    we have ordered several baskets .
    individual earth - sat freeze - notis
    smith barney group baskets
    rodney keys matt rodgers charlie
    notis jon davis move
    team
    phillip randle chris hyde
    harvey
    freese
    faclities

垃圾郵件內(nèi)容舉例如下:

    Subject∶ fw ∶ this is the solution i mentioned lsc
    oo
    thank you ,
    your email address was obtained from a purchased list ,
    reference # 2020 mid = 3300 . if you wish to unsubscribe
    from this list , please click here and enter
    your name into the remove box . if you have previously unsubscribed
    and are still receiving this message , you may email our abuse
    control center , or call 1-888-763-2497 , or write us at ∶ nospam ,
    6484 coral way , miami , fl , 33155 " . 2002
    web credit inc . all rights reserved .

Enron數(shù)據(jù)集對(duì)應(yīng)的網(wǎng)址為:http://www2.aueb.gr/users/ion/data/enron-spam/

主站蜘蛛池模板: 交城县| 民权县| 安溪县| 封丘县| 亚东县| 长丰县| 乌兰察布市| 乡城县| 山阳县| 阿巴嘎旗| 庆安县| 五峰| 中牟县| 松江区| 呼和浩特市| 肃南| 广宁县| 迭部县| 扎鲁特旗| 韶关市| 邯郸市| 津南区| 佛学| 安乡县| 宜都市| 古丈县| 铜梁县| 九寨沟县| 南郑县| 丰顺县| 水城县| 吉木乃县| 蒲城县| 布拖县| 买车| 红安县| 肃南| 乐平市| 贵德县| 南充市| 甘洛县|