美章網 資料文庫 網絡勘測論文:網絡系統異樣勘測方式范文

    網絡勘測論文:網絡系統異樣勘測方式范文

    本站小編為你精心準備了網絡勘測論文:網絡系統異樣勘測方式參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

    網絡勘測論文:網絡系統異樣勘測方式

    作者:向直揚朱俊平單位:西北農林科技大學信息工程學院

    改進的SOINN算法

    SOINN是用于機器人工程的聯想記憶神經網絡,實現了在線的拓撲結構學習。最初SOINN是一個雙層的競爭神經網絡結構,存在著諸如難于決定何時停止第一層網絡的訓練,并開始第二層訓練等問題。增強的SOINN,即ESOINN引入了單層網絡的結構,同時引入了新的參數。2011年Shen提出改進的SOINN(以下簡稱為ISOINN),減少了參數數目。

    改進的SOINN以序列的方式讀取訓練數據,然后維持節點集合N以及一些連接這些節點的邊用來表示數據的拓撲結構。當讀取一個新樣本時,將經過三個步驟的處理:首先將其進行類間插入或類內插入;然后,如果學習已經進行了λ次,則進行噪音刪除;最后進行節點編組。

    1類間插入和類內插入在進行類內插入之后,將連接獲勝者和其鄰居的所有邊的年齡加1,如果一條邊的年齡大于指定的最大年齡age_max時,刪掉這條邊。

    2噪音刪除

    在接受了λ個樣本之后,進行噪音刪除。刪除的方法是刪掉N中鄰居的數目小于2的點。在實驗的過程中發現,如果將算法加上額外的噪音刪除,將大大提高訓練的分類器的分類效果。具體的做法是,在最后一輪噪音刪除中,刪掉累積點數小于λ的點,理由有兩點:(1)這些點是在最后一輪訓練時候剛剛到來的,因此是孤立點;(2)這些點代表的類型的數目太少。

    3節點編組

    在噪音刪除之后,ISOINN算法對節點進行編組。為了表示節點的拓撲結構,引入了一個密度的概念,節i的密度iD的計算方法如(7)式:(7)式中||iN是節點i鄰居節點的數目。根據點的密度的定義,定義邊的密度為其連接的兩個點中密度較小的點的密度。算法1總結了節點編組的方法。

    4使用ISOINN訓練網絡數據分類器

    ISOINN的訓練結果是子簇的中心點,已及這些點歸屬于哪個組的信息。從訓練結構中構造網絡數據分類器的方法為:將點的數目最多的組中所有點標記為正常,其他組中的點標記為異常。這樣做的理由是,網絡中的正常應用的種類和數據(對于使用入侵檢測的度量方法來說)內容相似,且數據量較多。對于待分類的樣本,利用公式(1)來尋找其最近鄰居,將樣本用其最近鄰居的標記來標記。這樣就構建了一個對于網絡數據的最近鄰分類器。

    使用數據精簡的方法加速網絡數據的訓練

    通常在網絡入侵檢測的數據集“10%KDDCup99”上訓練神經網絡分類器的時候,需要超過一天的時間。訓練速度過慢,對于在線訓練的異常檢測系統是不能接受的,因為這意味著高的丟包率。因此提出使用數據精簡的方法來加速ISOINN的訓練。將要討論的數據精簡方法包括三種:隨機子集選?。≧andomSubsetSelection,簡寫為RSS),基于k-means聚類的方法,和基于主成分分析(PCA)的方法。在接下來的實驗中,將比較這三種方法的加速效果。RSS方法可以看做是簡單的下采樣,另外兩種方法則要復雜一些,有更堅實的理論基礎。

    1基于k-means聚類的數據精簡

    此方法的靈感來自于用于數據流聚類的k-means。用于流聚類的k-means使用滑動窗口的方式,首先對每個窗口內的樣本聚類,獲得聚類中心,然后再對這些聚類中心進行聚類。提出的方法與流聚類的k-means不同的是,當獲得了窗口內的聚類中心之后,不是進行存儲,而是直接將其用于ISOINN的訓練。這樣直接用于ISOINN的訓練的樣本數目就能減少。記滑動窗口的大小為w,數據精簡率為reduct_rate,則基于k-means的數據精簡方法為:每讀取了w個樣本之后,對其進行k-means聚類,聚類中心數目為reduct_rate×w。將聚類中心作為精簡之后的數據。

    2基于主成分分析的數據精簡

    PCA是一種利用統計學理論,選取具有最大方差的數據成分的方法。它是一種通過線性變換,在盡量不損失數據中有效信息的情況下,降低數據維數的方法。

    PCA目前被廣泛應用于機器學習領域的數據降維。在提出的方法中使用PCA進行數據精簡。精簡的方式同基于k-means的數據精簡方法一樣,使用滑動窗口的方法。每當獲得了維數為n的w個樣本之后。對數據進行一次精簡。算法2總結了使用PCA進行數據精簡的方法。這個算法可以從w個樣本中,獲得精簡率為reduct_rate的數據。

    特征

    選取與k-means這樣的聚類算法一樣,ISOINN需要計算樣本與樣本之間的距離。而網絡入侵檢測的測試數據集屬性較多,這就帶來了維度詛咒的問題。

    可以采用特征選取的方法來解決維度詛咒的問題。使用Adaboost進行特征選取。Adaboost結合DecisionStump的方法,已經被證明適合于網絡入侵檢測問題,這是一種貪心算法,其基本思想是將若干個弱分類器結合為一個強分類器,并采取迭代的方法實現這個組合,每次選取對于提高分類準確率貢獻最高的那個弱分類器。弱分類器DecisionStump是單節點的決策樹,最終權值較高的DecisionStump相對應的屬性,優先選擇。

    基于ISOINN的異常檢測框架

    圖1給出了基于ISOINN的,在線無監督學習的網絡入侵檢測方法框架。特征選取過程的輸入是經過處理的用于入侵檢測的數據,輸出經過篩選的,保留部分屬性的數據;數據精簡的過程與在線聚類的過程同時進行。在經過適當時間的訓練之后,就可以停止訓練,并得到一個針對網絡數據的最近鄰分類器。利用這個分類器,對之后到達的網絡數據進行分類,從中發現網絡入侵。

    實驗結果

    實驗所使用的平臺環境為:處理器IntelCorei32.4GHz雙核,存儲器2GB,操作系統為64位linux。

    1KDDCup99數據集

    盡管KDDCup99數據集有一些不足,但是它仍被廣泛應用于入侵檢測算法的性能測試。其數據是從一個模擬的軍事網絡中,經過9個星期的采集而來,其中包括24種攻擊類型。這些攻擊類型分為4類:DOS,R2L,U2R和網絡嗅探。實驗中采用10%KDDCup99數據集,這是個更加簡要,也更有挑戰性的數據集。在下載數據中,除開一條格式錯誤的記錄,總共包含了494020條記錄,其中396743條為攻擊記錄。

    2特征選取結果

    使用Weka作為工具。Weka中包含了Adaboost算法。實驗中使用了Weka3.6版本,Adaboost的參數為軟件默認設置。針對所有的數值類型屬性進行選取,結果選中了其中7個:count,dst_bytes,hot,src_bytes,dst_host_srv_serror_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate。訓練的時間為227.5秒。

    3ISOINN的參數選取

    實驗采用網格搜索的方法來進行參數選取。因為單次訓練的時間較長,往往耗時超過一天。為了縮短搜索時間,并保持較好的搜索效果,采用如下的方法:(1)將數據集進行20%的下采樣;(2)僅使用特征選取中權值最高的4個屬性;(3)在對每個參數組合進行評估時,使用2序交叉驗證。在搜索之前,需要對數據進行的對數變換,并針對每個屬性的標準化。將α設置為無窮大,最大年齡age_max的搜索范圍是100~1000,每100搜索一次;另一參數λ的搜索范圍是20~120,每10搜索一次。評估指標是分類準確率。網格搜索的結果如圖2所示。圖中準確率所構成的平面有大量的平坦區域,說明將ISOINN應用于網絡入侵檢測的問題時,其性能是穩定的。參數λ取值較大的時候,網絡的訓練耗時較長。綜合考慮準確率與訓練時間與準確率,選取參數組合為:age_max=600,λ=30,α=∞。

    4實驗結果

    對比入侵檢測算法的評估指標主要為兩項:檢測率與誤警率。檢測率計算方法為,檢測率=準確檢測到的入侵數目/總共的入侵數目,誤警率的計算方法為,誤警率=被誤報為入侵的數目/正常記錄數目。實驗中,數據精簡部分的參數設置為:reduct_rate=0.33,w=reduct_rate/λ=90,并且將基于PCA的數據精簡的參數k設為1。數據精簡部分與ISOINN均用python與numpy實現,其中k-means的實現使用了scipy科學計算庫。測試中使用了特征選取的7個特征,經過了對數變換,并且針對每個屬性進行了標準化。

    程序的運行沒有使用任何的硬件加速。實驗對比結果如表4所示。為了與現有文獻中的方法的效果對比,表3中列出了一些現有方法的效果。實驗結果表明,(1)在ISOINN的訓練加速方面,使用k-means進行數據精簡的方法對于加速訓練最有利。使用RSS也能達到很好的效果,其原因可能是數據集本身是過采樣的。使用PCA進行數據精簡的方法對于減少訓練時間同樣有效,但此方法由于提高了對于網絡入侵的靈敏度,造成了較高的誤警率。(2)總的來說基于ISOINN與數據精簡的網絡異常檢測方法,在保證較高檢測率的前提下,降低了訓練時間。

    結論與未來工作

    提出了基于改進的SOINN與數據精簡的網絡異常檢測方法。在該方法中,隨機子集選取,k-means聚類和主成分分析法被用于減少訓練數據樣本數目,從而減少訓練時間;改進的SOINN被用于在線地,無監督地訓練網絡數據分類器。實驗結果表明,此方法達到了減少對網絡數據分類器進行無監督地,在線地訓練的時間的目的。提出的方法存在的問題之一是在訓練過程中使用了特征選取,這相當于使用了有監督的度量學習(metriclearning)。為了不使用特征選取而又能完成針對高維數據的入侵檢測,可能的改進方法是使用集成(ensemble)學習。

    主站蜘蛛池模板: 久久综合九九亚洲一区| 国产日韩一区二区三区在线观看| 亚洲AV日韩综合一区| 亚洲国产成人精品无码一区二区| 国产亚洲一区二区三区在线观看| 中文字幕亚洲乱码熟女一区二区| 午夜精品一区二区三区免费视频| 亚洲一区综合在线播放| 国产精品一区二区久久| 国产一区精品视频| 成人区人妻精品一区二区不卡视频| 一区二区三区国产| 国产一区二区不卡老阿姨| www一区二区三区| 91精品一区二区三区在线观看| 亚洲AV无码一区二区三区久久精品 | 视频在线观看一区二区三区| 国产一区麻豆剧传媒果冻精品 | 精品国产一区二区三区av片| 国产成人综合亚洲一区| 国产在线一区二区在线视频| 少妇特黄A一区二区三区| 日本一区二区三区在线观看视频| 中文字幕AV一区中文字幕天堂| 99久久精品日本一区二区免费| 福利一区福利二区| 在线中文字幕一区| 2020天堂中文字幕一区在线观| 亚洲码一区二区三区| 国产伦精品一区二区三区视频猫咪| 人妻AV一区二区三区精品| 日韩熟女精品一区二区三区| 国产精品分类视频分类一区| 日本道免费精品一区二区| 国产无吗一区二区三区在线欢| 老熟妇仑乱视频一区二区| 精品伦精品一区二区三区视频 | 国产精品女同一区二区| 精品一区二区三区电影| bt7086福利一区国产| 国产精品女同一区二区|