本站小編為你精心準備了談電力系統安全流量與日志處理參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
【關鍵詞】電力系統;大數據技術;網絡安全;多源異構安全日志
當前,現代的電力系統的日常可靠運行,都完全依賴于高度信息化的網絡通信與安全防護。如果電力網絡或者相關管理信息系統遭到破壞,就會導致電力系統不能正常運行,甚至導致癱瘓。近年來,入侵檢測系統、防火墻、防病毒軟件、網絡隔離、加解密軟硬件、訪問控制和VPN等網絡安全技術或產品在電力行業得到了廣泛應用,大大增強了電力企業抵御外部攻擊的能力。傳統的電力系統依靠不同的安全設備進行防御,這些設備根據網絡攻擊檢測情況,每天會產生大量的攻擊日志和流量信息。如文獻[4]中指出某電力系統面臨的實際安全問題:信息外網日均產生互聯網流量高達5.51T,日均攔截非法訪問3萬余次,查殺病毒100萬余個,阻斷網站攻擊18萬余次。利用網絡安全流量與日志信息進行系統安全分析在國內外研究中越來越普遍和受到重視。如:文獻[5]設計并開發了一套基于日志分析的電力信通網絡安全預警系統,該預警系統可對信息通信系統中不同設備的日志進行采集和統一管理,實現對信息通信系統的威脅檢測和安全預警。文獻[6]指出在網絡安全建議使用大數據的新安全日志系統,通過分析主要IT基礎設施的網絡、系統、應用服務所產生的安全與數據事件之間的關系,增強安全智能。文獻[7]已經通過對多源、異構網絡安全檢測日志信息進行采集、利用多種方式進行分析,從而尋找合理可信的網絡安全風險整體態勢感知。
當前,我國現有的電力系統安全防御普遍沒有做到立體防御,更多的是線式堆砌模型,就是針對不同的安全風險,購買了大量不同的安全檢測設備或軟件,每個設備互不相同,且都產生各次的檢測日志和數據流信息,設備間或軟件間無法直接溝通與協同控制。
1.1流量日志數據來源
日志消息,是指在特定的操作系統下引發系統,設備、軟件生成的記錄。由于電力系統包含多種不同安全設備,不用的數據傳輸網絡,根據流量日志信息來源,可以將電力系統日志大致分為:網絡設備日志、安全檢測設備日志、主機(服務器)日志、應用系統(數據庫)和業務系統日志等。根據日志信息格式大致可以分為:Trafficlog,WELF和Syslog和二進制。其中,Trafficlog是設備保存的基于流量的日志,該日志彌補了Syslog中沒有流量信息的確定。WELF(WebTrendsEnhancedLogFormat)是WebTrends專有的格式,很多的防火墻都支持的日志格式。Syslog是在Unix平臺下提出的,其格式比較簡單,主要由時間戳、日志來源和日志描述三部分構成。
1.2流量日志數據預處理
日志信息預處理重在消除“數據孤島”,建立電力系統安全日志整體協同融合能力,并形成安全監管、控制的全量數據資產。
1.2.1數據清洗數據清洗是指對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。當前,電力系統的原始日志數據存在噪聲多、缺失數據嚴重、數據重復率高等缺點,且數據格式不統一,故需要根據需要進行原始數據清洗工作。
1.2.2數據標準化電力系統安全日志數據格式眾多,不能簡單的采用一種數據格式進行標準化,因為單一的數據格式要么包含的屬性過多,導致數據可讀性差,難以處理;要么屬性過少,難以準確呈現網絡攻擊安全特征,降低檢測能力。因此,為了便于將多源、異構的安全設備日志標準化,首先建立安全日志的“元數據”信息,并且將元數據格式標準統一。
2大數據安全流量日志平臺構建
參照大數據在其他多源、異構系統的成功應用研究和大數據本身的技術優勢,本文提出的基于大數據的電力系統安全多源流量日志分析平臺分為多源異構數據層、大數據存儲層、大數據分析挖掘層、數據展示層。
2.1原始數據層
該層主要完成來自原始日志信息的采集。主要包括網絡流量設備日志(如交換機、路由器等)、網絡安全設備日志(如防火墻、入侵檢測設備等)、主機設備日志(Linux、Windows等)、漏洞信息(網絡掃描Nessus、X-Scan等)。
2.2大數據存儲層
該層主要完成對原始采集的日志信息進行大數據存儲,主要通過Flume、Sqoop、Kafka和Storm結合使用方法完成。其中,數據流的實時處理,通過Sqoop組件導入到HBase中存儲,利用Kafka的生產、消費者和模式,使用Flume作為日志收集系統,將收集到的數據輸送到Kafka中間件,以供Storm去實時消費計算。離線數據基于HDFS的海量分布式存儲體系,本平臺選用默認的64M數據塊的存儲單位,對采集的小文件進行歸并處理,滿足每個文件64M的規模大小。HBase是當前非常流行的海量分布式開源數據庫系統。HBase采用列式存儲。部分經過計算分析整理后的日志或數據流數據存儲到HBase中。對于結構化的元數據信息,本平臺選用MySQL數據庫進行存儲。關系型數據和非關系型數據之間的關聯導入導出操作,我們采用Sqoop進行數據轉換。
2.3大數據分析挖掘層
為了能夠對電力系統安全日志數據進行基于大數據的分析和處理,選取Spark+Hadoop結合的方法實現。Spark的核心組件包括RDD(ResilientDistributedDatasets)、Scheduler、Storage、Shuffle四部分:RDD是Spark最核心最精髓的部分,Spark將所有數據都抽象成RDD。Scheduler是Spark的調度機制,分為DAGScheduler和TaskScheduler。Storage模塊主要管理緩存后的RDD、shuffle和broadcast數據。為了實現電力系統安全日志的關聯、聚類和異常等分析,本平臺選取Mahout機器學習相關算法進行日志信息分類、聚類、關聯分析等操作。
2.4數據展示層
為了能夠直觀、快捷的將電力系統面臨的安全威脅展示出來,本平臺通過Web形式展示。展示內容主要包括:安全態勢感知內容、威脅情報與資源共享、攻擊擴散關聯路徑分析、智能檢索等。展示平臺主要采用HTML5,JavaScript,CSS,J2EE或者Nodejs,AngularJS,Highcharts等技術實現。
3實驗及分析
為了驗證基于大數據的電力系統安全流量與日志處理框架的有效性,本文收集了防火墻、交換機、堡壘機等設備產生的流量日志,如交換機Syslog流量日志原始數據如表1所示,接著基于大數據平臺,完成日志分析處理,流程圖如圖1所示。實驗選取Cloudera來搭建實驗環境,Cloudera包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop等,簡化了大數據平臺的安裝、使用難度。實驗環境包括:Vmware虛擬機、操作系統CentOS6.5x64、ClouderManager5.14.0、CDH5.14.0。實驗采取完全分布式配置,包括1個master節點和2個slave節點。實驗選取不同大小的Syslog日志,比較SQL查詢與Hadoop平臺的處理效率。檢測結果如表2所示。在2.68M時,MySQL查詢效率高于Hive的查詢效率。隨著數據量增大,Hive的查詢效率要好于MySQL,數據規模越大,Hive查詢統計效率越明顯。這是因為,當數據量小時,MySQL的延時低,而Hive查詢是利用MapReduce算法,相對延時比較高;而當數據規模增大到10萬條以上,MySQL需要逐條計算,耗時長,且容易出錯;Hive采用并行計算,將大規模數據計算切分為多個小規模的分塊數據,每個分塊單獨計算,整體時間少。該實驗充分驗證了采用Hadoop大數據平臺并行處理相比傳統串行處理有非常明顯的效率和存儲優勢。
4結語
隨著電力行業信息化的大力發展,電力行業已經布設的安全檢測設備每天都會產生海量、異構和多源的流量與日志信息,傳統的安全處理分析相對孤立、處理效率差,無法形成多種安全檢測設備日志聯動協同分析的能力。本文針對電力系統安全流量日志,基于Hadoop平臺設計了一種海量電力系統安全流量日志采集、存儲、分析和展示的框架系統,且通過實驗驗證了所提框架系統相對傳統單機系統的優越性,下一步將繼續開展在該平臺進行大數據安全態勢分析、安全風險的聯動控制研究。
參考文獻
[1]何婷.淺談電力系統信息網絡安全防護及措施[J].技術與市場,2015,(11):42-44.
[2]張營,杜海婷,周佳,馮雯雯.基于態勢感知的智能信息安全中心建設[C].第三屆全國信息安全等級保護技術大會,2014,683-687.
[3]張磊,胡利輝.通信網絡信息系統安全防護技術[J].電網技術,2018,(3):164-165.
[4]黃昆,楊旭東,許珂,李靜.基于多元異構模型的大型電網企業網絡安全態勢分析[J].電力信息與通信技術,2019,17(1):72-77.
[5]李剛,陳怡瀟,黃沛爍,等.基于日志分析的信息通信網絡安全預警研究[J].電力信息與通信技術,2018,16(12):1-8.
[7]管磊,胡光俊,王專.基于大數據的網絡安全態勢感知技術研究[J].信息網絡安全,2016,9:45-50.
[8]林俊宇.基于XML的多源日志安全信息集成分析研究[D].哈爾濱工業大學碩士學位論文,2009.
[9]余鵬,李艷,萬晨.融合多源異構教育大數據的高校科研服務系統設計研究[J].圖書情報知識,2019,(1):32-43.
作者:張思拓 洪丹軻 林旭斌 吳柳 謝堯 單位:中國南方電網電力調度控制中心
本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。