前言:我們精心挑選了數篇優質云計算數據論文文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
云計算是下一代的IT架構。運用云計算,可以把應用軟件和數據遷移到很大的數據中心。云計算的這一特點帶來了很大的安全問題。要研究云計算數據的安全特征,就要首先了解云計算的數據安全模型。
1.1云計算數據應用系統模型
云計算的平臺構架主要技術有并行編程的模式,分布式文件系統,數據處理模型。其層次如圖1所示。云計算的數據應用共分為三個層次:應用層、索引層和數據存儲層。同時要了解云計算數據應用系統的三個要素:用戶、應用服務器和數據中心。這三個要素各有著不同的功能,用戶的功能是存儲數據,在數據計算的基礎上,計算個體用戶和組織用戶的數據。應用服務器的功能是維護云計算的系統。數據中心的功能是存貯實際的數據信息。但是,在云計算數據應用系統模型中,存在著很大的安全威脅,主要是來自傳統數據的威脅,容易受到影響的對象有客戶端、主從結構和病毒的傳播,通信的安全性。其中,病毒的傳播主要是通過互聯網的數據交易服務,病毒侵入計算機網絡系統,它的破壞性遠遠大于單機系統,用戶也很難進行防范。現在的互聯網中,病毒一般有隱蔽性,傳播速度也很快。另外,病毒的制造技術也越來越高級,不僅可以破壞用戶的程序,還可以竊取信息,造成系統的交叉感染。這種感傳染性的病毒危害性非常大。對于通信故障,網絡中通常分為兩種類型的安全攻擊類型:主動攻擊和被動攻擊。常見的攻擊手段有偷竊、分析、冒充、篡改。對于數據安全來說,除了上述的數據安全,還有新數據的安全威脅,主要表現在幾個方面:保密失效威脅、分布式可用威脅、動態完整性威脅。
1.2云計算數據安全模型
典型云計算數據技術如圖2所示。該數據安全模型主要分三個層次:第一層的功能是負責驗證用戶的身份,保證云計算中數據的安全;第二層的功能是負責對用戶的數據進行保密處理,保護用戶的隱私;第三層的功能是恢復用戶誤刪的數據,是系統保護用戶數據的最后一道防線。這三層結構是相互聯系,層層深入。首先要驗證用戶的身份,保證用戶的數據信息不被篡改。如果非法用戶進入的系統,則進入系統后還要經過加密保護和防御系統。最后是文件恢復的層次,這一層次可以幫助用戶在數據受損的情況下修復數據。
2多維免疫的云數據安全
2.1多維免疫算法
多維免疫算法的組成主要依靠生物原理、免疫系統的多維模型、多維免疫的基本原則組成。其中,生物原理是把生物學的理論應用在云計算中。人工免疫系統發展到現在,在免疫能力的發揮方面有了很大的發展。免疫能力的增長是一個漫長的過程,后天的免疫的生成更是一個艱難的過程。在一個系統生成初期,完全沒有后天的免疫能力,但是隨著身體的成長,免疫細胞逐漸增多,免疫系統也開始形成。多維免疫系統的形成也是這樣的。
2.2多維免疫的數據安全原理
阻礙多維免疫的數據安全的因素主要有不可靠網絡、節點故障、超大規模的用戶訪問、數據更新引起的數據不一致性等。為了提高數據管理的安全性,云計算為用戶提供了一個一致的入口,只有向用戶提供透明的文件,進行文件數據的定位數據選擇。對于數據管理服務,應該注意,這項服務是連接用戶和系統的。應用服務器和數據中心共同組成了云計算數據應用系統。應用服務器主要目的是方便用戶訪問歷史和相關的文件信息。
2.3多維免疫的云數據安全策略
主要包括文件分布的策略,HDFS文件冗余度計算,多維免疫的文件分布,數據塊選擇機制等。對于云計算中的用戶文件,需要考慮到數據塊的數量分布、數據塊的顆粒度和數據庫的創建時間。多維免疫的文件分布中,首先要掌握文件分布的原理,多維免疫算法和云計算中文件的創建和文件塊的分配法是一致的。
3結束語
1.1大數據的發展
通過對大數據的匯集、智能分析和挖掘技術,發現數據中的潛在價值信息,幫助人們做出正確決策,這就是大數據產業的利益。國外大數據的起步比較早,比較成功的大數據應用案例有:商業龍頭沃爾瑪公司通過對消費者的購物數據進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數據構建自己的推薦系統,每年可以靠此多收益20%;奧巴馬通過大數據分析系統進行數據挖掘,用科學的手段獲取選票、募集資金,贏得了總統競選的勝利。相比于國外,國內的大數據研究和應用還處于起步和發展中的階段,比較成功的案例有:淘寶數據魔方平臺,通過大數據,為買家量身打造完善的購物體驗產品;新浪微博大數據產品,通過大量的社交數據,創造不同的社會經濟價值等。
1.2云計算的發展
云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環境、應用程序抽象成服務,具有可靠性高、可用性強、規模可伸縮等特點,滿足了不同企業的發展需求,各個云服務提供商根據各自服務對象的差別分別開發了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據各自的需求購買虛擬或實體的計算、存儲、網絡等資源。用戶可以在購買的空間內部署和運行軟件,包括操作系統和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統的選擇、存儲空間、部署的應用,也有可能獲得有限制的網絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產品之一,AmazonEC2利用其全球性的數據中心網絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發和部署的平臺,包括應用設計、應用開發、應用測試和應用托管,都作為一種服務提供給客戶。開發者只需要上傳代碼和數據就可以使用云服務,而無需關注底層的具體實現方式和管理模式。鑒于PaaS平臺的重要意義,國內外廠商根據各自的戰略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數據量極大的情況下,也可以輕松構建能安全運行的應用程序。國內也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯網軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網站根據用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統;Twitter社交網站搭建Hadoop分布式系統用于用戶關聯的建立。國內云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節點,數據容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內首個運營云平臺,目前為止與該平臺簽訂協議的ISV有3000多家。
1.3云計算相關技術
(1)分布式文件系統分布式文件系統(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數據而專門設計的。一個GFS集群由一個主節點和多個從節點組成,用戶可以通過客戶端訪問文件系統,進行正常的文件處理工作。在云計算中,海量數據文件被分割成多個固定大小的數據塊,這些數據塊被自動分配到不同的從節點存儲,并會在多個節點進行備份存儲,以免數據丟失。主服務器管理文件系統記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數據。正是通過這個表,文件系統可以準確地找到文件存儲的位置,避免數據丟失,保證數據安全。圖3是GFS的體系結構示意,每一個節點都是普通的Linux服務器,GFS的工作就是協調成百上千的服務器為各種應用提供服務。(2)分布式并行數據庫BigTableBigTable[4]是一個為管理大規模結構化數據而設計的分布式存儲系統,可以擴展到PB級數據和上千臺服務器。很多Google的項目使用BigTable存儲數據,這些應用對BigTable提出了不同的挑戰,比如對數據規模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節串,時間戳是64位整型;值是一個字節串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數據技術計算框架,被廣泛應用于數據挖掘、海量數據處理以及機器學習等領域,由于其并行化處理數據的強大能力,越來越多的廠商根據MapReduce思想開發了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現。MapReduce的數據分析流程如圖4所示。分布在不同服務器節點上的海量數據首先通過split()函數被拆分成Key/Value鍵值對,map()函數以該鍵值對為輸入,將該鍵值對進行函數處理,產生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環節,Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現在不同的服務器節點同時啟動相同的工作,并且在每個獨立的服務器節點上又可以啟動多個map()、reduce()并行計算。
2基于云計算的大數據處理
目前大數據處理的基本流程如圖5所示,整個流程經過數據源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數據計算處理方式將數據推送到數據分析和挖掘平臺,通過有效的數據分析和挖掘手段,找出大數據中有價值的信息;最后通過可視化技術將信息展現給人們。
2.1數據采集存儲
大數據具有不同結構的數據(包括結構、半結構、非結構),針對不同類型的數據,在進行云計算的分布采集時,需要選擇不同的數據采集方式收集數據,這也是大數據處理中最基礎的一步。采集到的數據并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數據,需要對其進行加載合并;數據存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數據的有效性;數據的格式或者量綱不統一的,需要對其進行標準化等轉換處理;最后處理生成的數據,通過特定的數據庫,如NoSQL數據(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數據讀取。由于傳統的數據倉庫無法適應大數據的存儲要求,目前基于云計算的數據倉庫都是采用列式存儲。列式存儲的數據具有相同的數據類型,可以大大提高數據的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數據持久性高達99.9%,同時提供高效率的端到端保障。
2.2數據計算模式
這一環節需要根據處理的數據類型和既定目標,選擇合適的計算模型處理數據。由于數據量的龐大,會消耗大量的計算資源,因此,傳統的計算技術很難使用大數據的環境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,Facebook擁有全球最大規模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數據量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更小;實時處理方式計算的Spark是一種基于內存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節點和9.2TB內存;交互處理方式計算的Dremel在處理PB級別的數據時耗時可以縮短至秒級,并且無需大量的并發。
2.3數據分析挖掘
數據分析挖掘環節是從海量數據中發現隱藏規律和有價值信息的過程,這個環節是大數據處理流程最為有價值和核心的部分,傳統的數據分析方法有機器學習、商業智能等。傳統的數據挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環境下都得到了大幅度的并行優化,在大數據的背景下,計算速度得到了很大程度的提升。現在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,這種新的數據分析挖掘技術已經在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。
2.4數據解釋展現
將挖掘出來的復雜信息進行數據解釋和展現是整個大數據處理流程的最后一個環節,數據分析的結果需要向客戶進行恰當的展現。與傳統的數據輸出和文本展示等方式不同,現在絕大部分的企業都通過引進“數據可視化”技術來展示大數據分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現數據處理分析的結果,也容易被客戶理解和接受,更為先進的是,現在逐步形成的“交互式可視化技術”,大大地方便了數據與人之間的“親密交流”。目前面向大數據主流應用的可視化技術見表2。
3大數據和云計算的未來挑戰
大數據需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數據的應用研究提供了技術支持,大數據和云計算的完美結合,相得益彰,發揮了各自的最大優勢,為社會創造了巨大的價值。雖然國內大數據和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數據向前不斷邁進的階段里,如何讓我們對大數據的研究朝著有利于全人類的方向發展成為了重中之重。
3.1重要戰略資源
在這個信息社會里,大數據將會成為眾多企業甚至是國家層面的重要戰略資源。國家層面要將大數據上升為國家戰略。奧巴馬在2012年3月將“大數據戰略”上升為最高國策,像陸權、海權、空權一樣,將數據的占有和控制作為重要的國家核心能力。大數據資源也會成為各種機構和企業的重要資產以及提升企業社會競爭力的有力武器。在大數據市場里,客戶的各種數據信息都會為企業創造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。
3.2數據隱私安全
大數據如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數據被泄露和竊取,隨之而來的將是個人信息及財產的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經濟虧損約1.71億美元。為了解決大數據的數據隱私安全問題,Roy等在2010年提出了一種隱私保護系統,將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數據泄露問題。在數據更新飛速的情況下,如何維護數據的隱私安全成為大數據時代研究的重點方向。
3.3智慧城市
人口的增長給城市交通、醫療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數據和云計算技術,實現城市高效的管理、便捷的民生服務、可持續的產業發展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調了智慧城市發展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫療等都是智慧城市應用領域。智慧城市的建設也趨使大數據人才的培養。據預測,到2015年,大數據將會出現約100萬的人才缺口,全球將新增440萬個與大數據相關的工作崗位來填補這個空缺。
3.4能源消耗
云計算是一種根據使用量確定付費的模式,這種模式主要是提供便捷的、可用的網絡訪問,并進入計算資源共享池,這些資源能夠被迅速的提供,只需要投入較少的工作,或者與服務供應商進行很少的交流。目前,高能力的計算發展和應用水平已成為一個地區科研實力甚至一個國家綜合實力的重要體現。云計算很大程度上提高了資源的服務水平和利用率,而且避免了跨結點劃分應用程序所帶來的低效性和復雜性。
二、大數據與云計算對會計信息化的推進
(一)大數據拓展了會計信息化的資源利用范圍。
隨著數字化、軟件和處理能力的發展,對可利用的數據的范圍進行了進一步的擴大,企業必須敏感地認識到不同類型的信息通過深加工后能給企業帶來怎樣的財富,更要掌握哪些信息可以通過信息化技術和軟件的進步來實現。大數據時代,會計信息化不再只針對會計作業上產生的數據進行分析,而且云計算是世界各大搜索引擎及瀏覽器數據收集、處理的核心計算方式,因此可以通過云計算將零散的數據整合在一起,提煉其有價值的信息,再將這些信息與傳統的會計信息融合,挖掘被忽視的重要信息,提高會計管理決策能力和企業管理水平,這樣就能從行業中脫穎而出。
(二)促進了會計信息化成本降低。
傳統的會計信息化需要企業自身投入大量的基礎設施建設,同時還要考慮硬件與軟件的升級和維護,這方面是阻礙會計信息化發展的重要原因,特別是對中小企業的發展。而大數據與云計算融合后,用戶可以根據自己的利用資源的多少和時間的長短付費,不再需要前期大量的工作和資金投入。這樣,企業也能將重點放在自身的發展上,增強競爭優勢。
(三)提高了會計信息化的效率。
傳統的會計信息化受到時間和地域等條件的限制,這樣信息交流不及時,可能錯過稍縱即逝的機會,尤其是競爭激烈的大環境下,信息獲取的及時性更加重要的。在大數據時代的背景下,提供云計算的會計信息化系統只需通過互聯網就能隨時隨地的實現與客戶的溝通,及時地掌握所需的信息。同時,云計算強大的計算能力,可以更快地形成所需的各項指標,管理者能更快的了解企業的經營狀況并識別潛在的風險。
三、大數據和云計算對會計信息化的挑戰
(一)會計信息化共享平臺發展滯后。
目前,企業信息化逐步在向社會信息化發展,各企業在加工處理自己的會計信息時會形成這個行業整體的信息流。通過會計信息化共享平臺,各企業可以隨時知道自己的企業在整個行業或地區的地區和影響力,了解自己的強勢和弱勢,不斷強化自己的優勢并彌補自己的不足,實現動態地對公司的持續改善管理。這一平臺需要在云計算的基礎上發揮作用,而云計算供應商要求能夠滿足不同用戶、不同地域和不同業務規則的需求,所以對其適應性、擴展性以及靈活性要求比較高。我國在這方面起步比較晚,國內的云計算平臺建設滯后,使云會計這種新型會計信息化發展面臨很大的阻礙。
(二)會計信息化共享平臺的數據安全性挑戰。