本站小編為你精心準備了數據挖掘的關鍵技術研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
云計算、物聯網和互聯網的快速發展,使得數據量以極快的速度增長,大數據成為研究熱點。大數據的價值產生于分析過程,所以大數據挖掘與分析是整個大數據處理流程的核心。本文介紹了大數據數據體量巨大、數據類型繁多、價值密度低、處理速度快的4V特征、以及基于這些特征的大數據挖掘與分析需要解決的關鍵技術。
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
[5]孟小峰,慈祥,等.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,25(1):146-169。
作者:陳良臣 單位:中國勞動關系學院