本站小編為你精心準(zhǔn)備了基于Web的數(shù)據(jù)挖掘技術(shù)分析參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1基于web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用背景
如今,為了適應(yīng)網(wǎng)絡(luò)社會的要求,涉及商務(wù)、政務(wù)、學(xué)習(xí)等各個方面的各式各樣的網(wǎng)站也像雨后春筍一樣紛紛涌現(xiàn)。網(wǎng)上的數(shù)據(jù)資源空前豐富,網(wǎng)絡(luò),以其獨有的魅力吸引著越來越多的領(lǐng)域。豐富的信息量是網(wǎng)絡(luò)的一個顯著特點,給用戶帶來眼界的開闊的同時,網(wǎng)絡(luò)上廣泛分布的信息資源又給用戶增加了困難:在浩如煙海的網(wǎng)絡(luò)世界,網(wǎng)絡(luò)用戶想尋找自己的感興趣的信息,如果盲目地去找,無異于大海撈針。對于自己所需的信息資源,用戶不知道如何做到更有效地發(fā)現(xiàn)。關(guān)于網(wǎng)站可用性問題,據(jù)發(fā)達(dá)國家所開展的調(diào)查結(jié)果不難發(fā)現(xiàn),企業(yè)網(wǎng)站中超過90%的都存在著比較差的可用性,其中70%的企業(yè)不滿意于本企業(yè)的網(wǎng)站。而專門針對用戶的調(diào)查顯示:用戶在商業(yè)網(wǎng)站上找到自己所需要的信息的幾率居然只有42%。這個數(shù)據(jù)顯示用戶在找自己所需的信息時不夠方便、快捷,這種不便所造成的潛在的損失銷售額比例高達(dá)50%。此外,雖然事先鐘情于某件商品,但最終因網(wǎng)站比較差的可用性而放棄尋找欲購商品的幾率也高達(dá)62%。為什么網(wǎng)站可用性如此之差呢?究其原因,還是因為網(wǎng)站設(shè)計者缺少對用戶需求的了解,企業(yè)在設(shè)計網(wǎng)站時,其結(jié)構(gòu)組織不完全符合用戶的任務(wù)以及他們所看到的信息空間的方式。為了改變這種現(xiàn)狀,更好地發(fā)揮網(wǎng)站的作用,以更好的滿足訪問者的需求。網(wǎng)絡(luò)用戶的訪問興趣、訪問頻度以及訪問時間是網(wǎng)站經(jīng)營者最應(yīng)該關(guān)注到的內(nèi)容,結(jié)合這些方面,可以對網(wǎng)站的頁面結(jié)構(gòu)進(jìn)行動態(tài)的調(diào)整以及對其積極地改進(jìn)服務(wù),進(jìn)而開展有針對性的電子商務(wù)。而通過挖掘web數(shù)據(jù)資源,我們就可以從中提取到我們所需的知識,上文提到的網(wǎng)絡(luò)用戶的訪問行為、頻度以及內(nèi)容等信息,都可以通過群體用戶訪問行為以及方式得到,進(jìn)而改進(jìn)web服務(wù)的設(shè)計。
2關(guān)于數(shù)據(jù)挖掘技術(shù)及基于Web的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘產(chǎn)生于上個世紀(jì)六十年代,當(dāng)時的數(shù)據(jù)挖掘技術(shù)已經(jīng)實現(xiàn)許多功能,如應(yīng)用數(shù)據(jù)庫和信息技術(shù),就不限于只是處理原始文件,而是可以系統(tǒng)地演化到復(fù)雜的、功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)的功能。隨后幾年,數(shù)據(jù)處理技術(shù)仍在不斷發(fā)展中,尤其是近幾年來,不少數(shù)據(jù)庫可以提供查詢和事務(wù)處理,這么大量的數(shù)據(jù)庫系統(tǒng)的付諸實踐,下一個目標(biāo)開始顯現(xiàn),即數(shù)據(jù)分析和理解。為了提高信息的利用率,把這些數(shù)據(jù)轉(zhuǎn)化成有用的信息和知識,就可以通過數(shù)據(jù)挖掘,獲取到有用的信息,這將非常有利于企業(yè)的決策和業(yè)務(wù)。正是為了適應(yīng)這種要求,數(shù)據(jù)挖掘技術(shù)誕生了,如今,并且越來越顯示出強(qiáng)大的生命力。
3數(shù)據(jù)挖掘的基本含義
數(shù)據(jù)挖掘有一些同義詞,這些同義詞與其意義相近,如數(shù)據(jù)融合、數(shù)據(jù)分析以及決策支持等。數(shù)據(jù)挖掘技術(shù)的定義包含如下幾層含義:(1)真實的、大量的數(shù)據(jù)源,還必須是含噪聲的;(2)發(fā)現(xiàn)用戶感興趣的知識是數(shù)據(jù)挖掘技術(shù)的目標(biāo)。在進(jìn)行數(shù)據(jù)挖掘中,會發(fā)現(xiàn)一些知識可接受、可理解、可運用,但卻不要求這些知識放之四海而皆準(zhǔn)。如果做廣義的理解,數(shù)據(jù)、信息,這些也是知識的表現(xiàn)形式。當(dāng)然,在通常情況下,概念、規(guī)則、模式以及規(guī)律和約束更容易被人們視作知識。數(shù)據(jù),則被人們看作是形成知識的源泉。
4數(shù)據(jù)挖掘的基本過程
數(shù)據(jù)挖掘,說到底其實就是從大量數(shù)據(jù)中不斷抽取出將有價值的信息或知識,這是一個循環(huán)往復(fù)的過程。每一種數(shù)據(jù)挖掘技術(shù)方法有它自身的特點以及實現(xiàn)步驟,各種不同形式的算法應(yīng)用適用領(lǐng)域的含義以及能力都存在差異。因此,應(yīng)用數(shù)據(jù)挖掘所要達(dá)到的目標(biāo)、算法選擇、問題領(lǐng)域?qū)<抑С殖潭纫约皵?shù)據(jù)收集完整程度等,成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)的過程本身就是一件非常復(fù)雜的事情。一般來說,數(shù)據(jù)挖掘的基本過程包括五項任務(wù),這五項任務(wù)即:理解問題、理解、收集和準(zhǔn)備數(shù)據(jù)、建立數(shù)據(jù)挖掘模型、評價并應(yīng)用所建模型等。
5數(shù)據(jù)挖掘的基本模式和功能
對于用戶來說,他們并不知道什么類型的模式才是有趣的,為了適應(yīng)不同的用戶需求或不同的應(yīng)用,數(shù)據(jù)挖掘系統(tǒng)自身要能夠挖掘出多種類型的模式。根據(jù)數(shù)據(jù)挖掘的不同功能,數(shù)據(jù)挖掘可以分為預(yù)測型和描述型兩種基本模式。數(shù)據(jù)挖掘的功能分類包括幾項內(nèi)容,分別如下:(1)概念描述。通過多種方法對數(shù)據(jù)間相互關(guān)聯(lián)的類或者概念加以描述就是概念描述。方法包括數(shù)據(jù)區(qū)分、數(shù)據(jù)特征化、概念特征化以及比較等。通過這些方法對數(shù)據(jù)進(jìn)行匯總的、簡潔的、精確的分類等。概念描述自然應(yīng)該屬于描述型數(shù)據(jù)挖掘類型。(2)關(guān)聯(lián)分析。通過關(guān)聯(lián)分析滿足一定條件的依賴性關(guān)系可以被挖掘出,這也就是關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則形如A卜>A2,支持度=s%,置信度=c%”,這里的S和c分別指用戶指定的支持度以及置信度的閩值。關(guān)聯(lián)規(guī)則可以分為單層和多層、單維和多維。(3)分類和預(yù)測。為了使用模型預(yù)測未知類型的數(shù)據(jù),分析訓(xùn)練數(shù)據(jù)集(即己知的數(shù)據(jù)對象),找出并區(qū)分?jǐn)?shù)據(jù)類的描述。對數(shù)據(jù)對象的類標(biāo)記作出預(yù)測是進(jìn)行合適的分類后可以實現(xiàn)的,即便某些空的或者不知道的數(shù)據(jù)值,也可以被預(yù)測出來。(4)聚類分析。所謂聚類分析,顧名思義,即按照最小化類間的相似性以及最大化類內(nèi)的相似性對對象進(jìn)行分組。分組后,一個簇中的對象可以與其它簇中的對象很不相似,它們自身具有很高的相似性。和分類相比,聚類的特點直接對數(shù)據(jù)進(jìn)行處理,而分類是基于訓(xùn)練數(shù)據(jù)的。
作者:張嘉豐 單位:無錫機(jī)電高等職業(yè)技術(shù)學(xué)校