本站小編為你精心準備了數據庫中關聯規則參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:現在全球經濟發展正在進入信息經濟時代,各種形式的信息大量地產生和收集導致了信息爆炸,如何采用基于關聯規則的數據挖掘技術發現超市事務數據庫中的關聯規則是本文所研究和探討的重點。
關鍵詞:數據挖掘電子商務關聯規則
1引言
目前,在需要處理大數據量的科研領域中,數據挖掘受到越來越多的關注。我們可以利用數據挖掘技術從海量數據中發現有用信息,幫助商家了解客戶以往的需求趨勢,并預測未來,從而給商家帶來巨大的利潤。在數據挖掘領域,采用關聯規則在大型事務數據庫中進行數據挖掘是一個重要的研究內容。關聯規則是美國IBMAlmadenResearchCenter的RabeshAgrawal等人于1993年首先提出的KDD研究中的一個重要課題。關聯規則挖掘的一般對象是事務數據庫,這種數據庫的主要應用在零售業,比如超級市場的銷售管理。關聯規則就是發現事務數據庫中不同商品(項)(Item,指事務中的內容,比如,面包、牛奶等都是項目)之間是否存在某種關聯關系。通過這些規則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發現這樣的規則可以應用于商品貨架設計、貨存安排以及根據購買模式對用戶進行分類。
2關聯規則描述
目前關聯規則挖掘主要考慮支持度和置信度兩個閾值。設X是項集,T是數據庫DB中的任意一個記錄。X的支持度是指支持X的記錄數與全體記錄數的比,Support(X)=|{T|TX,T∈DB}|/|DB|。蘊涵關系X==>Y在數據庫DB中的置信度是指同時支持X和Y的記錄數與支持X的記錄數之比,即:Confidence(X==>Y)=|{T|TXY,T∈DB}|/|{T|TX,T∈DB}|支持度可理解為在DB中隨機抽取一個記錄,該記錄同時支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機取一個記錄,該記錄支持Y的概率。
3發現關聯規則的操作步驟
目前,由于條碼技術的發展,顧客在超市中購買商品的信息可以很方便的被存放在數據庫中,針對數據庫中大量的數據,我們如何發現它們之間存在的關聯是本文主要討論的問題。關聯規則的挖掘問題就是在超市事務數據庫DB中找出具有用戶給定的最小支持度和最小置信度的關聯規則。關聯規則的挖掘對市場調節和爭取顧客方面的應用是極有價值的。因此,有必要采用快速算法從超市事務數據庫中挖掘關聯規則。由超市事務數據庫發現關聯規則挖掘可以分以下兩步完成:
1)找出超市事務數據庫DB中所有大于等于用戶指定最小支持度的項目集,具有最小支持度的項目集稱為頻繁項集。
2)利用頻繁項集生成所期望的關聯規則,即這些規則必須滿足最小支持度min_supp和最小置信度min_conf。
事實上,第一步的任務是迅速高效地找出超市事務數據庫DB中全部頻繁項集,數據挖掘所面臨的最大的挑戰是計算效率問題,解決這一問題的途徑是產生高效的數據挖掘算法,但從超市事務數據庫中產生頻繁項集即費時又占用空間,所以說第一步是關聯規則挖掘的核心問題,是衡量關聯規則挖掘算法的標準。當找到所有的頻繁項集后,相應的關聯規則將很容易生成,目前大多數的關聯規則挖掘算法研究是針對第一步而提出的,本文重點討論第一個問題。
4由超市事務數據庫發現關聯規則的總體設計
在現有的不少關聯規則發現算法中,最著名的仍然是R.Agrawal本人在他們自己的AIS算法基礎上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“頻繁項集的所有非空子集都必須也是頻繁的”這一定理對事務數據庫進行多遍掃描。
眾所周知,對數據庫的掃描伴隨繁重的磁盤I/O任務,Apriori算法中,掃描次數較多,這樣就大大限制了挖掘算法的速度。因此,在實際的應用中,減少對事務數據庫的掃描次數,有效地減少數據的吞吐,將會有效提高算法的效率。為了高效率的由超市事務數據庫中發現關聯規則,本系統在Apriori算法的基礎上采用基于劃分的算法。該算法只對事務數據庫DB掃描兩次,大大減少了I/O操作,從而提高了算法的效率。
通過劃分方法進行數據挖掘的過程如下圖所示:
本系統的總體設計包含三部分:
(1)在服務器端第一次掃描超市事務數據庫中的表,按照超市事務數據庫中不同項集的數量,以及兼顧客戶端計算機硬件配置,對其進行數據分塊,分塊的大小選擇要使得每個分塊可以被放入主存。
(2)在各個客戶端計算機上,利用并行技術分別訪問服務器上的數據分塊,求出各數據分塊所對應的局部頻繁項集,并將所求局部頻繁項集存入服務器的一個指定表中。
(3)在服務器端,匯總各個分塊數據生成的局部頻繁項集,第二次掃描超市事務數據庫中的總表,最終生成全局頻繁項集。
系統的總體設計可以如下圖2應用程序總體設計所示。
一旦由超市事務數據庫DB中的事務找出頻繁項集,由它們產生強關聯規則是直截了當的。所謂的強關聯規則是指滿足最小支持度和最小置信度的規則。
5結論
隨著計算機硬件的降價,利用并行處理的思想,劃分的數據塊分給多個處理機并行計算各數據塊的局部頻繁項集,然后各分塊所求的局部頻繁項集匯總到服務器上,再次掃描數據庫最終求出全局頻繁項集。這種將關聯規則挖掘算法與并行處理相結合的方式能更大的提高算法的效率。今后,如何能夠更有效的提高關聯規則算法執行的效率,怎樣設計更有效、更實用的算法,是我們進一步需要思考的問題。