美章網 資料文庫 數據庫中關聯規則范文

    數據庫中關聯規則范文

    本站小編為你精心準備了數據庫中關聯規則參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

    數據庫中關聯規則

    摘要:現在全球經濟發展正在進入信息經濟時代,各種形式的信息大量地產生和收集導致了信息爆炸,如何采用基于關聯規則的數據挖掘技術發現超市事務數據庫中關聯規則是本文所研究和探討的重點。

    關鍵詞:數據挖掘電子商務關聯規則

    1引言

    目前,在需要處理大數據量的科研領域中,數據挖掘受到越來越多的關注。我們可以利用數據挖掘技術從海量數據中發現有用信息,幫助商家了解客戶以往的需求趨勢,并預測未來,從而給商家帶來巨大的利潤。在數據挖掘領域,采用關聯規則在大型事務數據庫中進行數據挖掘是一個重要的研究內容。關聯規則是美國IBMAlmadenResearchCenter的RabeshAgrawal等人于1993年首先提出的KDD研究中的一個重要課題。關聯規則挖掘的一般對象是事務數據庫,這種數據庫的主要應用在零售業,比如超級市場的銷售管理。關聯規則就是發現事務數據庫中不同商品(項)(Item,指事務中的內容,比如,面包、牛奶等都是項目)之間是否存在某種關聯關系。通過這些規則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發現這樣的規則可以應用于商品貨架設計、貨存安排以及根據購買模式對用戶進行分類。

    2關聯規則描述

    目前關聯規則挖掘主要考慮支持度和置信度兩個閾值。設X是項集,T是數據庫DB中的任意一個記錄。X的支持度是指支持X的記錄數與全體記錄數的比,Support(X)=|{T|TX,T∈DB}|/|DB|。蘊涵關系X==>Y在數據庫DB中的置信度是指同時支持X和Y的記錄數與支持X的記錄數之比,即:Confidence(X==>Y)=|{T|TXY,T∈DB}|/|{T|TX,T∈DB}|支持度可理解為在DB中隨機抽取一個記錄,該記錄同時支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機取一個記錄,該記錄支持Y的概率。

    3發現關聯規則的操作步驟

    目前,由于條碼技術的發展,顧客在超市中購買商品的信息可以很方便的被存放在數據庫中,針對數據庫中大量的數據,我們如何發現它們之間存在的關聯是本文主要討論的問題。關聯規則的挖掘問題就是在超市事務數據庫DB中找出具有用戶給定的最小支持度和最小置信度的關聯規則。關聯規則的挖掘對市場調節和爭取顧客方面的應用是極有價值的。因此,有必要采用快速算法從超市事務數據庫中挖掘關聯規則。由超市事務數據庫發現關聯規則挖掘可以分以下兩步完成:

    1)找出超市事務數據庫DB中所有大于等于用戶指定最小支持度的項目集,具有最小支持度的項目集稱為頻繁項集。

    2)利用頻繁項集生成所期望的關聯規則,即這些規則必須滿足最小支持度min_supp和最小置信度min_conf。

    事實上,第一步的任務是迅速高效地找出超市事務數據庫DB中全部頻繁項集,數據挖掘所面臨的最大的挑戰是計算效率問題,解決這一問題的途徑是產生高效的數據挖掘算法,但從超市事務數據庫中產生頻繁項集即費時又占用空間,所以說第一步是關聯規則挖掘的核心問題,是衡量關聯規則挖掘算法的標準。當找到所有的頻繁項集后,相應的關聯規則將很容易生成,目前大多數的關聯規則挖掘算法研究是針對第一步而提出的,本文重點討論第一個問題。

    4由超市事務數據庫發現關聯規則的總體設計

    在現有的不少關聯規則發現算法中,最著名的仍然是R.Agrawal本人在他們自己的AIS算法基礎上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“頻繁項集的所有非空子集都必須也是頻繁的”這一定理對事務數據庫進行多遍掃描。

    眾所周知,對數據庫的掃描伴隨繁重的磁盤I/O任務,Apriori算法中,掃描次數較多,這樣就大大限制了挖掘算法的速度。因此,在實際的應用中,減少對事務數據庫的掃描次數,有效地減少數據的吞吐,將會有效提高算法的效率。為了高效率的由超市事務數據庫中發現關聯規則,本系統在Apriori算法的基礎上采用基于劃分的算法。該算法只對事務數據庫DB掃描兩次,大大減少了I/O操作,從而提高了算法的效率。

    通過劃分方法進行數據挖掘的過程如下圖所示:

    本系統的總體設計包含三部分:

    (1)在服務器端第一次掃描超市事務數據庫中的表,按照超市事務數據庫中不同項集的數量,以及兼顧客戶端計算機硬件配置,對其進行數據分塊,分塊的大小選擇要使得每個分塊可以被放入主存。

    (2)在各個客戶端計算機上,利用并行技術分別訪問服務器上的數據分塊,求出各數據分塊所對應的局部頻繁項集,并將所求局部頻繁項集存入服務器的一個指定表中。

    (3)在服務器端,匯總各個分塊數據生成的局部頻繁項集,第二次掃描超市事務數據庫中的總表,最終生成全局頻繁項集。

    系統的總體設計可以如下圖2應用程序總體設計所示。

    一旦由超市事務數據庫DB中的事務找出頻繁項集,由它們產生強關聯規則是直截了當的。所謂的強關聯規則是指滿足最小支持度和最小置信度的規則。

    5結論

    隨著計算機硬件的降價,利用并行處理的思想,劃分的數據塊分給多個處理機并行計算各數據塊的局部頻繁項集,然后各分塊所求的局部頻繁項集匯總到服務器上,再次掃描數據庫最終求出全局頻繁項集。這種將關聯規則挖掘算法與并行處理相結合的方式能更大的提高算法的效率。今后,如何能夠更有效的提高關聯規則算法執行的效率,怎樣設計更有效、更實用的算法,是我們進一步需要思考的問題。

    主站蜘蛛池模板: 国产精品高清一区二区人妖| 国产午夜精品免费一区二区三区| 亚洲视频一区在线| 日韩在线一区二区| 精品国产免费一区二区三区 | 精品中文字幕一区在线| 日本内射精品一区二区视频| 国产亚洲情侣一区二区无码AV| 无码国产精品久久一区免费| 中文字幕一区二区三匹| 乱色精品无码一区二区国产盗| 国偷自产av一区二区三区| 国产免费私拍一区二区三区| 一色一伦一区二区三区| 中文字幕日韩欧美一区二区三区 | 欧洲精品一区二区三区| 无码一区二区三区在线| 麻豆视传媒一区二区三区| 国产一区二区三区在线看片 | 精品无码一区二区三区爱欲| 中文字幕日韩人妻不卡一区| 国产精品女同一区二区久久| 黑人大战亚洲人精品一区| 亚洲日韩一区精品射精| 中文精品一区二区三区四区| 精品aⅴ一区二区三区| 久久福利一区二区| 成人在线视频一区| 精品3d动漫视频一区在线观看| 欧美日本精品一区二区三区| 老熟妇高潮一区二区三区| 一区二区高清在线| 亚洲国产日韩一区高清在线| 日韩三级一区二区三区| 国产免费一区二区三区不卡| 国产一区二区三区乱码网站| 国产一区二区三区不卡在线观看| 久久精品一区二区三区不卡| 夜夜高潮夜夜爽夜夜爱爱一区| 一区二区三区电影网| 国产99视频精品一区|