本站小編為你精心準備了圖書信息化數據挖掘技術管理探究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:高校圖書管理系統中的數據具有龐雜性、隱晦性和關聯性,傳統的圖書管理系統無法從這些數據中尋找到足夠的有用信息以實現優化圖書配置的目的。為了解決該難題,文中以某高校圖書館為例對數據挖掘技術在高校圖書管理中的應用進行了研究,得到主要結論如下:第一,頻繁書籍的挖掘對圖書館內書籍館藏數目的優化尤為重要;第二,不同類別書籍間存在可信度較高的關聯規則,同時館藏數目有限和圖書外借政策導致不同書籍間的支持度較低;第三,某圖書館圖書外借記錄的數據挖掘所得結果與現實中讀者需求的吻合度非常高。
關鍵詞:數據挖掘;關聯規則;高校圖書館;Apriori算法
引言
在信息技術飛速發展的當下,圖書檢索等信息急速膨脹,而傳統的圖書管理措施無法深度挖掘圖書館訪客的需求,這對圖書資源的管理和相關決策帶來了諸多不便,也阻礙了高校圖書館的發展。吳菁[1]對數據挖掘在圖書管理中應用進行了研究;李會艷[2]針對高校圖書管理,就數據挖掘技術的應用進行了分析;張晴等[3]人深入研究了大數據背景下,基于數據挖掘技術的移動圖書管理系統的實現方案;于文超[4]分析了大數據和物聯網技術在我國圖書情報領域的應用方法及前景;趙雨薇等[5]人對基于數據挖掘技術的圖書推薦、高校圖書管理及圖書館個性化服務等進行了研究。雖然諸多學者已經著眼于數據挖掘技術在圖書管理方面的研究,但當前我國高校圖書管理系統中數據挖掘技術的應用仍然有很大的提升空間[6]。本文從數據挖掘技術的介紹入手,對高校圖書管理系統中數據的特征進行了總結,對圖書管理中數據挖掘的層次結構和數據挖掘需求進行了介紹[7],最后以我國東北某高校圖書館為例,對數據挖掘技術在我國高校圖書管理中的應用進行了研究。
1數據挖掘技術
1.1數據挖掘的實施方案
在物聯網和計算機技術迅猛發展的推動下,大數據的應用已經延伸到許多行業中,它不僅顛覆了人們對傳統意義上數據的認知,更誘發了數據獲取、存儲、分析、挖掘以及可視化等技術的變革[8]。同時,當前人類生產及生活方式也將因大數據及其相關技術而產生巨變?!皵祿烤薮蟆敝皇谴髷祿谋砻嫣卣?,其全新的數據處理模式以及其短時間內傳統工具無法完成的決策力、洞察發現力才是大數據更核心的意義。然而,原始數據往往都是含有雜質和大量干擾信息的,同時這些數據大多數時候都是模糊且無明顯規律的。只有應用一定的技術手段,過濾掉既有數據信息中的雜質和干擾信息,才能獲得真正有價值的數據,從而基于大數據做出更加科學的決策,數據挖掘(DataMining)則正是完成這一過程的手段,其實現步驟如圖1所示[9]。當前,數據挖掘主要手段有關聯規則分析、聚類分析、分類分析、預測、時序模式和偏差分析等,以下對本文主要涉及的關聯規則分析及其常用的Apriori算法進行介紹。
1.2關聯規則分析
在大數據時代,大量看似雜亂無章、無律可循的數據背后往往存在著深層的潛在聯系,把從大量數據中尋找各數據之間的關聯或依賴關系的技術稱為關聯規則分析(AssociationAnalysis)。關聯規則分析的基本原理如下[10]:記D={t1,t2,…,tk,…,tn}為待挖掘的數據集合,記tk={i1,i2,…,im,…,ip},(k=1,2,…,n)為事務,其中im(m=1,2,…,p)為項,定義X為項集,其支持數定義為數據集D中包含項集X的事務數,記為σx,X的支持度記為support(X)。 式中,|D|為數據集D中的事務數,定義最小支持度閾值為minsup,當support(X)≥minsup時,稱X為頻繁項集,反之稱X為不頻繁項集[11]。記X和Y是數據集D中的項集,若存在XY,則support(X)≥support(Y),如果X為不頻繁項,則Y也為不頻繁項,如果Y為頻繁項,則X也為頻繁項。如果項集X∩Y=,則XY稱為關聯規則,X為關聯規則的前提,Y為關聯規則的結論,其支持度即為X∪Y的支持度,記為support(XY),令關聯規則XY的置信度為confidence(XY),則有關聯規則XY的置信度計算見式(2)所示[12]:定義最小置信度閾值為minconf,如果XY的關聯規則中滿足support(XY)≥minsup,且confidence(XY)≥minconf,則認為關聯規則XY是強規則,否則為弱規則[13]。數據挖掘過程中,目標是尋找出暗藏于數據集D中的全部強關聯規則,也就是尋找關聯規則XY相應項集的頻繁項目集。由圖2可見,基于關聯規則分析的數據挖掘就是通過兩種算法交互挖掘出用戶設定的最小支持度和最小可信度的集合的過程。
1.3關聯規則
Apriori算法Apriori算法是首先限定待選項集的規模大小,然后對數據庫進行掃描和計算并確定待選項集是否得以頻繁使用[14]。其實現過程如下:①掃描數據庫,分析每個項目出現的次數,生成1-候選集C1;②給出基于用戶預先設定的最低支持度1-頻繁集L1;③連接運算生成2-候選集C2,其中C2=L1*L1;④給出基于用戶預先設定的最低支持度2-頻繁集L2;⑤統計計算過程時C2中每個元素出現的次數;⑥將步驟①~⑤重復k次,用Lk-1連接得到Ck=Lk-1*Lk-1,且Ck=則停止計算;⑦利用Lk-1連接得到Ck,由于其子集是不頻繁項集,所以(k-1)-項集均非頻繁集,對其予以修剪或刪除。
2高校圖書管理系統中的數據特征
圖書管理員和讀者是高校圖書管理系統的兩大使用者,管理員只有與讀者建立起足夠多的聯系和互動,才能更好地獲知讀者對圖書的需求,了解了讀者的需求,才能進一步優化圖書館內書籍的種類及數量,減少資源浪費,提高圖書館服務功能。一旦高校圖書館建立,館藏勢必將會不斷增加,圖書管理的規模也隨之增大,圖書管理的數據在逐步增大的同時,還將呈現出如下特征:①數據信息的龐雜性:讀者檢索、閱讀和管理員對圖書進行管理的過程中,都會生成大量的數據,同時,學生作為高校圖書館的主要使用者,在校時間也是非常有限的,每年圖書館都會有新用戶加入和老用戶退出,這也就意味著圖書管理的數據將會不斷增加;②信息關系的隱晦性:海量數據的堆積會遮蓋既有數據背后真正的規律性,只有借助于有效的算法對體量龐大的數據進行合理的分析和處理,才能發掘出其內部所蘊藏的更有價值的信息;③信息之間的關聯性:用戶自身信息和其對圖書的檢索信息之間會有一定的關聯性,但這一關聯性是比較淺顯的,在理解海量數據潛在性的基礎上,發掘出數據背后真正有價值的信息,才能進一步尋找到數據之間的關聯性,并在具有足夠深度的關聯性的支持下,更好地完成圖書管理工作。圖書管理數據信息的龐雜性、信息關系的隱晦性以及信息之間的關聯性對圖書管理員與用戶之間的聯系提出了更高的要求,而傳統的圖書管理辦法無法建立這種強烈、高效、精確的聯系,這為數據挖掘技術在圖書管理系統中的應用提供了舞臺。
3圖書管理中數據挖掘的需求
本文所研究的高校圖書管理中數據挖掘主要有“數據預處理”、“關聯數據挖掘”和“模型可視化分析”三個層次,在數據挖掘過程中,我們主要關注“讀者借閱行為模式分析”、“管理員個性化服務工作”以及“文獻排架管理工作”[15]。
3.1數據挖掘的層次結構
高校圖書管理中數據挖掘層次結構主要內容如圖3所示。①數據預處理階段即為數據收集階段,首先從圖書管理系統的數據庫中對生成的數據進行轉換和集成,其次將集成的數據導出為數據挖掘系統可使用的格式,再次將轉換過格式的數據保存至圖書管理數據挖掘庫中;②關聯規則挖掘階段,基于關聯規則和適當的算法(如Apriori算法),對第一階段準備好的圖書管理數據進行挖掘處理;③模型可視分析階段,首先確定數據挖掘目標為圖書借閱行為、個性化服務以及文獻排架,然后選定圖書管理挖掘任務參數,對圖書管理數據進行挖掘處理,最后輸出可視模式規則。
3.2數據挖掘的需求
①借閱行為模式分析:首先,根據讀者的檢索記錄、借閱習慣和要求等,對讀者群進行分析,獲得書籍在讀者群中受歡迎程度;其次,結合讀者身份信息以及檢索和借閱信息,對讀者群體的特征進行分析,并借助于聚類數據獲取讀者的檢索和借閱行為規則;②個性化服務工作:首先,對讀者身份信息與其檢索和借閱記錄之間的關聯關系進行分析,研究不同讀者的具體需求,為讀者提供個性化服務創建數據支持;然后分析不同讀者對不同類型書籍的借閱時間和借閱順序,分析讀者的閱讀習慣,為圖書館合理安排圖書布局和在不同時間段內向讀者提供適當的圖書提供數據支持。③圖書館文獻排架分析:在對借閱行為模式分析和個性化服務工作的基礎上,通過數據挖掘技術對不同圖書的受歡迎程度和不同圖書的被借閱記錄等進行分析,為圖書館文獻排架的合理布設和圖書利用率的提高提供數據支持,
4數據挖掘技術在圖書管理中的應用
本文以某高校圖書館為例,該高校建成于1952年,現有在校生2.3萬余人,圖書館館舍面積共計41765m2,截止2017年年末,館藏圖書總量369.98萬冊,其中紙質圖書243.26萬冊,電子圖書126.72萬冊,中外文數字資源122個。從該高校圖書管理系統中節選出部分讀者借閱信息作為示例,如表1所示,其中,“Y”表示該書借出,“N”表示該書未借出。由表1所示的圖書借閱記錄,我們可以得出如下結論:①讀者在圖書館借閱時,不同的書籍之間也存在著較強的關聯性,如借閱《python基礎教程》的讀者同時會對《數據挖掘導論》和《數據挖掘概念與技術》比較感興趣,而且《線性規劃》的讀者往往也會借閱《組合數學》和《MATLAB寶典》;②不同讀者對不同書籍的需求是不相同的,由于圖書館中任意一本書籍的館藏數量有限,所以對頻繁書籍的挖掘對圖書館內書籍館藏數目的優化是至關重要的。經分析生成的頻繁書籍和數據挖掘結果如表2所示。由表2所示頻繁圖書及數據挖掘結果,可以得出如下結論:①不同書籍之間的信任度均高于75%,可見同一讀者確實會借閱某一類型的書籍以完善自身在這方面的知識體系,對這些知識體系有關聯的書籍的借閱數據進行充分挖掘有助于圖書館館藏書籍種類和數目的完善;②由于圖書館對每一本書籍的免費借閱時長有所限制,導致了書籍間支持度較低的現象(樣本書籍的支持度均低于10%),因此,對高校圖書借閱數據挖掘過程中應更加密切關注“信任度”指標。
5結束語
本文從數據挖掘技術的介紹入手,對高校圖書管理系統中數據的特征進行了總結,對圖書管理中數據挖掘的層次結構和數據挖掘需求進行了介紹,最后以我國東北某高校圖書館為例,對數據挖掘技術在我國高校圖書信息化管理中的應用進行了驗證,結果表明:經過數據挖掘所得的結果與現實中讀者借閱所需書籍的結果較一致。因此,在圖書館現代化信息管理中,應用數據挖掘技術可以更好地為圖書館信息化管理提供數據支持,優化圖書館書籍種類和數目,提升圖書館的服務質量,更好的為讀者服務。
作者:薛健 單位:北京師范大學珠海分校