美章網(wǎng) 資料文庫 用戶日志的相關(guān)搜索研究范文

    用戶日志的相關(guān)搜索研究范文

    本站小編為你精心準備了用戶日志的相關(guān)搜索研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

    用戶日志的相關(guān)搜索研究

    《信息技術(shù)雜志》2015年第二期

    1基于用戶日志相關(guān)搜索模型

    1.1基本思想搜索引擎查詢?nèi)罩局械膕ession是指某一用戶為了檢索到某個信息,而在一段時間內(nèi)采取的連續(xù)搜索行為{Q1,Q2,Q3,…}。在以往平臺使用的相關(guān)搜索中,因為考慮到用戶使用的檢索條件多為關(guān)鍵字的形式(這里將查詢條件中,一個查詢詞組或者查詢字定義為一個關(guān)鍵字),所以仍然使用的方式是關(guān)鍵字和文本信息相匹配的方法[4]。本文的背景是研究合適某集團業(yè)務(wù)使用的設(shè)計實現(xiàn),該套系統(tǒng)不僅針對公眾開放,同時設(shè)計也需滿足內(nèi)部客服員工的使用。對于集團內(nèi)部的使用就對設(shè)計有了特殊要求,比如:客服員工在接受問詢的時候可能會很迅速地改變查詢目標,這就使得Session的劃分很難按照常規(guī)的時間方法來實現(xiàn)。Jansen,D.He在實驗中取得,當時間在10分鐘~15分鐘之間的時候,劃分Session,Session內(nèi)包含的信息趨于穩(wěn)定,這是一個合適的臨界取值區(qū)間。但這并不適用本文的狀況。根據(jù)實際情況嘗試將Ses-sion時間劃分碎片化,將所有日志信息分割為微小單位,建立得到相關(guān)搜索的擴展集合。在擴展集合的基礎(chǔ)上為用戶提夠檢索推薦[5]。

    1.2模型描述首先要清楚初始數(shù)據(jù)的關(guān)聯(lián)關(guān)系,現(xiàn)在用一個查詢關(guān)系圖來描述這些待用關(guān)鍵字。關(guān)鍵字既有的關(guān)系:Rq=<Wq,Eq>是用來描述查詢內(nèi)容。Wq是用戶生成的查詢關(guān)鍵字集合{w1,w2,w3,…},Eq={e}是有向邊的集合,它代表關(guān)鍵字wi→wj的聯(lián)系。同時有v反映關(guān)鍵字wi→wj邊的關(guān)聯(lián)價值,也是對e的評價。根據(jù)Session的特點,已經(jīng)知道在同一Session下看作是同一用戶的操作行為。用戶在發(fā)送檢索需求時,并不能兩到三次的檢索行動就一定達到目標需求。所以,這過程中,用戶可能發(fā)生多次對關(guān)鍵字的修正,將這形象的比作為一個沿著從零開始的時間鏈條單方向行為。最終建立的擴展集合是總結(jié)所有用戶發(fā)生的單方向鏈條,所以其他用戶在檢索一個目標時,可能是從其他用戶的非零時間切入,這就使得整體查詢關(guān)系圖變的交織復(fù)雜。這對建立可擴展集合很不利。本文需要發(fā)現(xiàn)并建立清晰明了的關(guān)鍵字關(guān)系,所以將復(fù)雜的檢索關(guān)系切割,讓它們成為唯一的關(guān)系對,而不是關(guān)系鏈條。因為本文是面向領(lǐng)域?qū)R坏募瘓F業(yè)務(wù),所以數(shù)據(jù)量的大小是一個可承受條件。本文將得到的唯一關(guān)系對表述為Relate=<Query1,Query2>,在描述這對關(guān)系的時候,需要加上一些必要的注釋因子,將這些注釋因子看作關(guān)系對的屬性,所以關(guān)系對可以表示為Relate=<Query1<Query2,Object>>,這里的Object是這對關(guān)系的注釋因子[6]。這個表達式是本文對唯一關(guān)系對進行處理和表達方式。圖1是表示相關(guān)詞對處理形式。

    1.3擴展集合規(guī)則設(shè)立依據(jù)實際需要,需要設(shè)定一個對現(xiàn)實需求有幫助的Session時間劃分閾值[7],在經(jīng)過人們對集團用戶使用習慣的統(tǒng)計分析,設(shè)定15秒的閾值為所需要的合適Session時間劃分。在馬爾科夫模型中,在給定當前知識或信息的情況下,過去的歷史狀態(tài)對于預(yù)測將來狀態(tài)是無關(guān)的。現(xiàn)在有隨機變量的數(shù)列X1,X2,X3,…,這些變量的范圍,即他們所有可能取值的集合,Xn的值則是在時間n的狀態(tài),在一定時間閾值內(nèi)發(fā)生的狀態(tài)偏移也是連續(xù)的,Xn+1是在時間n+1的狀態(tài),Xn+1不僅在時間上,在相關(guān)性上也是Xn的一個延續(xù)[8]。如此就知道了需要建立的可擴展集合的外部狀態(tài),在每次獲取用戶的關(guān)鍵字同時,本文會獲取的信息包括SessionID,關(guān)鍵字發(fā)生時的時間Time(t),用戶點擊的URL。設(shè)定了擴展集合的時間準入,即它的Session時間閾值。因為用戶日志的數(shù)據(jù)量巨大,必須對它繼續(xù)篩選。我們設(shè)定了一系列的度量值。或者wi''''∩wj''''不為空,顯示是用戶對關(guān)鍵字的替換修正。這兩種修正關(guān)系表示關(guān)鍵字間是有價值的。此時的μ標記初始設(shè)置為1。當μ>0時,認為它符合我們數(shù)據(jù)的有意義要求,是有價值的。

    1.4關(guān)鍵字權(quán)重設(shè)定在建立的擴展集合,不但需要使用模型的關(guān)鍵字對,同時需要每個關(guān)鍵字的屬性描述,既是前文講到的Object[10]。此時,要考慮的是如何反應(yīng)這些關(guān)鍵字的關(guān)聯(lián)強弱,也是影響它反應(yīng)給用戶的排名權(quán)重,本文將權(quán)重記為K。在Object屬性中有一個描述是heat。它的作用是標記用戶日志中發(fā)現(xiàn)該條數(shù)據(jù)的重復(fù)程度,在權(quán)重公式中記為h。反映檢索相關(guān)程度的權(quán)重公式:例如:在擴展集合中有<q0,q1><q0,q2>,q1屬性heat為10,ε為5,q2屬性heat為15,ε為8。這個時候它們的權(quán)重就分別為1.7333和2.1333。權(quán)重數(shù)值較高的關(guān)鍵字選項q2在展示結(jié)果中會排列在q1前面。基于用戶日志的可擴展集合生成流程步驟如下:Step1在接收到用戶每一個檢索需求時,記錄下用戶提交的信息,封裝為一個對象。Step2將對象逐次入隊列操作,同時對隊列進行出隊列操作。在出隊列操作時要經(jīng)過建立的中間字典篩選。在中間字典中要判斷有無該條ses-sionid數(shù)據(jù),沒有新存入;有,則判斷λ,μ。Step3在判斷λ合法性時,不符合要求新存入中間字典,刪除原有中間字典中對應(yīng)數(shù)據(jù)。全部符合要求的數(shù)據(jù)到擴展集合中,重復(fù)的改變原有數(shù)據(jù)的heat值,不重復(fù),進行新存入集合操作。在屬性描述中的屬性heat和增加新數(shù)據(jù)時候,都要求作下標記留作以后入庫時候的增量更新使用。Step4在中間字典中,數(shù)據(jù)的合法性時間都很短,但它在內(nèi)存中數(shù)據(jù)量是一個無限增長的過程,所以設(shè)定十分鐘對它進行一次清理操作,保持系統(tǒng)的輕巧性。在每天用戶操作較少時刻,進行定時操作,將數(shù)據(jù)分析存入文本和數(shù)據(jù)庫。

    2實驗結(jié)果

    為了驗證本文系統(tǒng)設(shè)計的有效性,我們將設(shè)計完成的系統(tǒng)和原有未經(jīng)優(yōu)化改進的集團檢索系統(tǒng)進行性能對比。本文沒有采用集團公司的語料進行測試,而是在網(wǎng)絡(luò)取網(wǎng)易,新浪和搜狐等知名中文門戶網(wǎng)站信息,抓取10000個文檔,建立索引測試。測評系統(tǒng)的性能標準,實驗為系統(tǒng)設(shè)定了兩個評價標準。一個是精確率(Precision),另一個是召回率(Recall)。由于研究已表明一般用戶查看檢索結(jié)果時主要查看系統(tǒng)提供的前兩頁,以及本系統(tǒng)設(shè)計的特性,本實驗通過分析返回結(jié)果的前20條記錄來評價查準率。召回率實驗通過人工標記的辦法,對兩個系統(tǒng)分別測試,并進行比對比較。實驗選取10組相同的檢索詞條檢索返回結(jié)果評定精準率。由圖2可看得出原有的系統(tǒng)性能精確度平均值為0.575,而優(yōu)化后的系統(tǒng)在該指標上的平均值為0.803。優(yōu)化改進的系統(tǒng)比原有的系統(tǒng)在Precision指標提高了36.9%。從實驗結(jié)果可以看出指標Recall有很大提升,圖3顯示查全率從0.729提升到0.871,提升了19.4%。總體而言,經(jīng)過本文的優(yōu)化和改進,明顯的提高了原有使用系統(tǒng)的性能。

    3結(jié)束語

    在實驗過程中發(fā)現(xiàn)系統(tǒng)才開始啟用的時期存在一個問題,即用戶日志的數(shù)據(jù)量不足產(chǎn)生的影響。這將使本文的模型建立和運用無法得到最好的效果,此時可以結(jié)合局部文檔相關(guān)反饋技術(shù)的方法,在文檔集上建立相應(yīng)的文檔擴展集合,根據(jù)一定的排名方法,將兩個擴展集合中的關(guān)鍵字,按照一定比例鏈接起來,提交給用戶做相關(guān)搜索使用[11]。在系統(tǒng)逐漸成熟時,可以考慮建立單一的模型,供用戶在使用中選取合適的相關(guān)推薦。本系統(tǒng)運行結(jié)果的相關(guān)達到率達到了一定精度,特別是本文建立在基于用戶日志上的擴展集在建立的過程中,有自己的篩選辦法。本文分析數(shù)據(jù)相關(guān)性程度達到需求時,就可以推斷這是一個穩(wěn)定結(jié)果良好的相關(guān)搜索檢索方式。

    作者:史杰施恒利楊輝單位:江蘇科技大學計算機科學與工程學院

    精品推薦
    主站蜘蛛池模板: 深夜福利一区二区| 久久国产免费一区二区三区| 手机看片一区二区| 国产欧美一区二区精品仙草咪| 内射少妇一区27P| 亚拍精品一区二区三区| 国产亚洲情侣一区二区无码AV| 精品视频在线观看一区二区| 精品人妻AV一区二区三区 | 亚洲精品日韩一区二区小说| 波多野结衣免费一区视频| 国产高清在线精品一区二区| 福利一区在线视频| 国产一区二区三区不卡在线看| 亚洲av乱码中文一区二区三区| 精品一区二区三区在线播放视频| 亚洲乱色熟女一区二区三区丝袜 | 日韩一区二区三区视频| 精品亚洲福利一区二区| 亚洲AV无码一区二区乱子仑| 亚洲一区二区在线视频| 无码一区二区三区免费| 无码囯产精品一区二区免费| 久久91精品国产一区二区| 亚洲av不卡一区二区三区| 日韩精品在线一区二区| 精品视频无码一区二区三区| 乱精品一区字幕二区| 国产99久久精品一区二区| 亚洲av乱码中文一区二区三区 | 亚洲一区精品伊人久久伊人| 日韩精品人妻av一区二区三区| 国产av夜夜欢一区二区三区| 在线|一区二区三区| 福利片免费一区二区三区| 三上悠亚一区二区观看| 中文字幕一区日韩在线视频| 亚洲一区二区三区在线观看精品中文| 国产一区二区免费视频| 日日摸夜夜添一区| 加勒比精品久久一区二区三区|