美章網(wǎng) 資料文庫 中文微博熱點話題挖掘范文

    中文微博熱點話題挖掘范文

    本站小編為你精心準備了中文微博熱點話題挖掘參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

    中文微博熱點話題挖掘

    《統(tǒng)計與信息論壇雜志》2014年第六期

    一、相關(guān)理論

    (一)話題檢測與跟蹤技術(shù)TDT作為一種主題檢索技術(shù),其特點主要在于關(guān)注與特定事件主題相關(guān)的數(shù)據(jù)。傳統(tǒng)的檢索技術(shù)是從內(nèi)容來檢索、確定文檔的分類,而TDT技術(shù)是基于事件,利用分析文檔與事件主題聯(lián)系來獲取特定主題信息,它從來源數(shù)據(jù)流中自動發(fā)現(xiàn)主題并把與主題相關(guān)的內(nèi)容聯(lián)系在一起。TDT的研究任務(wù)主要包括五部分:對新聞廣播等報道進行切分(報道切分),檢測未知話題(話題檢測),跟蹤已知話題(話題跟蹤),檢測未知話題首次相關(guān)報道(首次報道檢測)以及檢測報道間相關(guān)性(報道關(guān)聯(lián)性檢測)[7]。

    (二)中文分詞及詞性標(biāo)注中文分詞就是將漢字序列切分成有意義的詞,以字為單位,句和段則通過標(biāo)點等分隔符來劃界。目前主流的中文分詞算法分為四類:基于字符串匹配的分詞,基于理解的分詞,基于統(tǒng)計和基于語義的分詞[8]。詞性標(biāo)注是根據(jù)句子上下文環(huán)境給句中的每個詞標(biāo)記一個正確的詞性,主要是機器針對多標(biāo)記詞(即有多種詞性的詞)和未登錄詞(即在訓(xùn)練語料中未出現(xiàn)的詞)標(biāo)記詞性。詞性標(biāo)注技術(shù)與分詞技術(shù)一樣,在自然語言處理、機器翻譯、文本自動檢索及分類、文字識別、語音識別等實際應(yīng)用中占有重要地位[5]。目前比較典型的標(biāo)注算法歸納起來有:基于規(guī)則的方法,基于統(tǒng)計的方法,規(guī)則與統(tǒng)計相結(jié)合的方法。本文選用的是規(guī)則與統(tǒng)計相結(jié)合的方法。

    (三)向量空間模型向量空間模型(VectorSpaceModel,VSM)是一個應(yīng)用于信息過濾、信息擷取、索引評估相關(guān)性的代數(shù)模型,文本分析對象通常是以詞為單位的VSM數(shù)據(jù)[9]。運用這個模型把文本表示為向量,就可以將文本處理簡化為向量空間中的向量運算。當(dāng)文檔轉(zhuǎn)化為向量時,文檔中每個詞對應(yīng)向量的每個特征項維度,所有文檔中的詞所對應(yīng)的維度構(gòu)成了整個空間,而特征權(quán)重則是每個詞對應(yīng)每一維的取值,于是,一個文檔Dj轉(zhuǎn)化為特征向量Dj可表示為:其中tij是特征項,wij是特征權(quán)重,M是文本tij中的特征項總數(shù)。另外,文本中作為特征項的詞不能重復(fù),即各特征項tij互異,且文本的內(nèi)部結(jié)構(gòu)不需要考慮,因此特征項tij無先后順序。

    (四)K-means文本聚類K-means算法以歐式距離作為相似性的評價指標(biāo),即認為兩個對象的距離越近,其相似度就越大,得到緊湊且獨立的簇是聚類的最終目標(biāo)。K-means算法中距離的計算公式如下:第一步,從數(shù)據(jù)對象中任意選擇K個對象(K值需要預(yù)先設(shè)定)作為初始聚類中心。第二步,計算剩下的對象與這些聚類中心的相似度(距離),并分別將它們分配給最相似的(聚類中心所代表的)類。第三步,重新計算每個新類的聚類中心(該聚類中所有對象的均值)。第四步,不斷重復(fù)第二、三步,直到標(biāo)準測度函數(shù)開始收斂為止,一般采用均方差作為標(biāo)準測度函數(shù)。該算法在處理大數(shù)據(jù)集時是相對高效和可伸縮的,計算的復(fù)雜度為ON(kt),其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)(一般K≤N,t≤N,同時算法對順序不太敏感,因此較適合對VSM表示的文本集進行聚類。本文聚類效果的驗證采用類平均相似度,公式為:其中AVGT()SIM表示類T的平均相似度;CT表示類T所包含的微博條數(shù);ft(avg(sim))表示類T中單條微博文t的個體平均相似度,即t與類T中其余微博文的相似程度之和取平均值。將類中所有微博文的個體平均相似度之和取一次平均值,從而得到類的平均相似度。

    二、研究設(shè)計

    (一)識別流程本文基于TDT技術(shù)設(shè)計出中文微博熱點話題識別流程,主要環(huán)節(jié)如圖1所示。首先通過微博爬蟲系統(tǒng)獲取所需的數(shù)據(jù),如微博內(nèi)容、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、受眾數(shù)等;接著從獲取數(shù)據(jù)中提取話題識別的數(shù)據(jù)源,利用中文分詞處理過濾數(shù)據(jù);對預(yù)處理后的微博內(nèi)容中的每個特征詞,利用特征詞權(quán)值計算方法TF-IDF(TermFrequency–InverseDocumentFrequency)計算特征權(quán)重并建立向量空間模型,再利用K-means文本聚類來歸納出多個話題;最后對多個話題的影響力進行計算并分析,通過效果驗證識別出熱點話題。

    (二)熱點判定———話題影響力設(shè)計本文基于微博特點和話題本身,提出熱度的判定因素———話題影響力。微博熱點話題影響力為該話題中單條相關(guān)微博內(nèi)容的影響力總和,單條微博內(nèi)容的影響力又分為直接影響力和間接影響力。由于用戶發(fā)表的微博文直接呈現(xiàn)給關(guān)注該用戶的受眾,因此單條微博的直接影響力與該條微博用戶的關(guān)注人數(shù)(受眾數(shù))相關(guān)[10]。本文此處只考慮微博評論數(shù)與第一層的轉(zhuǎn)發(fā)數(shù)。定義話題影響力相關(guān)計算公式如下:其中Inf()T為話題T的影響力;n為該類中與話題相關(guān)的微博條數(shù);Inf()t為單條相關(guān)微博內(nèi)容t的影響力。一個話題的影響力為話題中所包含的所有相關(guān)微博內(nèi)容影響力之和。其中InfD()t為單條相關(guān)微博內(nèi)容t的直接影響力;InfI()t為單條相關(guān)微博內(nèi)容t的間接影響力。單條微博的影響力為直接影響力與間接影響力之和。題T的影響力為:

    三、實證分析

    本文實驗數(shù)據(jù)隨機選取了2011年12月8日到2011年12月14日這7天內(nèi)的微博數(shù)據(jù),通過新浪微博API接口共爬取微博內(nèi)容2103條。根據(jù)研究設(shè)計的熱點話題挖掘流程,對該周內(nèi)新浪微博熱點話題挖掘進行實證研究。

    (一)數(shù)據(jù)預(yù)處理首先對微博內(nèi)容進行文本預(yù)處理,即進行去重、分詞、無效信息過濾、降維等操作。實驗中使用C#版本的中科院ICTCLAS中文分詞系統(tǒng)對微博文本進行分詞處理,同時標(biāo)注詞性,并過濾微博內(nèi)容,保留名詞及名詞性詞語,然后將所有的單字過濾,再去除所有的英文字符、數(shù)字和一系列數(shù)學(xué)符號等非中文詞,只留下有意義的中文詞語。圖2為關(guān)于“2012年倫敦奧運會期間英國女王出租宮殿套間”話題文本示例。

    (二)話題識別文本預(yù)處理后,針對每條微博內(nèi)容,利用特征詞權(quán)值計算方法TF-IDF計算各個單詞權(quán)重,以構(gòu)成一個向量空間模型用于聚類。實驗中,K值在最大值范圍內(nèi)通過多次實驗結(jié)果驗證來選取。經(jīng)過多次試驗,最終將該周的微博內(nèi)容聚為10類,并對各類進行類關(guān)鍵詞提取,結(jié)果如表1所示。以上10類中,所提取的關(guān)鍵詞具有較強實時性的有6個,關(guān)鍵詞所包含信息較為日常的類有4個。此時若設(shè)置類平均相似度閾值為0.01,則恰好包含較強實時信息的6個類別。將類平均相似度高于閾值且包含較強實時信息的類定義為一個話題,則從微博內(nèi)容中發(fā)現(xiàn)話題數(shù)目為6個,分別為類3、4、6、7、8、10。

    (三)話題影響力排序大多關(guān)于熱點發(fā)現(xiàn)的算法認為,在聚類后出現(xiàn)的熱點詞頻率較高,則該話題即為熱點話題。這種原理是基于熱點詞與話題的附屬關(guān)系,但卻忽略了當(dāng)話題較分散的情況下聚類也能進行,同時在聚類結(jié)果中,可能有些話題只是局部較熱的小話題,整體來講算不上熱度很高[11],因此可以設(shè)置一個閾值來區(qū)分話題冷熱,話題熱度(本文中以話題影響力來衡量)高于閾值則表示聚類出來的話題為“熱點話題”,低于閾值則視為“非熱點話題”。熱點與非熱點的概念是相對的,因此也可以根據(jù)話題影響力公式計算出每個話題的熱度,然后按照熱度分數(shù)排序,分數(shù)越高表示話題影響力越大,熱度越高。實驗中,挖掘熱點話題的數(shù)據(jù)來源時間段Δh為2011年12月8日至2011年12月14日。由于實驗中發(fā)現(xiàn)話題的總數(shù)較少,故本實驗不以預(yù)先設(shè)定話題影響力閾值來劃分“熱點”與“非熱點”,只將話題按影響力大小排序,即設(shè)定所發(fā)現(xiàn)話題均為熱度不同的熱點話題。根據(jù)話題影響力相關(guān)計算公式(4)~(8),計算得到實驗中所提取的6個話題在當(dāng)前時段的影響力評分及排名,如表2所示。考慮到微博轉(zhuǎn)發(fā)會使微博的影響擴散,相對于評論其影響力更大,因此公式(8)中α取值為0.4,β取值為0.6.從以上分析結(jié)果可以看出,在實驗識別出的2011年12月8日到2011年12月14日的6個話題中,影響力從大到小依次是江蘇豐縣校車事故、南京大屠殺紀念日、韓國海警被刺事件、電影《金陵十三釵》即將上映、廣東陸豐烏坎村群體事件、雙子座流星雨爆發(fā)。

    (四)效果驗證話題識別與跟蹤的效果一般使用準確率和召回率兩個參數(shù)來衡量,公式如下:A表示已提取出的與話題相關(guān)內(nèi)容,B表示已提取出的與話題不相關(guān)內(nèi)容,C表示未提取出的與話題相關(guān)內(nèi)容。在全部文本數(shù)據(jù)中,與話題相關(guān)的數(shù)目為A+C,而被判定與話題相關(guān)的數(shù)目為A+B。召回率和精度是不可能兩全其美。當(dāng)召回率較高時,精度反而降低;反之精度高時,召回率就會有所降低。因此,本文用這兩個度量值融合而成的一個度量值F來衡量這個效果。F值公式如下:實驗以“召回率”、“準確率”驗證熱點話題發(fā)現(xiàn)效果,根據(jù)公式(9)、(10)、(11)計算出每個話題的召回率與準確率,如表3所示。從表3可以看出,6個熱點話題召回率從高到低依次為:韓國海警被刺事件,江蘇豐縣校車事故,南京大屠殺周年紀念,雙子座流星雨,陸豐烏坎村群體事件,電影《金陵十三釵》話題,各類話題召回率均較高。相反,各類話題準確率均較低,最高為雙子座流星雨,僅為0.769,最低為廣東陸豐群體事件,僅為0.641。聚類準確率低與微博內(nèi)容零散、談?wù)撛掝}范圍極其廣泛有關(guān),即話題聚類時噪聲數(shù)據(jù)太多,導(dǎo)致β值較大。實驗表明微博熱點話題發(fā)現(xiàn)的“召回率”較高而準確率較低,這與微博內(nèi)容的不規(guī)范性、隨意性等特點有關(guān)。從綜合衡量召回率和準確率的F值來看,熱點識別取得了良好的效果。盡管微博內(nèi)容存在一定的不規(guī)范和隨意性,但從實證分析中可以看到,聚類所選取出的6類熱點話題F值均保持在0.75以上。

    四、結(jié)論

    本文借鑒TDT技術(shù),設(shè)計了一套中文微博熱點話題挖掘流程,并利用一段時間內(nèi)的少量新浪微博數(shù)據(jù)進行熱點發(fā)掘?qū)嵶C研究。該流程可以使微博站點外部用戶利用少量微博數(shù)據(jù)便能挖掘微博熱點,以滿足其監(jiān)控輿情或發(fā)現(xiàn)商機的需要。本文主要的創(chuàng)新工作有以下兩點:第一,將識別熱點話題的主流技術(shù)TDT運用于中文微博平臺,同時還在流程設(shè)計中結(jié)合了中文微博的特性。第二,微博平臺往往以單一的微博數(shù)量指標(biāo)來衡量話題熱度,而本文則提出了以話題影響力的大小來評判話題熱度。由于新浪爬蟲程序爬取的數(shù)據(jù)有限,因而本文僅限于對能收集到的數(shù)據(jù)進行研究,實證結(jié)果難免有一定的局限。另外,微博內(nèi)容較雜亂,噪聲信息較多,話題聚類效果也有待提高,因此相關(guān)聚類算法的改進也是未來研究的方向。話題影響力驗證方法還需完善,后期可以對熱點話題進行動態(tài)跟蹤,以發(fā)現(xiàn)熱點話題的整體趨勢變化。

    作者:何躍帥馬戀馮韻單位:四川大學(xué)商學(xué)院

    主站蜘蛛池模板: 91无码人妻精品一区二区三区L| 日产一区日产2区| 一区二区三区无码高清视频| 在线精品国产一区二区三区| 久久久久人妻一区精品| 亚洲日韩国产一区二区三区| 亚洲国产综合无码一区二区二三区 | 精品亚洲AV无码一区二区三区| 久久人妻内射无码一区三区| 91video国产一区| 久久久久久人妻一区二区三区| 成人精品一区久久久久| 亚洲国产一区视频| 91成人爽a毛片一区二区| 国产精品久久一区二区三区| 国产精品无码一区二区三区免费| 精品伦精品一区二区三区视频 | 亚洲熟妇无码一区二区三区导航| 亚洲精品日韩一区二区小说| 日本一道一区二区免费看| 国产一区二区三区高清视频| 无码AV中文一区二区三区| 亚洲av日韩综合一区久热| 激情爆乳一区二区三区| 日韩人妻一区二区三区免费| 日韩人妻一区二区三区免费 | 日韩精品一区二区三区不卡 | 精品国产一区二区三区久久| 亚洲AV无码一区二区三区性色| 日本一区二区三区中文字幕| 日韩精品一区二区亚洲AV观看| 亚洲AV无码一区二区乱子仑| 日韩精品一区二区午夜成人版| 国产日韩AV免费无码一区二区| 亚洲av色香蕉一区二区三区| 亚洲视频在线一区二区| 亚洲综合激情五月色一区| 国产伦精品一区二区三区视频猫咪| 国产精品视频一区二区三区| 国产日韩AV免费无码一区二区三区| 国产日韩一区二区三区|