前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)社交媒體的應(yīng)用文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。
近年來,市場營銷被賦予了新一層涵義:開發(fā)并滋養(yǎng)利益相關(guān)者之間的關(guān)系。
從市場營銷發(fā)展的歷程來看,我們是從工業(yè)經(jīng)濟中以生產(chǎn)為主導(dǎo)的年代,發(fā)展到服務(wù)經(jīng)濟以市場營銷為引導(dǎo)的年代。在以生產(chǎn)為主導(dǎo)的年代,人們更強調(diào)市場營銷中銷售的角色。但現(xiàn)如今,市場營銷決不單單是銷售或是做廣告那么片面。
很多中國公司保留著一些老觀念,比如,由于勞動力低廉,中國制造就意味著便宜。其實,在全球市場中有個來源國效應(yīng),而中國產(chǎn)品所產(chǎn)生的來源國效應(yīng),就是“低質(zhì)量”和“低價格”。所以,中國公司的管理層需要認識如何去建立一個品牌,一個人們信任的品牌。
在一些特殊領(lǐng)域中,有些中國品牌還是做得很不錯的。像“上海灘”,它利用了文化審美上的一些優(yōu)勢,在奢侈品市場上詮釋出什么是美,什么是時尚,成功地占據(jù)一席之地。確實,有一些中國公司已經(jīng)通過努力發(fā)展出全球品牌,當然,這需要很大的努力——建立一個品牌需要很長時間,需要投入很多資源,然而毀掉一個品牌只需要一個晚上。這是所有中國公司需要牢記的。
近年興起的社交媒體給更多夢想打入全球市場的企業(yè)家以更多機會。例如:一些中國公司就利用linkedin、facebook 和twitter,把生意逐漸滲透到美國、英國和歐洲大陸。這證明,從整體上看,各類公司對于社交媒體的應(yīng)用正在大幅度進步。
從消費者角度觀察,消費者實際花費在新媒體上和傳統(tǒng)媒體上的時間,之間的平衡點已經(jīng)發(fā)生巨大的變化。但從公司層面觀察,公司劃撥到新媒體上的預(yù)算相較于投放在傳統(tǒng)媒體,如電視、報紙和雜志上的預(yù)算仍有很大差距。再仔細分析,我們會發(fā)現(xiàn):公司花在新媒體上的錢主要是用來直接帶動銷售的。很多公司并沒有用足夠多的錢到社交媒體上去建立產(chǎn)品品牌和公司聲譽。
在如何評估社交媒體的效果上,目前也還有很多問題亟待解決。一個最大的問題是:傳統(tǒng)媒體的評估側(cè)重于到達率和頻率,而新媒體的評估側(cè)重于效率,兩者評估分屬于兩套不同的語言體系。如何把傳統(tǒng)媒體和新媒體放到同一個體系中衡量和評估,是媒體行業(yè)亟解決的問題。我們必須要認識到,相較于顧客通過不同的媒體渠道獲得不同的信息的發(fā)展速度來看,新媒體的研發(fā)仍然太慢,媒體評估的研究目前大大落后于實踐。
另一個重要的問題是:無論是大公司的管理層還是小公司的創(chuàng)業(yè)者,在使用新媒體時通常遵循特事特辦的原則。而新媒體投放都沒有經(jīng)過大型廣告公司的整體戰(zhàn)略部署、整合策劃和循序推進。
值得慶幸的是,目前一批大型4A級廣告公司已經(jīng)建立起自己的整合營銷策劃部門,他們在內(nèi)部調(diào)動各個部門相互協(xié)調(diào),以避免以前新媒體的各個環(huán)節(jié)各自為政,給客戶品牌的一致性所帶來的傷害。要知道,僅僅在facebook上開一個企業(yè)站點和掌握好社交媒體的運用,其中的能力要求是完全不同的。
以前,我們把傳統(tǒng)媒體定義為付費媒體,你付費了,你就能得到你所想要的。但是,目前的社交媒體是自有媒體,只有當你的信息被人們認為有用時,人們才會對它產(chǎn)生興趣——受眾必須喜歡,無論是信息、娛樂還是社區(qū),人們必須看到價值。公司不能強迫觀眾喜歡。所以,社交媒體是不能被控制的!以前的那種靠廣告俘虜觀眾的時代,已經(jīng)不復(fù)存在了。
所以,市場營銷人員在應(yīng)用社交媒體時,需要特別注意營造一個透明的環(huán)境,并建立與顧客之間的相互信任。千萬不能讓顧客覺得他們的個人信息會被用于其他地方。不同的顧客也許來自不同的背景,有些顧客在乎經(jīng)濟,有些顧客在乎信息,對另外一些顧客,價值就意味著遇到“臭味相投”的人等等。所以廣告主需要知道提供什么樣的價值給什么類型的客戶。
摘要:隨著經(jīng)濟的高速發(fā)展,企業(yè)的競爭已經(jīng)漸漸地轉(zhuǎn)化為人才的競爭。招聘工作作為企業(yè)補充優(yōu)質(zhì)人才的主要渠道,不但是組織實現(xiàn)人力資源整合的手段,更是組織為實現(xiàn)可持續(xù)發(fā)展的重要法寶。目前,企業(yè)招聘人員面對的最大挑戰(zhàn)就是如何在招聘量大和預(yù)算有限的情況下,用最快的時間、通過最有效的渠道找到合適的候選人。隨著互聯(lián)網(wǎng)時代的興起和蓬勃發(fā)展及與之帶來的社交媒體應(yīng)用正在潛移默化地影響著人們的生活方式;而這種快速建立人脈關(guān)系的理念和行為為招聘工作帶來了新的曙光。本文首先通過社交媒體的舉例,對其范圍進行了界定,并且介紹了社交媒體作為招聘渠道與傳統(tǒng)招聘渠道存在的差異。然后,通過列舉招聘工作通過社交媒體LinkedIn及微信的實現(xiàn),說明社交媒體除了職位之外對企業(yè)雇主品牌的推廣做出的巨大作用和影響。此外,由于社交媒體的應(yīng)用與傳統(tǒng)招聘渠道的方法不同,企業(yè)對于招聘人員的素質(zhì)和技能要求也發(fā)生了相應(yīng)的變化。隨著社交媒體成為高效招聘渠道的趨勢越來越明顯,其帶來的風險和潛在問題也不容忽視,需要人力資源結(jié)合企業(yè)的業(yè)務(wù)特點和專業(yè)知識提供相應(yīng)的解決方案。
關(guān)鍵詞 :社交媒體 招聘渠道 招聘渠道趨勢
上世紀90年代,企業(yè)招聘的主要方式是在報紙上刊登廣告,然后通過信件的方式收集候選人投遞的紙質(zhì)簡歷。隨著互聯(lián)網(wǎng)時代的到來,前程無憂和智聯(lián)招聘等招聘網(wǎng)站成為各家雇主競爭候選人的主要招聘渠道,我們稱之為招聘的Web 1.0時代;近年來社交媒體的快速發(fā)展,越來越多的雇主開始在微信、微博上建立專屬的招聘賬號來吸引更多的主動和被動求職者。2014年初,隨著國際職業(yè)社交媒體LinkedIn正式進軍中國市場,社交媒體作為招聘的重要渠道引起了所有招聘人員的重視,從而開啟了招聘的Web 2.0時代。
社交媒體是人們彼此之間用來分享意見、見解、經(jīng)驗和觀點的工具和平臺,現(xiàn)階段主要包括社交網(wǎng)站、微博、微信、論壇等等,它具備人數(shù)眾多、自發(fā)傳播的兩大重要特點。與傳統(tǒng)的招聘渠道(例如各類招聘網(wǎng)站、招聘會、獵頭等)相比,基于社交媒體平臺的招聘具有輻射范圍廣、調(diào)動被動候選人、增加雇主和雇員的直接溝通機會的明顯優(yōu)勢,正是因為這些優(yōu)勢,使得困擾招聘人員的招聘信息傳播有限、求職者數(shù)量不足、招聘渠道費用高等問題得到了有效解決,幫助招聘人員能夠主動地接觸到目標候選人群,并最終將他們吸引和融入到公司之中。
與傳統(tǒng)招聘渠道一致,社交媒體的招聘也是以空缺職位并且完成招聘任務(wù)為最終目標。然而社交媒體對于企業(yè)的貢獻和附加值在于,越來越多的企業(yè)已經(jīng)意識到社交媒體可以向目標人群有效地宣傳企業(yè)的雇主價值主張。相比傳統(tǒng)招聘渠道呈現(xiàn)方式的死板和定式,社交媒體的宣傳方法則更加活潑、個性化和具有生命力。通過定制化并且結(jié)合企業(yè)文化的精心設(shè)計,同行業(yè)競爭對手之間的區(qū)別才能得以展現(xiàn)。企業(yè)雇主品牌的展示和推廣同時潛移默化的影響著被動求職者的求職行為,通過企業(yè)歷史、文化、活動、薪酬福利的介紹,可以調(diào)動被動求職者的求職興趣和熱情,最終增加職位的有效投遞數(shù)量。
2014年,國際職業(yè)社交媒體LinkedIn進駐中國市場,取名“領(lǐng)英”。充分利用“六度空間理論”,領(lǐng)英的個人會員可以免費建立自己的職業(yè)檔案,并且聯(lián)系認識或者不認識的會員,以充實自己的職業(yè)人脈。據(jù)統(tǒng)計,領(lǐng)英的會員數(shù)量每秒鐘都在增加,這使得這個職業(yè)社交媒體已成為巨大的招聘人才庫。所以,領(lǐng)英為企業(yè)賬戶的招聘和雇主品牌推廣定制了不同的方案。企業(yè)可以在平臺上建立免費的公司賬戶,定期推送公司的新聞和活動用于積累關(guān)注者。還可以建立職業(yè)界面,用于推廣企業(yè)方的雇主價值主張,介紹目標候選人的標準,空缺職位。同時企業(yè)可以購買招聘人員賬號,以直接搜尋被動候選人的方式進行招聘。
鑒于巨大的微信使用群體,招聘在微信平臺上的應(yīng)用比領(lǐng)英顯得更加高效。企業(yè)方可以用較低的價格申請公共號,無論是第三方或者公司本身都可以進行對官方賬號的設(shè)計和運維。微信招聘的最大優(yōu)勢在于使用簡單方便,無論文章、活動、職位都可以非常快速的發(fā)至朋友圈進行傳播,從而達到最廣泛的傳播范圍。然而,搭載在手機平臺上,受屏幕大小的制約,微信推廣的內(nèi)容則以精簡和優(yōu)質(zhì)為快速獲得關(guān)注者和求職者的關(guān)鍵因素。通過從系統(tǒng)后臺抓取的關(guān)注者和求職者信息,通過數(shù)據(jù)分析,企業(yè)方很容易得到目標人群的聯(lián)系方式,從而進一步增加招聘的成功率。
與被動的等待求職者投遞相比,社交媒體下的招聘環(huán)境要求企業(yè)的招聘人員具備主動尋找和接觸候選人(特別是被動候選人)的能力,與之產(chǎn)生互動,激發(fā)他們的求職熱情,最終達成聘用上崗的目標。面對競爭對手之間激烈的人才爭奪,招聘人員需要具備優(yōu)異的溝通能力,這里的溝通是具有社交式的溝通特點,它的方法根據(jù)溝通對象和溝通渠道的不同而產(chǎn)生巨大地差異。例如,目標人群是大學生或者應(yīng)屆畢業(yè)生,與之溝通的語言和方式多數(shù)是年輕化的,并且主題多結(jié)合當下的流行話題,以這種方式來吸引他們對雇主的關(guān)注和興趣;需要注意的是,如果這種溝通在網(wǎng)絡(luò)上(如微博和微信),使用時髦的網(wǎng)絡(luò)語言也就不足為奇了;如果是在官方的嚴肅渠道上(如官網(wǎng)和LinkedIn),語言的使用需要符合企業(yè)的文化和公關(guān)部溝通指南要求。新環(huán)境下的招聘可以比喻成產(chǎn)品的營銷過程,所有的候選者即為顧客,運用營銷的理念和技能,將手中的職位即商品,以合理地方式銷售給目標人群,使顧客在整個求職過程中有良好的購物體驗,最終達成雙贏的局面。所以,除了已經(jīng)得到企業(yè)認可的招聘人員勝任力模型之外,社交媒體下的招聘要求招聘人員同時具備營銷人員的部門勝任力,充分理解并實踐,才能更好的應(yīng)用社交媒體為招聘帶來的便利。
關(guān)鍵詞:語義標注 社交媒體 信息抽取
中圖分類號: TP311 文獻標識碼: A 文章編號: 1003-6938(2013)05-0095-05
1 引言
社交媒體的數(shù)據(jù)文本短、噪聲大,多為對話,數(shù)據(jù)實時發(fā)生,需要基于時間和上下文的即時分析處理。如何實時、有效和經(jīng)濟地去訪問和集成這些多語言的數(shù)據(jù),是一個嚴峻挑戰(zhàn),目前的各種技術(shù)在準確性、可伸縮性和便攜性方面都有所欠缺。
語義標注把語義模型和自然語言結(jié)合在了一起,可以看作是本體和非結(jié)構(gòu)化或半結(jié)構(gòu)化文檔之間的關(guān)聯(lián)進行雙向動態(tài)的生成過程,從技術(shù)的角度來講,語義標注是通過參照在本體里的URI的元數(shù)據(jù), 從本體(類、實例、屬性或者關(guān)系等)里標注在文本里出現(xiàn)的概念。使用文本里出現(xiàn)的新的實例去增強本體的方法也稱為本體填充。
社交媒體的自動語義標引可以用于基于語義的搜索、瀏覽、過濾、推薦、可視化分析用戶以及用戶之間的社交網(wǎng)絡(luò)和在線行為的語義模型建立,還有其他的應(yīng)用場合例如知識管理、競爭情報、客戶關(guān)系管理、電子政務(wù)、電子商務(wù)等。
目前的語義標注技術(shù)主要是針對新聞文章或者其他較為正式、篇幅較長的Web內(nèi)容,由于社交媒體自身具有內(nèi)容較短、噪聲大、跟時間相關(guān)、用戶產(chǎn)生內(nèi)容等這些鮮明的特點,給語義標注技術(shù)的發(fā)展帶來新的挑戰(zhàn)。
2 社交媒體語義標注的方式
語義標注可以采用手工、自動化或半自動化等多種方式進行。
Passant等[1]提出了語義微博框架模型,以便用戶給博文手動的添加機器可讀的語義,該框架也支持通過主題標簽與關(guān)聯(lián)開放數(shù)據(jù)進行連接。Hepp等[2]提出了一個新的對微博進行手工語義標注句法,能映射成RDF語句,該句法支持標簽、本體屬性,例如FOAF和在同一個微博里多個RDF語句之間關(guān)系。盡管手工語義標注具有一定的價值,但是每天騰訊、新浪等百萬條微博的涌現(xiàn),亟需自動的語義標引方法。
信息抽取,作為一個自然語言分析的方式,日益成為在非結(jié)構(gòu)化文本和在本體中的規(guī)范化知識之間建起溝通橋梁的關(guān)鍵技術(shù)。基于本體的信息抽取就是適用于語義標注的任務(wù),傳統(tǒng)的信息抽取和基于本體的信息抽取的一個顯著區(qū)別就是規(guī)范化的本體作為系統(tǒng)的輸入和輸出,有些信息抽取系統(tǒng)只是把系統(tǒng)輸出和本體做一個映射,這些系統(tǒng)嚴格來講,應(yīng)該稱為面向本體的系統(tǒng)。基于本體的信息抽取另一個顯著的特點是它不僅僅發(fā)現(xiàn)被抽取的實體的類型,而且還要把它跟目標知識庫里的關(guān)于它的語義描述關(guān)聯(lián)起來,通常用一個URI方式識別它,在抽取過程中需要在文檔內(nèi)和文檔間進行命名實體、術(shù)語、關(guān)系等自動識別和共指消解。
關(guān)聯(lián)開放數(shù)據(jù)資源,例如DBpedia,YAGO和Freebase等已經(jīng)成為語義標注本體知識的關(guān)鍵來源,也作為用來消歧的目標本體知識庫,他們提供了交叉引用、領(lǐng)域無關(guān)的數(shù)萬條類和關(guān)系以及數(shù)百萬條的實例,一個關(guān)聯(lián)、互補的代名詞的資源集合,對應(yīng)于維基百科的條目和其他外部數(shù)據(jù)的概念和實例,豐富的類層次用于細粒度分類命名實體,而關(guān)于數(shù)百萬實例和對應(yīng)維基百科條目的鏈接的知識也是基于本體抽取系統(tǒng)的一個特點。
3 社交媒體語義標注的主要方法
3.1 關(guān)鍵短語抽取
自動抽取出的關(guān)鍵句可以表示出一個文檔或文檔集的主題,但不能有效的表達論點或者所有的觀點,關(guān)鍵短語抽取因此被認為是一種淺表知識抽取,它也作為降維手段,允許系統(tǒng)處理較小集合的重要的術(shù)語而不是全文,用于上下文的語義標注和索引。
一些關(guān)鍵詞語方法利用了術(shù)語共現(xiàn)形成術(shù)語的圖,邊為一對術(shù)語共現(xiàn)的距離,給頂點分配一定的權(quán)重,W Wu等研究表明這一類的術(shù)語抽取方法相對依賴于文本模型的方法,在Twitter數(shù)據(jù)上表現(xiàn)更優(yōu)。這些基于圖的方法在從Twitter中抽取關(guān)鍵短語之所以取得了良好的效果,原因在于這個領(lǐng)域包括了大量的冗余,有利于形成關(guān)鍵詞摘要。但主題的多樣性增加了抽取一系列相關(guān)和準確的關(guān)鍵詞的難度,Xin等[3]在關(guān)鍵詞組抽取中結(jié)合了主題建模來解決該問題。
當前的相關(guān)研究主要是使用該方法來產(chǎn)生新的標簽,Qu等[4]在基于詞性標簽的基礎(chǔ)上,從n-gram產(chǎn)生候選的關(guān)鍵短語,然后使用一個監(jiān)督邏輯回歸分類器進行過濾。該方法還可以和分眾分類法進一步結(jié)合,產(chǎn)生標簽簽名,例如把分眾分類法中的每一個標簽和加權(quán)的、語義相關(guān)的術(shù)語聯(lián)系起來,針對新的博文和帖子,進行比較和排序這些標簽,從而推薦一些最相關(guān)的標簽。
3.2 社交媒體中的基于本體的實體識別
基于本體的實體識別一般分為兩個步驟:實體識別和實體聯(lián)接,實體識別階段主要根據(jù)一個本體識別出文本中出現(xiàn)的所有的類和實例,而實體聯(lián)接階段則是使用文本中的概念信息,結(jié)合從本體中的知識,來選擇一個正確的URI。
3.2.1 基于維基百科的方法
目前實體識別和聯(lián)接的主要研究都是使用維基百科作為龐大的、免費的、人工標引的訓練語料庫。典型的目標知識庫例如DBpedia和YAGO等都是來源于維基百科,提供了一個實體URI和相應(yīng)的維基百科頁面的直接映射。
基于實體消歧的方法主要是使用一個字典,里面有每個實體URI的標簽,包括維基百科的實體頁面,重定向(用于同義詞和縮寫),消歧頁(對具有相同名稱的多個實體)和鏈接到維基百科頁面時使用的錨定文本。這本詞典用于識別所有候選實體的URI,然后把這些候選的URI進行排序,給出一個置信分數(shù)。如果在目標知識庫里面,沒有匹配的實體,就返回空值。
一個廣泛使用的基于維基百科的語義標注系統(tǒng)是DBpedia Spotlight[5],這是一個免費的可定制的Web系統(tǒng),它通過DBpedia的URIs標注文本,它的目標是DBpedia本體,包含了三十多個頂級類和272個類,通過顯式地列出他們或一個SPARQL查詢,來限制哪些類(或者它的子類)用于命名實體識別,這個算法首先通過查找一個來源于維基百科的URI詞匯字典挑選候選的實體,然后使用向量空間模型對URI進行排序,每一個DBpedia資源都和一個文檔相關(guān)聯(lián),構(gòu)建的每一段文字里都使用到在維基百科里的概念。
LINDEN框架[6]在基于維基百科的信息外,還充分利用了YAGO里更豐富的語義信息,這種方法很大程度上依賴于Wikipedia-Miner工具,該工具用來分析有歧義的實體的上下文和發(fā)現(xiàn)出現(xiàn)在維基百科里的概念。在TACKBP2009數(shù)據(jù)集上的評測表明LINDEN超過了所有的只基于維基百科的系統(tǒng),但目前LINDEN還沒有和DBpedia Spotlight在同一數(shù)據(jù)集進行測試比較。
3.2.2 面向社交化媒體的方法
命名實體識別方法一般都是在較長、較常規(guī)的文本上進行訓練,當作用在較短和更多噪聲的社交媒體內(nèi)容上的時候,效果較差。面向社交媒體的方法融合了語言和社交媒體專門的特性,盡管每個博文提供了很少的內(nèi)容,但可以從用戶資料、社交網(wǎng)絡(luò)和回復(fù)中發(fā)現(xiàn)更多的附加信息。
Ritter 等[7]通過使用Freebase作為一個大規(guī)模已知實體來源,提出了命名實體分類的問題,如果沒有考慮到上下文,直接進行實體查找和類型分配,只能得到38%的F值,其中35%的實體是歧義的,具有多個類型,而30%的實體沒有在Freebase中出現(xiàn)過。如果使用被標記的主題模型,考慮到每個實體字符串出現(xiàn)的上下文和在Freebase類型上的分布,命名實體分類的F值提高到了66%。
Ireson 等[8]研究了在Flickr網(wǎng)站上命名標簽的地名消歧問題。這個方法是在Yahoo! GeoPlanet語義數(shù)據(jù)庫的基礎(chǔ)上,為每一個地點實例都提供一個URI,與一個相關(guān)地點的分類,這個標簽消歧的方法利用了其他分配給照片的標簽,用戶上下文(一個用戶分配給他所有照片的標簽)和擴展用戶上下文(考慮到用戶聯(lián)系人的標簽),這種基于社會化網(wǎng)絡(luò)上下文的使用顯著地提高了整體消歧的準確性。
另一個附加和隱藏的語義是微博里的主題標簽,Laniado 等[9]詳細調(diào)查了三千六百多萬條微博里的主題標簽語義,使用了四種度量指標:使用頻率、使用的一致性、穩(wěn)定性和專門性。這些度量用來決定哪些主題標簽可以被用作標示符,連接到Freebase URIs上,通過從分眾完成的在線詞匯表,添加主題標簽的定義,主題標簽也可以作為語義信息的附加來源。Mendes等[10]通過簡單地在DBpedia里查找,而沒有進一步的消歧就完成了語義標注。用戶相關(guān)的屬性和社會關(guān)系都在FOAF里了,而語義標注通過MOAT本體來實現(xiàn)。
Gruhl等[11]關(guān)注了語義標注的消歧元素,審視了處理高度歧義的情況,例如歌曲音樂專輯的名稱。他們提出的方法首先限制用于產(chǎn)生候選的MusicBrainZ本體的部分,通過過濾掉所有在給定文本里沒有提到的音樂家的信息,然后運用詞性標注和名詞詞組組塊,把這些信息作為支持向量機分類器的輸入,在此基礎(chǔ)上進行消歧。這個方法對關(guān)于三位音樂家的MySpace帖子的語料集做了測試,盡管本體很大,但有關(guān)文本很快被找到,具有較高的效能。
3.2.3 商業(yè)化實體識別服務(wù)
現(xiàn)有大量的商業(yè)在線實體識別服務(wù)用實體標注文檔,給文檔指派關(guān)聯(lián)數(shù)據(jù)URIs,NERD在線工具可以輕松地在用戶上傳的數(shù)據(jù)集上進行比較,還可以整合他們的結(jié)果,把結(jié)果映射到關(guān)聯(lián)開放數(shù)據(jù)云上。
Zemanta[12] 是一個在線標注工具,最初專門用于博客和郵件內(nèi)容,幫助用戶通過推薦來插入標簽和鏈接。Open Calais[13]是另外一個語義標注的商業(yè)化Web服務(wù),Abel等利用它在新聞相關(guān)的微博里識別命名實體,目標實體一般是地理位置、公司、人員、地址或聯(lián)系電話等,而被抽取出來的事件和事實一般涉及以上的實體,例如公司競爭者、聯(lián)盟等。實體標注包括URL,允許通過http訪問在關(guān)聯(lián)數(shù)據(jù)中的這個實體的更多信息。目前OpenCalais連接到8個關(guān)聯(lián)數(shù)據(jù)集上,包括它自帶的數(shù)據(jù)庫,如DBpedia,Wikipedia,IMDB等,廣泛涉及到了本體中的實體類別。Calais的主要局限性是專有的性質(zhì)問題,例如用戶通過Web服務(wù)發(fā)送文檔來進行標注,接受標注的結(jié)果,但是他們不能給Calais一個不同的本體來進行標注,或者定制實體抽取的方式。
3.3 情感監(jiān)測和觀點分析
自動情感監(jiān)測技術(shù)主要分為基于詞匯的方法和機器學習的方法,基于詞匯的方法主要依賴于一個情感詞匯庫,包含了已知和預(yù)先收錄的情感術(shù)語,而機器學習的方法利用淺表語法或語言的特性。大多數(shù)情感和觀點分析方法沒有或者很少利用到語義,例如把博文分為積極、消極或中性情感,是建立在n-grams和詞性信息的技術(shù)上。這些方法會導(dǎo)致數(shù)據(jù)量少的問題。Saif等[14]證明了使用語義概念代替單詞能顯著提高極性分類的準確性,這個方法使用了AlchemyAPI來進行語義標注,它包括了30個實體類,絕大部分是人物、公司、城市和組織等。這個方法在斯坦福Twitter情感數(shù)據(jù)集上作了評估測試,性能超過了其他沒有使用語義的現(xiàn)有方法。語義標注還可以用來完成挑戰(zhàn)性的觀點挖掘任務(wù),結(jié)合來源于WordNet等上的情感詞匯,使用基于規(guī)則的實體識別器來識別出微博里的人物、政治團體和所持觀點,然后進行語義分析,使用模式來產(chǎn)生三語組,表示出觀點持有者和投票意愿。
3.4 跨媒體聯(lián)接
由于微博內(nèi)容比較短,如果不參考外部資源的上下文內(nèi)容,很難被理解,所以需要跨媒體的自動聯(lián)接。Abel等把微博和當前的新聞故事連接在一起改善微博的語義標注的準確性,探索了一些聯(lián)接策略:利用出現(xiàn)在微博里的URL,微博和新聞文章的TF-IDF相似性,主題標簽和基于實體的相似性(例如OpenCalais識別出來的語義實體和主題)等。Hubmann-Haidvogel等[15]使用在線新聞從Twitter,YouTube和Facebook上匯總關(guān)于社交媒體關(guān)于氣候變化的內(nèi)容。
4 社會媒體的語義標注改進途徑
目前的社交媒體語義標注方法有很多的局限性,很多方法就像關(guān)鍵詞和主題抽取一樣,只能解決淺表問題,而基于本體的實體和事件識別并沒有取得在較長的文檔上那樣高的準確度和召回率。語義標注方法只適用于它們訓練和評估的數(shù)據(jù),在社交媒體標準數(shù)據(jù)集的訓練算法也是有限的,使用命名實體類型和事件標注的微博條數(shù)一般都小于1000條,需要來自不同社交媒體類型更大的共享評測語料集,如果通過傳統(tǒng)人工的方法進行,則不可能完成。
4.1 眾包
一種改善自動標注的途徑是進行眾包,ZenCrowd[16]系統(tǒng)把大規(guī)模的實體和在Amazon Mechanical Turk上的微任務(wù),能夠自動連接到LOD云上的文字部分不交給標引員,只是在難以解決的情況下才咨詢標引員,這樣顯著提高了標注結(jié)果。歐盟FP7資助的Xlike項目[17]也嘗試眾包去解決社交媒體廣泛使用的非正式語言的非規(guī)則性,提高標注的準確性。Gate Teamware[18]是一個基于網(wǎng)絡(luò)的協(xié)同標注工具,支持分布式團體工作,可以為非專業(yè)的標引員進行個性化定制使用。
4.2 利用Web of Data上的海量知識
另一種改善社交媒體語義標注的途徑是更好的利用Web of Data上的海量知識,目前大部分局限在維基百科、DBpedia和YAGO上,使用網(wǎng)絡(luò)數(shù)據(jù)的一大問題是,由于常用詞和停用詞的大量使用等造成的歧義,需要自動化的領(lǐng)域分類的步驟,確保特定領(lǐng)域的LOD(關(guān)聯(lián)開放數(shù)據(jù))資源被用于標引相關(guān)領(lǐng)域內(nèi)的社交媒體。使用網(wǎng)絡(luò)數(shù)據(jù)面臨的第二大問題是健壯性和可伸縮性,在面臨LOD資源的噪聲知識時,在處理有噪音的、語法不規(guī)則的語言的時候,能保持一定的健壯性,考慮到Web of Data的規(guī)模,設(shè)計基于本體的算法時,算法要在維持較高的計算水平的同時,又能有效的加載和查詢這些大規(guī)模的知識庫。最后一個有效利用網(wǎng)絡(luò)數(shù)據(jù)資源的障礙是相當有限的可用詞匯信息。除了維基百科上的資源,其他的詞匯信息大多數(shù)局限在RDF標簽。這就限制了他們在基于本體的信息抽取和語義標注上的使用。近期很多學者都專注于利用協(xié)作完成的維基學科去建設(shè)跨語言詞匯資源。它包含了很多外來詞和新詞,并且不斷被貢獻者社區(qū)進行更新,可以在分析用戶內(nèi)容時作參考使用。針對英語和德語,目前正在進行的工作有建立UBY[19],這是一個綜合的、大規(guī)模、語義-詞匯資源,它基于維基百科、WordNet和其他的LOD資源。有些研究還關(guān)注基于語言的本體建設(shè),提出把語言信息和本體元素進行關(guān)聯(lián)的模型,這些都為跨語言語義標注系統(tǒng)的建設(shè)進行了有益的嘗試。
5 結(jié)語
盡管社交媒體的語義標注技術(shù)還有很多的改進空間,但語義標注的結(jié)果已經(jīng)被應(yīng)用在從社交媒體流的隱形信息中自動獲得用戶和社交網(wǎng)絡(luò)的模型的方法上。為了更好的挖掘出隱含語義信息,處理多噪聲的動態(tài)社交媒體流,我們需要探索更加穩(wěn)定、準確的大規(guī)模實體和事件識別方法,需要進一步細化意見挖掘算法用于目標識別,解決時間波動性問題,對沖突意見的探測和建模以及意見匯總。
參考文獻:
[1]A. Passant, J. G. Breslin, and S. Decker. Rethinking microblogging:open, distributed, semantic[C]. Proceedings of the 10th International Conference on Web Engineering,2010:263-277.
[2]M. Hepp. HyperTwitter: Collaborative knowledge engineering via Twitter messages[C].Knowledge Engineering and Management by the Masses-17th International Confe
rence EKAW 2010,2010:451-461.
[3]W. Xin, Z. Jing, J. Jing, H. Yang, S. Palakorn, W. X. Zhao,J. Jiang, J. He, Y. Song, P. Achananuparp, E. P. Lim, andX. Li. Topical keyphrase extraction from Twitter[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, HLT ’11,2011:379-388.
[4]L. Qu, C. Müller, and I. Gurevych. Using tag semantic network for keyphrase extraction in blogs. In Proceedings of the 17th Conference on Information and Knowledge Management,2008:1381-1382.
[5]Dbpedia Spotlight[EB/OL].[2013-06-02].http:///projects/dbp-spotlight/.
[6]W. Shen, J. Wang, P. Luo, and M. Wang. LINDEN: Linking named entities with knowledge base via semantic knowledge[C].Proceedings of the 21st Conference on World Wide Web,2012:449-458.
[7]A. Ritter, S. Clark, Mausam, and O. Etzioni. Named entity recognition in tweets: An experimental study[C]. Proc. of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, UK, 2011.
[8]N. Ireson and F. Ciravegna. Toponym resolution in social media[C]. Proceedings of the 9th International Semantic Web Conference (ISWC),2010:370-385.
[9]David Laniado and Peter Mika. Making sense of Twitter[C].International Semantic Web Conference(1),2010:470-485.
[10]P. N. Mendes, A. Passant, P. Kapanipathi, and A. P. Sheth. Linked open social signals[C]. Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2010:224-231.
[11]D. Gruhl, M. Nagarajan, J. Pieper, C. Robson, and A. Sheth. Context and Domain Knowledge Enhanced Entity Spotting in Informal Text[C]. Proceedings of the 8th International Semantic Web Conference (ISWC’2009), 2009.
[12]Zemanta[EB/OL]. [2013-06-03]. http://.
[13]Opencalais[EB/OL].[2013-06-03]. http:///.
[14]H. Saif, Y. He, and H. Alani. Alleviating data sparsity for Twitter sentiment analysis[C]. Proceedings of the #
MSM2012 Workshop, CEUR,2012.
[15]A.Hubmann-Haidvogel,A. M. P. Brasoveanu, A. Scharl, M. Sabou, and S. Gindl. Visualizing contextual and dynamic features of micropost streams[C].Proceedings of the #MSM2012 Workshop, CEUR, 2012.
[16]G. Demartini, D. E. Difallah, and P. Cudré-Mauroux. Zen-Crowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C].Proceedings of the 21st Conference on World Wide Web, 2012:469-478.
[17]Xlike[EB/OL].[2012-06-05]. http:///.
[18]Kaling Bontcheva, Hamish Cunningham, Ian Roberts, Angus Roberts, Valentin Tablan, Niraj Aswani, and Genevieve Gorrell. GATE Teamware: A Web-based, Collaborative Text Annotation Framework[J/OL]. [2013
-06-03].http://eprints.whiterose.ac.uk/75937/.