本站小編為你精心準備了新聞事件型實體關(guān)系抽取方法探討參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:新聞所包含核心內(nèi)容是事件,現(xiàn)有的中文實體關(guān)系抽取方法都針對屬性型關(guān)系,忽略了事件型關(guān)系的抽取;新聞內(nèi)容涉及領(lǐng)域廣,要求關(guān)系抽取方法具有良好的領(lǐng)域擴展能力;同時,開放域人工標注訓(xùn)練語料庫的難度較大。針對上述問題,本文提出Bootstrapping的關(guān)系種子集自動生成方法,并在迭代過程中加入擴展和過濾規(guī)則,最終得到準確度和復(fù)用性較高的實體關(guān)系提取模式。通過實驗測試,本文提出的方法在事件型實體關(guān)系的提取中能夠取得良好效果。
關(guān)鍵詞:關(guān)系抽取;事件型關(guān)系;Bootstrapping;開放模板
隨著媒體行業(yè)信息化程度不斷加深,互聯(lián)網(wǎng)已成為媒體機構(gòu)最重要的宣傳陣地,中文新聞網(wǎng)頁總量也早已過億。面對海量的新聞內(nèi)容,傳統(tǒng)的搜索引擎基于關(guān)鍵字匹配和網(wǎng)頁重要度排序等方法,雖然在一定程度上能夠解決用戶查詢新聞信息的需求,但僅能提供符合條件的新聞文本,用戶仍需要通讀全文來獲取新聞所包含的事件內(nèi)容。此外,新聞記者進行新聞報道時,要花費大量的時間從以往相關(guān)報道中獲取相關(guān)知識作為素材。因此,如何幫助用戶快速準確的獲取新聞文本中所包含的核心內(nèi)容就成為近幾年新聞領(lǐng)域的一個研究熱點。信息抽取(InformationExtraction,IE)技術(shù)的主要目的是從非結(jié)構(gòu)化自然語言文本中抽取實體、實體關(guān)系和事件信息。
其中實體關(guān)系抽取用于識別實體間的語義關(guān)系。例如“國家主席在中南海會見到訪的美國總統(tǒng)奧巴馬”一句中,“”和“奧巴馬”是其中包含的兩個命名實體,而“會見”是兩個實體間的語義關(guān)系詞。我們可以看到:如果信息抽取是將非結(jié)構(gòu)化的自然語言文本表述為結(jié)構(gòu)化的表格數(shù)據(jù),而實體識別確定了表格中各個元素的話,那么實體關(guān)系抽取則是確定這些元素在表格中的相對位置[1]。總之,實體關(guān)系抽取是在實體識別的基礎(chǔ)上,將無結(jié)構(gòu)的自然語言文本中包含的實體間的語義關(guān)系提取出來,然后以三元組(實體1、關(guān)系、實體2)的形式存儲在數(shù)據(jù)庫中,供用戶查詢或其他軟件系統(tǒng)復(fù)用。本文針對中文新聞的特點,提出了一種面向開放領(lǐng)域的中文新聞事件型實體關(guān)系抽取方法。
1研究現(xiàn)狀關(guān)系
抽取任務(wù)最早由MUC[2]會議提出,在后續(xù)ACE[3]、TAC[4]測評會議的推動下取得了顯著的發(fā)展。早期主要采用基于規(guī)則的方法,一般針對特定關(guān)系類型,由語言專家或領(lǐng)域?qū)<胰斯ぞ帉戧P(guān)系抽取規(guī)則集合。如:抽取層次關(guān)系,專家通過制定規(guī)則集合(YsuchasX,suchYasX,suchYasX,X,andotherY,YincludingX,YespeciallyX等)來抽取不同表述形式的層次關(guān)系[5]。上述方法非常依賴人工制定規(guī)則的質(zhì)量。優(yōu)點在于匹配精準,但即便是某一種關(guān)系類別,人工也很難窮舉所有可能規(guī)則。如果有新的關(guān)系類型抽取需求,則要重新制定規(guī)則,因此基于規(guī)則的方法領(lǐng)域移植性較差。監(jiān)督學(xué)習(xí)方法在自然語言處理領(lǐng)域的廣泛應(yīng)用極大的促進了實體關(guān)系抽取方法的革新。
監(jiān)督學(xué)習(xí)類方法又分為兩類:
1)基于特征向量的方法和基于核函數(shù)的方法。基于特征向量方法將關(guān)系抽取任務(wù)轉(zhuǎn)化成分類問題,根據(jù)訓(xùn)練語料庫的特點選取有效特征,并構(gòu)造特征向量,使用條件隨機場[6]、最大熵[7]、SVM[8]等不同方法訓(xùn)練關(guān)系分類器用于關(guān)系預(yù)測。該方法性能好壞的關(guān)鍵在于特征選取,不同的領(lǐng)域不同的語料特征選取差別很大,所以移植性較差,但計算復(fù)雜度較低;
2)基于核函數(shù)[9-11]的方法,引入核函數(shù)對樣例關(guān)系和待識別關(guān)系之間的相似度進行計算,不需要定義特征集合,通過一個隱含的高維特征空間計算相似度,一方面可以得到更加全面的特征信息,同時也解決了特征方法在特征選取方面存在的問題,但核函數(shù)方法的計算復(fù)雜較高。
監(jiān)督學(xué)習(xí)方法相比人工規(guī)則的方法有了很大提升,但是還是需要人工進行算法訓(xùn)練語料的標注,往往只針對特定的關(guān)系或者特定的領(lǐng)域,難以適應(yīng)開放領(lǐng)域關(guān)系的抽取的要求。面向開放域的關(guān)系抽取,Banko[12]等人最早提出了開放式關(guān)系抽取的概念,利用啟發(fā)式規(guī)則和簡單的句法特征訓(xùn)練分類器的TextRunner系統(tǒng),Hase-gawa[13]等人在ACL2004提出利用無監(jiān)督的方法,在假設(shè)相同實體關(guān)系具有相同的上下文語境的前提下,使用聚類算法對關(guān)系進行聚類,但這種方法過于依賴語料的好壞,而且假設(shè)也存在問題。哈工大劉安安[14]等人提出無監(jiān)督開放式的中文實體關(guān)系抽取方法主要研究人、機構(gòu)、地點之間的屬性型實體關(guān)系開放式描述。WuF[15]等人提出的WOE系統(tǒng),使用維基百科中的信息框來標注關(guān)系抽取語料,該類方法主要依靠已有知識庫,在假設(shè)兩個實體對應(yīng)的句子均表示同一種關(guān)系的基礎(chǔ)上,通過將知識庫中已有的關(guān)系實例和待標注訓(xùn)練語料進行對齊自動構(gòu)建訓(xùn)練語料庫,后續(xù)和監(jiān)督學(xué)習(xí)方法一樣進行關(guān)系抽取分類器的訓(xùn)練和關(guān)系的抽取。方法不需要人工過多干預(yù),但是現(xiàn)階段沒有完備可供使用的中文知識庫,同時,目前所有的知識庫只有屬性型關(guān)系,缺少新聞需要的事件型關(guān)系,無法構(gòu)建訓(xùn)練語料滿足新聞文本中抽取事件型實體關(guān)系的要求。因此,我們考慮采用自動的方式生成種子關(guān)系集,然后通過自舉的方法不斷進行新的關(guān)系的學(xué)習(xí),結(jié)合規(guī)則的思想,自動生成關(guān)系抽取模式,用于新的關(guān)系發(fā)現(xiàn)與抽取。
2開放式中文新聞事件型實體關(guān)系抽取
面向開放領(lǐng)域的實體關(guān)系抽取目前普遍采用弱/遠監(jiān)督的方法,需要借助已有的知識庫,OLLIE系統(tǒng)[16]是抽取結(jié)果最好的系統(tǒng),但其僅支持英文,初始種子集依靠ReVerb系統(tǒng)[17]產(chǎn)生。本文針對中文新聞提出自動構(gòu)建種子集的方法,能夠解決中文領(lǐng)域無現(xiàn)成可用的知識庫和關(guān)系抽取系統(tǒng)的問題。通過多次迭代學(xué)習(xí)關(guān)系抽取模式,以簡單的模式為起點,生成更多復(fù)雜模式,從而匹配更多的關(guān)系,獲得比較好的實體關(guān)系抽取結(jié)果。方法主要分為下面兩個部分:新聞文本預(yù)處理和新聞事件型關(guān)系抽取。
2.1文本預(yù)處理
新聞文本以非結(jié)構(gòu)化形式存在,為了便于后續(xù)處理,我們需要進行文本預(yù)處理,主要包括以下步驟:
(1)句子分詞與命名實體識別。綜合考慮分詞速度和準確率指標,我們選擇Ansj中文分詞包(分詞速度30萬字/秒,準確率大于96%)。輸出結(jié)果(有詞性標注、命名實體標注并且完成分詞的句子)將作為句子劃分和依存句法分析的基礎(chǔ)輸入。通過對結(jié)果分析發(fā)現(xiàn),命名實體識別存在一定誤差,例如“中國傳媒大學(xué)食堂最受歡迎的菜品是廣院肉餅”的命名實體識別結(jié)果是“中國傳媒大學(xué)”為機構(gòu),但緊鄰的“食堂”并沒有與緊鄰的名詞共同識別為一個組織機構(gòu),我們期望得到的是“中國傳媒大學(xué)食堂”作為組織機構(gòu)名,同時“廣院”和“肉餅”也存在類似的情況,因此,我們對ansj的命名實體識別結(jié)果進行如下處理:在識別出一個命名實體E1后,如果緊鄰這個實體的前后詞語是名詞N或者命名實體E2,我們就對其標記,在后續(xù)得到依存句法分析結(jié)果后,如兩個詞語之間的依存關(guān)系滿足“ATT關(guān)系”,我們則將詞語組合的整體為一個命名實體E3(E1E2/E1N)。
(2)復(fù)雜句切分。考慮到依存句法分析對復(fù)雜長句的分析準確率很低,因此我們考慮對復(fù)雜句進行切分,通過對新聞?wù)Z料的分析,我們選用逗號作為分句的標點符號,遵循以下規(guī)則進行復(fù)雜句切分:對由一個或多個逗號分隔的復(fù)雜長句進行切分,如果任意一個切分結(jié)果中的按照前一步進行合并后的名詞或命名實體的總數(shù)少于2個,則不做切分。(3)依存句法分析。依存句法分析選用哈工大的語言技術(shù)平臺云[18],以完成分詞、命名實體識別和復(fù)雜句切分處理后的文本作為輸入,進行依存句法分析,輸出依存句法分析結(jié)果。
2.2事件型關(guān)系抽取
(1)關(guān)系抽取種子集自動生成。對于事件型關(guān)系來說,命名實體/名詞短語對之間的關(guān)系主要是施動和受動的關(guān)系,為了保證關(guān)系抽取種子集的質(zhì)量,我們選用最基本的關(guān)系抽取規(guī)則:依據(jù)依存句法分析的輸出結(jié)果,從依存樹中提取主語、謂語、賓語,其中主語和賓語是命名實體/名詞短語對,謂語則是與實體對主謂關(guān)系的動詞/動詞短語,進而得到候選的實體關(guān)系三元組。考慮到種子集質(zhì)量對整個關(guān)系抽取的重要影響,我們定義以下規(guī)則對三元組進行篩選過濾:基于停用詞表過濾關(guān)系無實際意義的關(guān)系指示詞和名詞;關(guān)系指示詞為動補結(jié)構(gòu)時,排除該三元組;通過定中關(guān)系(ATT)將實體對象補充完整;基于以上過濾和補充規(guī)則,我們可以將滿足這些條件的句子中的實體三元組從候選集合中刪除或者補充完整,作為后面實體關(guān)系提取的種子集。
(2)基于Bootstrapping的事件型關(guān)系提取。將種子集中的三元組作為Bootstrapping算法的初始三元組在新聞?wù)Z料庫進行軟匹配(句子中包含兩個以上三元組元素就匹配成功),對匹配成功的句子抽取實體關(guān)系模式,存入模式庫,然后選擇模式庫中頻率高的前N項(本實驗中N取10)對語料庫進行模式匹配,匹配成功則抽取實體關(guān)系三元組。Boot-strapping方法的核心在于不斷迭代,每次迭代輸出的數(shù)據(jù)作為下次迭代的輸入數(shù)據(jù),誤差會不斷被放大,因此對每一次迭代的輸入準確性要求較高,通過上一步中三元組過濾規(guī)則對迭代結(jié)果進行過濾。過濾新獲得的實體關(guān)系三元組再作為軟匹配的種子,不斷重復(fù)上述過程,直到?jīng)]有新的實體關(guān)系三元組產(chǎn)生為止。
3實驗結(jié)果與分析
(1)測試集獲取:目前沒有公開的面向開放領(lǐng)域的中文新聞關(guān)系抽取語料庫,我們在新華社新聞庫中選取1000篇新聞文章(國內(nèi)政治領(lǐng)域300篇,國際政治領(lǐng)域200篇,體育領(lǐng)域100篇,科技領(lǐng)域50篇,歷史領(lǐng)域100篇,財經(jīng)領(lǐng)域50篇,軍事領(lǐng)域100篇,社會領(lǐng)域100篇),采用交叉標注的方式對新聞中所包含的事件句進行人工標注。
(2)實驗設(shè)計與實現(xiàn):利用已構(gòu)建種子集中實體關(guān)系三元組作為輸入,采用Bootstrapping方法進行開放模版的學(xué)習(xí),表1中我們列舉了出現(xiàn)頻率最高的三個開放模版,模版符合下列條件:依存樹路徑中沒有空節(jié)點;關(guān)系表示節(jié)點位于實體之間;如果模版的介詞需要和關(guān)系中的介詞匹配;依存樹路徑中不能存在名詞組合或形容詞修飾的關(guān)系邊。
4總結(jié)
本文自動從中文新聞文本中抽取實體關(guān)系的算法是在OLLIE系統(tǒng)方法的基礎(chǔ)之上進行改進的。本文自動構(gòu)建初始種子集,并通過過濾規(guī)則的設(shè)定控制了自舉算法每次迭代的誤差,對最終結(jié)果準確率的提高切實有效。接下來將會對方法進行優(yōu)化,在實體關(guān)系抽取基礎(chǔ)之上,進一步研究對時間、地點等關(guān)系屬性值的抽取。
參考文獻
[1]車萬翔,劉挺,李生.實體關(guān)系自動抽取[J].中文信息學(xué)報,2005,19(2):1-6.
作者:宋卿1,戚成琳1;楊越2 單位:1.中國傳媒大學(xué),2.中國傳媒大學(xué)