本站小編為你精心準備了多標記學習的分類器圈方法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《軟件學報》2015年第十一期
傳統監督學習假定每個學習對象只隸屬于一個概念標記,然而在現實問題中,學習對象通??赏瑫r與多個概念標記相關.例如,一篇報道亞洲杯的新聞可能既與“體育”相關,又與“經濟”、“博弈”等相關;一幅攝于巴黎的自然場景照片可能既與“鐵塔”相關,又與“人群”、“花鳥”等相關.多標記學習(multi-labellearning)對多標記對象進行學習是這方面的一個主流研究領域,目前已在文本分類、圖像標注、生物信息學、個性化推薦等很多領域取得了應用.多標記對象的標記存在相關性,否則,多個標記不會同時隸屬于同一個對象.事實上,標記之間關系的發現與利用是多標記學習領域的一個關鍵問題.理由主要有兩個方面:一是當處理多標記對象時,預測的輸出結果不再是一個二元值(+1或1)而變為標記的集合,因此,輸出結果的數量與標記數量呈指數增長,必須要通過發現和利用標記關系來縮減輸出結果的空間;二是若不考慮標記關系,將多個標記視為獨立的成分進行分類,則將失去豐富的標記關系信息,性能通常不夠理想.
分類器鏈方法(classifierchainsmethod)及其變型是利用標記關系方面的一類有效技術,它將標記按照某種次序排成鏈,然后依次對鏈上的標記構建分類器,其中,鏈后面的標記可利用鏈前面標記所學習到的分類結果.雖然分類器鏈方法實現簡單,但已在很多文獻的實驗報道中指出,分類器鏈方法利用標記關系取得了比不用標記關系的方法更好的性能.然而,分類器鏈方法的學習過程需要預先給定標記的學習次序,這個信息在真實情況中難以獲得.此外,若次序選擇不當,分類器鏈方法或許性能提高有限.一種改進的辦法是集成分類器鏈方法(ensembleclassifierchainsmethod).它生成多個標記學習次序,然后對多個次序的結果加以集成.集成分類器鏈雖然在一定程度上緩解了分類器鏈性能受限的問題,但是標記次序的數量龐大(與標記數目呈階乘增長),集成分類器鏈方法仍面臨次序選擇的困難,性能仍然受限.本文針對以上問題,提出分類器圈方法(classifiercirclemethod)用于多標記學習.與分類器鏈方法不同,該方法隨機生成標記的學習次序,通過構建分類器圈結構,依次迭代地對每個標記的分類器進行更新.本文方法實現簡單.實驗結果表明,本文方法在多個數據集、多種不同數量的訓練樣本設置下,均取得比分類器鏈方法及一系列經典多標記方法更好的性能.本文第1節介紹多標記學習及相關工作.第2節給出本文分類器圈方法.第3節匯報實驗結果.最后,第4節總結全文.
1多標記學習及相關工作
由于多標記學習適用于處理很多現實復雜對象,自多標記學習提出以來,得到很多學者的關注,發展出一系列方法.從利用標記關系的視角,這些方法大致可以分為以下3類:•第1類為一階方法.這類方法不考慮標記之間的關系,將多標記學習問題分解為多個獨立的二類分類問題來解決.這類方法實現簡單,但其忽略標記之間的關系信息,很多時候性能并不理想.•第2類為二階方法.這類方法考慮了標記對之間的關系,如相關標記與非相關標記的排序關系.這類方法考慮了標記關系,通??扇〉帽纫浑A方法更好的性能,但它無法利用更復雜的標記關系.•第3類為高階方法.這類方法通過考慮多個乃至全部標記之間的關系來構建多標記決策函數.這類方法有時可得到更好的學習性能[15].從發現標記關系的視角,多標記學習方法也可以分為如下兩類:•第1類是利用相關領域知識作為先驗構造出標記之間的關系,如層次關系等.這種方法得到的標記關系往往準確且有助于提高性能,但現實情況中,這種準確的關系通常難以獲得.•第2類是通過訓練數據自動發現標記關系,如統計規律[27,28]等.這種方法更貼合現實任務的需求,但有時標記關系選擇不當會導致性能提高受限.值得一提的是,分類器鏈方法是利用標記關系方面的一類簡單而有效的高階多標記學習方法.該方法的思想是:構造一條二類分類器鏈,鏈上每個節點對應于一個標記.該方法隨后依次對鏈上的標記構建分類器,其中,鏈后面的標記可以結合鏈前面標記的學習結果用于學習當前標記.顯然,分類器鏈方法利用到了標記之間的關系,而且分類器鏈方法實現簡單,在不少實驗報道中取得了良好的性能.然而,其學習過程需要事先給定標記的學習次序,這個信息現實情況下通常難以準確得到.此外,實驗結果表明,學習次序的選擇會嚴重影響最終的學習性能.為了緩解這個困難,Read等人提出了集成分類器鏈方法[13,14].該方法構造多條分類器鏈,其中每條分類器鏈對應一個隨機選取的標記次序.最終,每個標記上的預測結果由多個分類器鏈的投票結果產生.但標記可能的學習次序數量很大(與標記數目呈階乘函數增長),集成分類器鏈方法很難有效遍歷所有甚至大部分次序,因此它仍存在因次序選擇不當而導致性能受限的情況.為了克服以上困難,本文提出分類器圈方法.
2本文分類器圈方法
首先給出多標記學習的形式化描述.在多標記學習中,用戶輸入一組訓練樣本={(xi,yi)|i=1,2,…,m},其中,x為一個訓練示例;y{+1,1}q為該示例的標記向量(labelvector),+1(或1)分別指對應位置的標記為該示例的相關(或不相關)標記;m表示訓練樣本數量,q為標記總數量.記=d(或d)為示例輸入空間,多標記學習的目標是:學到一個決策函數h:{+1,1}q,使得對于任意未見示例z,預測其相關標記的集合.本文的分類器圈方法與分類器鏈方法最大的不同是:本文方法使用圈結構,而不是鏈.具體來說,分類器鏈方法沿著鏈結構遍歷每個標記一次,分類器圈方法考慮沿著圈結構遍歷每個標記若干次.圖1分別給出了分類器鏈方法與本文分類器圈方法的示意圖.直觀上,分類器圈方法沿著標記或分類器的圈反復修正每個標記的分類器,充分利用到了它與每個標記或分類器之間的關系,避免分類器鏈方法次序選擇不當時,鏈前面的標記難以利用它與鏈后面標記的關系的情況.此外,由于分類器圈方法具有這個優勢,它對學習次序不敏感,本文方法可隨機生成標記次序.第3節給出實驗結果說明隨機次序與固定次序的性能沒有顯著差異.
3實驗結果
3.1實驗數據本文在6個多標記基準數據集上進行實驗比較.這些數據集來自多標記學習不同應用領域:Medical[29]來自于文本分類,Enron[30]來自于電子郵件分析,Scene[6]來自于圖片分類,Emotions[31]來自于音樂標注,Yeast[7]來自于基因功能預測,Genbase[32]來自于蛋白質分類.表1給出數據集的統計信息。
3.2評價指標本文采用多標記學習領域兩個常用的評價指標1macroF和1microF來衡量方法的預測性能,值越大性能越好。
3.3比較方法本文比較如下多標記方法:1)BR(binaryrelevant)方法[2,21]:該方法不考慮標記關系,獨立訓練每個標記的二類分類器,是一階方法.2)ML-kNN(multi-labelk-nearestneighbor)方法[17]:該方法拓展k近鄰方法用于處理多標記學習問題.它沒有考慮標記間的關系,屬于一階方法,近鄰個數采用文獻的推薦參數k=10.3)CLR(calibratedlabelrank)方法[18]:該方法考慮相關標記與不相關標記的排序關系,屬于二階方法.4)CC(classifierchains)方法[13,14],即,分類器鏈方法:該方法考慮多個標記間的關系,屬于高階方法.5)ECC(ensembleclassifierschains)方法,即,集成分類器鏈方法:與CC類似,屬于高階方法.分類器鏈的集成個數采用文獻推薦參數K=10.6)CCE(classifiercircle)方法,即,本文的分類器圈方法:本文方法考慮了全部標記之間的關系,屬于高階方法.輪數T固定為5.以上方法的二類分類器采用線性Logistic回歸,線性Logistic回歸采用Liblinear工具包[33]實現.其中,Logistic回歸模型的正則化系數C根據5折交叉驗證確定.
3.4實驗結果對每個數據集,本文隨機選取80%樣本做訓練,余下20%做測試.實驗重復30次,表2給出平均結果和標準差,()表示CCE方法顯著優(劣)于比較方法(成對t檢驗根據95%置信度),括號里的數字為對應方法性能序(越小性能越好).表中還給出每個方法的平均序.可見,CCE方法取得了不錯的性能,在1macroF與1microF兩個指標上都取得了最小的平均序.CCE方法在3個數據集上取得了最好的1macroF性能,在4個數據集上取得了最好的1microF性能。
4結束語
利用標記關系來提高學習性能,是多標記學習的關鍵.分類器鏈方法及其變型是這方面一類經典做法,但它依賴于標記學習次序的選擇.這個信息現實情況難以可靠得到,使用不當會使性能提高有限.針對這個問題,本文提出了分類器圈方法CCE.CCE通過圈結構迭代訓練每個標記的分類器,避免了分類器鏈方法學習次序選擇的問題.實驗結果表明,CCE方法取得了比分類器鏈方法及一系列經典多標記學習方法更好的性能.未來將研究更精確設置CCE的迭代輪數(比如經驗風險不再變化)、將CCE用于大規模數據以及CCE工作的理論基礎.
作者:王少博 李宇峰 單位:計算機軟件新技術國家重點實驗室