本站小編為你精心準(zhǔn)備了文本情感分類(lèi)中基因遺傳算法的應(yīng)用參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。
摘要:本文以微博文本為主要實(shí)驗(yàn)對(duì)象,提出適合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行自我優(yōu)化的編碼方式,分別將每一層看做是一個(gè)染色體,將每一層中的參數(shù)看做是一個(gè)基因片段,采用混合雙重非數(shù)值編碼的方式編碼每個(gè)CNN框架,設(shè)計(jì)出適合于CNN網(wǎng)絡(luò)的選擇、交叉和變異的算法,并且把基因遺傳算法(GA)和與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了基于情感分析算法的遺傳算法(GA-CNN).通過(guò)對(duì)傳統(tǒng)算法與GA-CNN的實(shí)驗(yàn)與對(duì)比分析,良好地展示了自我優(yōu)化性.
關(guān)鍵詞:基因算法;情感分析;深度學(xué)習(xí);自我進(jìn)化
1引言
隨著網(wǎng)絡(luò)技術(shù)的進(jìn)步和社會(huì)應(yīng)用的普及,網(wǎng)頁(yè)的交互信息越來(lái)越多的被企業(yè)、政府所重視.基于網(wǎng)頁(yè)的信息獲取、挖掘、分析也被逐漸提升到了國(guó)家安全的高度.網(wǎng)頁(yè)信息的交互包含瀏覽歷史記錄、跳轉(zhuǎn)路徑、的信息、微博、視頻、語(yǔ)音以及注冊(cè)的個(gè)人信息、賬號(hào)等等,他們包含每個(gè)人的部分或者全部核心信息,如個(gè)人的工作、情感、生活、經(jīng)濟(jì)、習(xí)慣和信仰等等.對(duì)網(wǎng)頁(yè)數(shù)據(jù)的挖掘與分析將有助于個(gè)人乃至國(guó)家的發(fā)展.本文主要以網(wǎng)頁(yè)數(shù)據(jù)中的微博為主要例題,對(duì)其中所表露出來(lái)的情感進(jìn)行分析研究,并對(duì)算法自我優(yōu)化的可行性進(jìn)行分析探討.情感分析(SentimentAnalysis,SA)又稱(chēng)為傾向性分析和意見(jiàn)挖掘,它是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,其中情感分析還可以細(xì)分為情感極性(傾向)分析,情感程度分析和主客觀分析等[1].情感極性分析的目的是對(duì)自然語(yǔ)言中多包涵的正向情緒、負(fù)向情緒和中立情緒進(jìn)行判別.大多數(shù)應(yīng)用場(chǎng)景中,只分為兩類(lèi).例如對(duì)于“喜歡”和“討厭”這兩個(gè)詞,表達(dá)的就是兩種相反的情感.情感分析在建立完善互聯(lián)網(wǎng)的輿情監(jiān)控系統(tǒng),對(duì)異常或突發(fā)事情的檢測(cè)以及心理學(xué)、社會(huì)學(xué)、金融預(yù)測(cè)等領(lǐng)域中都有廣泛應(yīng)用.目前國(guó)內(nèi)外對(duì)于微博等短文本的情感挖掘分析已經(jīng)做出了很多研究[2].常用的方法如樸素貝葉斯[3],邏輯回歸[4]、K最近鄰分類(lèi)KNN算法(k-NearestNeighbor)[5]、支持向量機(jī)(SupportVectorMachine,SVM)[6,7]和卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)[8]等,都在不同的目標(biāo)對(duì)象的情況有良好的表現(xiàn).但是對(duì)于不同的任務(wù)和不同的數(shù)據(jù)源,如中文微博和英文微博,對(duì)文字微博和表情微博等的分析仍有較大差異[9,10].針對(duì)不同的任務(wù),人們會(huì)人工嘗試不同的算法并通過(guò)調(diào)整優(yōu)化來(lái)實(shí)現(xiàn)最佳匹配和提升效率.對(duì)于參數(shù)結(jié)構(gòu)眾多,探索空間巨大的情況,這種方式不僅時(shí)間效率較低,而且探索空間局限,優(yōu)化效果不明顯.因此能夠讓算法自我進(jìn)化,并且在全局空間內(nèi)進(jìn)行自我優(yōu)化,不僅能夠節(jié)省人力,還能夠提升算法對(duì)不同任務(wù)的適應(yīng)性,在現(xiàn)實(shí)工作中具有較強(qiáng)的現(xiàn)實(shí)意義[11].本文主要以中文微博數(shù)據(jù)為例,以情感分析為主要實(shí)驗(yàn)對(duì)象,結(jié)合遺傳算法(GeneticAlgorithm,GA),實(shí)現(xiàn)對(duì)情感分析算法的自我優(yōu)化,提出了以卷積神經(jīng)網(wǎng)絡(luò)為對(duì)象的遺傳進(jìn)化算法(GA-CNN),并通過(guò)實(shí)驗(yàn),來(lái)模擬實(shí)現(xiàn)對(duì)中文情感分析算法的自我進(jìn)化過(guò)程和結(jié)果.
2傳統(tǒng)方法情感分析實(shí)驗(yàn)
微博以不超過(guò)140字為一個(gè)表達(dá)方式,具備詞語(yǔ)種類(lèi)豐富、語(yǔ)句簡(jiǎn)短、主題發(fā)散及創(chuàng)新詞語(yǔ)多等特點(diǎn),相對(duì)于長(zhǎng)文本而言,在情感分析的問(wèn)題上面臨的問(wèn)題和困難更多[12].文本情感分析過(guò)程一般包括文本預(yù)處理、情感特征提取和情感分類(lèi)等步驟.文本預(yù)處理指對(duì)文本進(jìn)行分詞,對(duì)詞性進(jìn)行標(biāo)注,以及停用詞的成立等操作;情感特征的提取是指按照一定的規(guī)則,把具有明顯傾向性的單元要素從微博文本進(jìn)行抽取的過(guò)程;情感分類(lèi)是利用抽取出來(lái)的情感特征對(duì)文本進(jìn)行區(qū)分,對(duì)主觀性文本極性和強(qiáng)度進(jìn)行分類(lèi).中文微博情感分類(lèi)大致上包括:基于情感詞典的分類(lèi)方法和基于機(jī)器學(xué)習(xí)的分類(lèi)方法兩類(lèi)[9].
2.1實(shí)驗(yàn)環(huán)境本文中的所有實(shí)驗(yàn)均在如表1所示的實(shí)驗(yàn)環(huán)境中完成.
2.2數(shù)據(jù)集的選擇與處理試驗(yàn)數(shù)據(jù)來(lái)源于新浪微博的數(shù)據(jù)集.該數(shù)據(jù)集包含1.6萬(wàn)余語(yǔ)句,其中1.2萬(wàn)來(lái)自于PC端,0.4萬(wàn)條來(lái)自移動(dòng)端.將來(lái)自PC端的數(shù)據(jù)進(jìn)行分類(lèi),按照心理學(xué)對(duì)情感的歸類(lèi),將“happiness”、“l(fā)ike”歸為正向情感(“pos”);將“anger”、“disgust”,“fear”歸為負(fù)向情感(“neg”);將“surprise”、“none”歸為中性情感(“none”).并通過(guò)約20人進(jìn)行獨(dú)立認(rèn)證,采用最高的歸類(lèi),進(jìn)行劃分.同時(shí)將來(lái)自移動(dòng)端的數(shù)據(jù)被標(biāo)記直接標(biāo)注為“正向情感”、“負(fù)向情感”和“無(wú)情感”3個(gè)類(lèi)別.?dāng)?shù)據(jù)的標(biāo)記過(guò)程仍然采用原先匯總?cè)藛T進(jìn)行獨(dú)立標(biāo)注,標(biāo)注中忽略了表情符號(hào)所表達(dá)的情感,僅對(duì)中文自然語(yǔ)言所表達(dá)出的情感進(jìn)行了標(biāo)記,選取其中比例最高的標(biāo)注作為單條語(yǔ)句的情感類(lèi)型.情感類(lèi)型分為三類(lèi),正向情感、負(fù)向情感和中性情感,其中正向情感語(yǔ)句4699條,負(fù)向情感語(yǔ)句4891條,中性情感語(yǔ)句6548條.采用80%進(jìn)行訓(xùn)練,20%進(jìn)行測(cè)驗(yàn).
2.3實(shí)驗(yàn)結(jié)果對(duì)比分析上述傳統(tǒng)方法和基礎(chǔ)CNN方法在實(shí)驗(yàn)環(huán)境中的測(cè)試結(jié)果如表2所示.從試驗(yàn)可知,對(duì)于傳統(tǒng)分類(lèi)算法而言,SVM的性能較高,在該數(shù)據(jù)情況下,樸素貝葉斯算法的精確度較低,其次是邏輯回歸以及線性SVM算法.對(duì)于深度學(xué)習(xí)的CNN網(wǎng)絡(luò),在這個(gè)樣本集中,表現(xiàn)出了較好的分類(lèi)效果.該試驗(yàn)中的CNN分別進(jìn)行了三類(lèi)試驗(yàn),分別是基于預(yù)訓(xùn)練詞向量的CNN-static、隨機(jī)編碼的CNN-rand和經(jīng)過(guò)調(diào)參的CNN-non-static.并分別對(duì)CNN進(jìn)行了人為調(diào)整參數(shù).結(jié)果顯示CNN-non-static比最好的CNN-rand高出0.009,達(dá)到了53.5%.但相對(duì)于傳統(tǒng)的情感分析分類(lèi)算法,CNN-none-static比SVM-RBF-Grid-Search,精確度效果卻并沒(méi)有提升,甚至還低0.05%.進(jìn)一步分析說(shuō)明對(duì)于該CNN的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的設(shè)定并沒(méi)有達(dá)到CNN網(wǎng)絡(luò)的最大性能,同樣對(duì)于SVM的算法也并沒(méi)有達(dá)到其最大的精確度.那么對(duì)于CNN這樣網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,層次可以無(wú)限加深,探索空間巨大的情況,人為調(diào)參僅能實(shí)現(xiàn)局部性搜索優(yōu)化,無(wú)法實(shí)現(xiàn)最優(yōu)或近似最優(yōu)的效果優(yōu)化.而對(duì)于網(wǎng)格搜索而言,它是一種枚舉型收索,它的特點(diǎn)是耗時(shí)長(zhǎng),全局性差.對(duì)于深度學(xué)習(xí)的自我探索,谷歌在2017年進(jìn)行了研究,BarretZoph[13]等人于2017年初嘗試了一種基于大型服務(wù)陣列上的自我遍歷探索優(yōu)化的嘗試,實(shí)驗(yàn)結(jié)果完成了基于RNN的圖像識(shí)別的自我增強(qiáng)優(yōu)化.但這樣的自我優(yōu)化需要較大的資源,對(duì)于普通算法的或者資源有限的前提下,需要尋找一個(gè)有效的算法進(jìn)行高效的全局性的自動(dòng)調(diào)整優(yōu)化.結(jié)合BarretZoph等人的探索,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的遺傳進(jìn)化算法(GA-CNN).
3基于基因遺傳算法的自我優(yōu)化算法
本文中,采用CNN探索模型進(jìn)行基于遺傳算法的優(yōu)化,主要討論該模型是否能夠通過(guò)模擬進(jìn)化完成結(jié)構(gòu)性和參數(shù)性的探索,以達(dá)到根據(jù)不同任務(wù)和數(shù)據(jù)源進(jìn)行自我結(jié)構(gòu)和參數(shù)的變更,使性能達(dá)到最優(yōu).
3.1基因遺傳算法相關(guān)理論遺傳算法GA是1975年由美國(guó)Michigan大學(xué)的Holland教授在其專(zhuān)著《自然界和人工系統(tǒng)的適用性》中首先提出的.遺傳算法,也稱(chēng)進(jìn)化算法,是受達(dá)爾文的進(jìn)化論的啟發(fā),借鑒生物進(jìn)化過(guò)程而提出的一種啟發(fā)式搜索算法.借鑒生物進(jìn)化論,遺傳算法將要解決的問(wèn)題模擬成一個(gè)生物進(jìn)化的過(guò)程,通過(guò)復(fù)制、交叉、突變等操作產(chǎn)生下一代的解,并逐步淘汰掉適應(yīng)度函數(shù)值低的解,增加適應(yīng)度函數(shù)值高的解.這樣進(jìn)化N代后就很有可能會(huì)進(jìn)化出適應(yīng)度函數(shù)值很高的個(gè)體[14,15].
3.2GA-CNN算法的設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu)中,可以討論的參數(shù)和結(jié)構(gòu)很多.在GA-CNN的算法探索中,將每一層網(wǎng)絡(luò)結(jié)構(gòu)看作是一個(gè)染色體.GA-CNN算法的系統(tǒng)架構(gòu)如圖1所示;其整體流程如算法1.算法1GA-CNN算法Begin步驟1對(duì)數(shù)據(jù)進(jìn)行規(guī)范處理并分為訓(xùn)練集、評(píng)價(jià)集和測(cè)試集;步驟2初始化CNN框架結(jié)構(gòu)種群,預(yù)先設(shè)定最大迭代次數(shù)G,當(dāng)前種群代數(shù)g=1;步驟3對(duì)CNN種群中的每個(gè)框架結(jié)構(gòu)進(jìn)行學(xué)習(xí)訓(xùn)練;步驟4用評(píng)價(jià)集對(duì)訓(xùn)練的CNN模型,進(jìn)行評(píng)估,獲得CNN框架結(jié)構(gòu)種群所對(duì)應(yīng)的適應(yīng)度;步驟5采用輪盤(pán)賭法生成交配目標(biāo);步驟6對(duì)交配目標(biāo)進(jìn)行交叉操作,并進(jìn)行訓(xùn)練評(píng)估適應(yīng)度;步驟7利用變異操作,對(duì)交叉結(jié)果進(jìn)行變異,并進(jìn)行訓(xùn)練評(píng)估適應(yīng)度;步驟8判斷新產(chǎn)生的結(jié)果是否優(yōu)于交配目標(biāo),更新CNN結(jié)構(gòu)種群,更新對(duì)應(yīng)的適應(yīng)度;步驟9如果g<G且不滿足收斂條件,g=g+1,轉(zhuǎn)到步驟5,否則轉(zhuǎn)到步驟10;步驟10輸出精英個(gè)體模型作為最終的分類(lèi)模型.74算法2GA-CNN算法交叉變異邏輯Begin步驟1采用隨機(jī)法在CNN種群中選取基模型S1;步驟2在S1周?chē)植窟x取,距離為1的交配模型S2;步驟3交叉產(chǎn)生新的模型隊(duì)列,對(duì)產(chǎn)生的新模型進(jìn)行訓(xùn)練學(xué)習(xí),評(píng)估其適應(yīng)度;步驟4比較篩選適應(yīng)度最高的模型S3;步驟5判斷新產(chǎn)生的模型S3是否優(yōu)于基模型S1,如果優(yōu)于S1,替換S1;如果不優(yōu)于S1,舍棄,轉(zhuǎn)到步驟1;步驟6判斷是否優(yōu)于交配模型S2;優(yōu)于交配模型S2,轉(zhuǎn)到步驟7;不優(yōu)于交配模型S2,轉(zhuǎn)到步驟8;步驟7替換S2,接著S2變異,轉(zhuǎn)到步驟9;步驟8在S1周?chē)x取一個(gè)適應(yīng)度最差的進(jìn)行變異;步驟9更新種群和適應(yīng)度評(píng)估.End.GA-CNN算法與傳統(tǒng)CNN測(cè)試后的結(jié)果對(duì)比如表3所示.綜上所述,可以看出GA-CNN算法,經(jīng)過(guò)進(jìn)化,進(jìn)行有效的自我調(diào)優(yōu),調(diào)整了自己的結(jié)構(gòu)和模型參數(shù),提升了模型準(zhǔn)確性,從52.68%上升到了77.08%.該進(jìn)化在85次時(shí)達(dá)到了收斂,取得了一個(gè)近似最優(yōu)解.
4結(jié)論
實(shí)驗(yàn)分析,GA-CNN算法有效地解決了人為調(diào)參數(shù)的局限性,對(duì)分布空間廣,探索空間大的CNN模型架構(gòu)以及參數(shù)能夠有效的探索和自動(dòng)優(yōu)化,在探索時(shí)間和空間上都相對(duì)人為調(diào)參有較大提升.相對(duì)于枚舉法而言具有較好的收斂性.但該算法也存在一定的問(wèn)題和思考:由于資源空間有限,對(duì)基因和染色體種類(lèi)的模擬具有局限性,大量參數(shù)和變數(shù)引入可能帶來(lái)較大的影響.同時(shí)對(duì)于染色體的編碼由于種類(lèi)較少,類(lèi)似于二進(jìn)制編碼.初始化的種群結(jié)構(gòu)不同,可能帶來(lái)的進(jìn)化時(shí)間成本和結(jié)構(gòu)都有所不同.最后的結(jié)果可能在最大迭代次數(shù)G完成時(shí),仍只能得到一個(gè)近似最優(yōu)解,而這個(gè)近似最優(yōu)解可能存在差異.
參考文獻(xiàn):
[1]蔣延華.風(fēng)景油畫(huà)創(chuàng)作的情感分析[J].美術(shù)教育研究,2012,2012:25.
[2]王文華,朱艷輝,徐葉強(qiáng),等.基于SVM的產(chǎn)品評(píng)論屬性特征的情感傾向分析[J].湖南工業(yè)大學(xué)學(xué)報(bào),2012,26:76.
[3]陳紅玉.?dāng)?shù)據(jù)挖掘中貝葉斯分類(lèi)算法的研究[J].光盤(pán)技術(shù),2009,2009:57.
[4]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[5]賈可亮,樊孝忠,許進(jìn)忠.基于KNN的漢語(yǔ)問(wèn)句分類(lèi)[J].微電子學(xué)與計(jì)算機(jī),2008,2008:156.
[6]馬波.支持向量機(jī)多類(lèi)分類(lèi)算法的分析與設(shè)計(jì)[D].揚(yáng)州:揚(yáng)州大學(xué),2008.
[7]饒剛.支持向量機(jī)(SVM)算法的進(jìn)一步研究[D].重慶:重慶大學(xué),2012.
[8]張建明,詹智財(cái),成科揚(yáng),等.深度學(xué)習(xí)的研究與發(fā)展[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2015,36:191.
[9]任小燕.中文情感分析綜述[J].科技信息,2011,31:202.
[10]周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30:161.
[12]王巖.基于共現(xiàn)鏈的微博情感分析技術(shù)的研究與實(shí)現(xiàn)[D].北京:國(guó)防科學(xué)技術(shù)大學(xué),2011.
[14]王曉天,邊思宇.基于遺傳算法和神經(jīng)網(wǎng)絡(luò)的PID參數(shù)自整定[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2018,56:953.
[15]陳龍.基于遺傳算法的約束性多TSP問(wèn)題及其應(yīng)用[J].重慶郵電學(xué)院學(xué)報(bào):自然科學(xué)版,2000:67.
作者:彭一明 邢承杰 卞晶 陳光 王夢(mèng)淑 王雪琴 單位:北京大學(xué)計(jì)算中心