本站小編為你精心準備了BP神經(jīng)網(wǎng)絡在生存中應用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
生存分析(survivalanalysis)起源于19世紀對壽命表的分析,目前已廣泛應用到臨床研究中,可以處理含有刪失值的數(shù)據(jù),可以同時考慮事件發(fā)生的結局及發(fā)生結局的時間。目前處理生存資料的方法有參數(shù)模型、非參數(shù)模型及半?yún)?shù)模型。參數(shù)模型對生存時間的分布要求非常嚴格,醫(yī)學資料中很少能滿足;生存分析中傳統(tǒng)的回歸模型,例如:Cox比例風險模型、加速失效時間模型也要求模型滿足一定的假設前提,而實際數(shù)據(jù)往往難以滿足這些假設。神經(jīng)網(wǎng)絡近年來受到普遍的關注,在醫(yī)學領域中的應用主要預測與分類,與傳統(tǒng)回歸模型不同,它可以克服這些缺點,在模型中可以容納非線性效應,交互效應、協(xié)變量的效應可以隨時間變化。目前國內研究神經(jīng)網(wǎng)絡在生存分析中的應用尚較少,本文擬探討幾種不同的神經(jīng)網(wǎng)絡生存模型在賁門癌預后中的應用。
1方法
bp神經(jīng)網(wǎng)絡是目前應用最多的神經(jīng)網(wǎng)絡,一般由一個輸入層(inputlayer)、一個輸出層(outputlayer)、一個或幾個中間層(隱層)組成,每一層可包含一個或多個神經(jīng)元,其中每一層的每個神經(jīng)元和前一層相連接,同一層之間沒有連接。輸入層神經(jīng)元傳遞輸入信息到第一隱層或直接傳到輸出層,隱層的神經(jīng)元對輸入層的信息加權求和,加一個常數(shù)后,經(jīng)傳遞函數(shù)運算后傳到下一個隱層(或輸出層),常用的傳遞函數(shù)是logistic函數(shù),即φh=1/(1+exp(-z)),輸出層神經(jīng)元對前一層的輸入信息加權求和經(jīng)傳遞函數(shù)φ0(線性或logistic函數(shù)或門限函數(shù))運算后輸出,例如:如果輸入為xi,對于含一個隱層的神經(jīng)網(wǎng)絡可以得到:
g(xi,θ)=φ0(αk+∑i≠kwikxi+∑jwjkφh(αj+∑iwijxi))(1)
θ表示未知的參數(shù)矢量(即各層的網(wǎng)絡權值),BP神經(jīng)網(wǎng)絡一般采用BP算法訓練網(wǎng)絡,訓練開始時選擇初始值0,BP算法通過梯度下降法得到估計值,使得g(x,)能很好地估計實測值,關于BP算法及改進可參考相關文獻[1]。
利用BP神經(jīng)網(wǎng)絡模型建立生存分析模型,常用的方法有:連續(xù)時間模型(continuoustimemodels)與離散時間模型(discretetimemodels)。
1.1連續(xù)時間模型(continuoustimemodels)
最常用的是Faraggi和Simon[2]提出的方法,在Cox比例風險模型中,風險函數(shù)與時間、協(xié)變量有如下關系:
h(t,xi)=h0(t)exp(βxi)(2)
通過最大化偏似然函數(shù),使用Newton-Raphson法得到參數(shù)的估計值,現(xiàn)在使用神經(jīng)網(wǎng)絡的輸出值g(xi,θ)來代替(2)中的線性項βxi,比例風險模型變成h(t,xi)=h0(t)exp[g(xi,θ)],有偏似然函數(shù):
Lc(θ)=∏i∈uexp∑jwjk/(1+exp(-wijxi))/∑j∈Riexp∑jwjk/(1+exp(-wijxj))(3)
g(xi,θ)可以依賴時間和協(xié)變量變化,也就是說協(xié)變量的效應可以隨時間而變化,這給我們提供了一個可以處理刪失變量但又不需要滿足比例風險模型的PH假定的可供選擇的方法。
1.2離散時間模型(discretetimemodels)
常用的模型有[3]:(1)直接預測患者是否可以存活到某年(例如5年),是最簡單的神經(jīng)網(wǎng)絡模型,模型的輸出層只有一個神經(jīng)元結點,如欲預測多個時間點,則需建立多個神經(jīng)網(wǎng)絡模型(每個模型對應一個時間區(qū)間);(2)多個輸出結點的單個神經(jīng)網(wǎng)絡模型。
1.2.1輸出層有單個結點的神經(jīng)網(wǎng)絡模型是一個標準的分類神經(jīng)網(wǎng)絡模型,生存時間被分成2個區(qū)間,例如生存時間是否大于5年。其似然函數(shù)為:
∏patientsptii(1-pi)(1-ti)
其對數(shù)似然函數(shù)為:
∑patientstilogpi+(1-ti)log(1-pi)
pi:第i個病人死亡的概率,ti:第i個觀測在某時間點(例如5年)的結果,如觀測死亡,取值為1,否則取值為0。對于刪失的觀測不能簡單地排除,這樣會造成偏性,我們使用Cox線性比例風險模型產生的個體預測值對刪失值做填補。
1.2.2輸出層有多個結點的神經(jīng)網(wǎng)絡模型將生存時間分成幾個離散的區(qū)間,估計某個區(qū)間事件發(fā)生的概率。
不考慮時間區(qū)間的順序,有模型:logpk-logp1=ηk(X)(k=2,…,P)
從神經(jīng)網(wǎng)絡可以得到輸出值yk:yk=∑iwikxi+∑jwjkφ1(∑iwijxi)(K=1,…,P)(這里我們設ηk(x)=yk-y1),
于是可以得到時間區(qū)間k的概率:pk=exp(yk)∑l(yl)
建立似然函數(shù)∏patients∑lik=mi+1pki
mi:觀測i存活的前一個生存區(qū)間,li:最后的時間區(qū)間,pki:第i個病人在時間區(qū)間k死亡的概率。
本次研究采用靈敏度、特異度、一致性指數(shù)C(concordanceindex)[4,5]作為預測準確性的評價指標。一致性指數(shù)C是對含有刪失數(shù)據(jù)的ROC曲線下面積的推廣(generalization),是指預測結果和實際結果一致的觀察單位的對子數(shù)占總的有用對子數(shù)的比例,即C=一致的對子數(shù)/有用的對子數(shù),C接近0.5表明模型的預測性能差,接近1表明預測性能好。一致性指數(shù)的計算步驟為[5]:①產生所有的病例配對。若有n個觀察個體,則所有的對子數(shù)為C2n。②排除兩種對子:對子中具有較小觀察時間的個體沒有達到觀察終點及對子中2個個體都沒達到觀察終點。③計算有用對子中,預測結果和實際相一致的對子數(shù),④計算一致性指數(shù)。
2實例分析
賁門癌是常見惡性腫瘤,對236例經(jīng)手術切除但未行放化療的賁門癌患者隨訪,生存時間為確診到最后一次隨訪,按月記錄,分析的協(xié)變量包括:性別、年齡、腫瘤的長度、組織學類型、大體分型、浸潤深度、淋巴結轉移情況、TNM分期等臨床上可能的預后因素。為了減少訓練時間,先采用COX比例危險模型對可能影響預后的因素進行篩選,采用向前逐步法,引入標準為0.05,剔除標準為0.10,結果顯示對賁門癌患者生存率有影響的因素為:病人的腫瘤長度、淋巴結轉移情況、組織學類型、篩選結果見表1。
表1賁門癌患者生存的COX逐步回歸分析結果(略)
Tab.1TheresultofCoxregressionmodelforcarcinomaofthegastriccardia
2.1BP網(wǎng)訓練集、校驗集和測試集的確定
從原始數(shù)據(jù)中隨機抽取80例作為訓練集,80例作為校驗集,76例為預測樣本。
2.2輸入數(shù)據(jù)的預處理
使輸入變量的取值落在0到1的范圍內。對于腫瘤長度使用x′i=ximax(x)進行歸一化處理;病理分型為無序分類變量,以啞變量的形式賦值。
2.3神經(jīng)網(wǎng)絡模型的建立及訓練
選取Cox回歸選出的3個變量作為網(wǎng)絡的輸入。建立輸出層為1個結點的離散型神經(jīng)網(wǎng)絡時,將病人生存時間按下式分為兩類作為輸出變量
yi(i=1,2,…,n),
即yi=1生存t≥5年
0生存t<5年;建立輸出層為5個結點的離散型神經(jīng)網(wǎng)絡時,將病人生存時間分為5類作為輸出變量yi,time<1year,1year≤time<2year,2≤time<3year,3≤time<5year,time>5year。
使用Matlab軟件建立神經(jīng)網(wǎng)絡模型,學習率為0.01,傳遞函數(shù)采用logistic傳遞函數(shù),單結點網(wǎng)絡的隱單元數(shù)為2,多結點網(wǎng)絡隱單元數(shù)為3,采用“早停止”策略防止過度擬合。
2.4兩種神經(jīng)網(wǎng)絡模型預測性能
使用靈敏度、特異度、一致性指數(shù)C評價模型的預測性能。
表2兩種神經(jīng)網(wǎng)絡模型預測性能*(略)
Tab.2Thepredictiveperformanceofthreetypeofneuralnetwork
*判斷界值取0.5
3討論
神經(jīng)網(wǎng)絡已在語音識別、圖像診斷分析、臨床診斷、高分子序列分析等許多方面取得了成功的應用,在醫(yī)學研究領域,變量間關系往往非常復雜,神經(jīng)網(wǎng)絡正逐漸變成分析數(shù)據(jù)的流行工具,目前主要應用于分類與預測,用于生存分析方面的研究還較少。國內黃德生[5]等建立利用BP神經(jīng)網(wǎng)絡建立time-codedmodel和single-timepointmodel用于肺鱗癌預后預測,賀佳[6]等對肝癌術后無瘤生存期的預測做了應用嘗試。
本文通過實例建立連續(xù)時間模型與離散時間模型探討B(tài)P神經(jīng)網(wǎng)絡在生存分析中的應用,F(xiàn)araggi提出的方法還可以擴展到其他可以處理刪失數(shù)據(jù)的模型,例如加速失效時間模型、Buckley-James模型,但哪一種模型更好,還有待進一步研究。神經(jīng)網(wǎng)絡在生存分析中的應用主要在于[7]:個體患者預后的預測,研究預后因子的重要性,研究預后因子的相互作用;對于預測變量的影響力強弱,解釋性還有待進一步探討。還有研究者在建立多個時間區(qū)間的模型時將時間區(qū)間也作為一個輸入變量,也有學者將神經(jīng)網(wǎng)絡納入Bayes方法的研究框架,神經(jīng)網(wǎng)絡建立的生存分析模型可以探測復雜的非線性效應,復雜的交互效應,相信會逐漸應用到生物醫(yī)學研究領域。
【摘要】目的探討B(tài)P神經(jīng)網(wǎng)絡在生存分析中的應用。方法通過賁門癌預后的實例說明神經(jīng)網(wǎng)絡的連續(xù)時間模型與離散時間模型的使用。結果所建立的神經(jīng)網(wǎng)絡生存分析模型有較好的預測能力。結論神經(jīng)網(wǎng)絡在生存分析中有很大的靈活性,在模型中可以容納非線性效應,協(xié)變量的效應可以隨時間而變化,不要求滿足PH假定,有較廣泛的應用前景。
【關鍵詞】BP神經(jīng)網(wǎng)絡;生存分析;賁門癌