本站小編為你精心準備了生存分析法在學術期刊評價上的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
0引言
學術期刊是由學術論文組成,論文質量決定論文價值,論文的價值大小直接影響到期刊的質量。近年來,對論文質量的衡量研究也逐漸受到研究人員的重視[1-3]。論文的價值可通過被引行為體現,而被引行為隨時間推移有興衰變更,即論文價值的大小變化,體現出類似生物體的生命周期現象,論文價值大小的變化表現為論文的生命周期現象,是論文老化過程的體現[4]。本文將在醫學領域已得到廣泛應用的生存分析法引入到期刊評價中,從論文層面入手映射到期刊層面,以期為期刊評價中信息老化理論的研究注入新的研究視角和思路。期刊文獻老化速度或新穎性的測度指標是多樣的,但對時間維度的納入程度及方式卻不盡相同。從共時與歷時的分析角度來看,大部分指標屬于共時分析,如普萊斯指數、引用半衰期,極少有指標采用歷時分析的,如被引半衰期;從統計被引信息與時間的關系來看,絕大多數指標的方式是統計某段時間內期刊的被引量,較為宏觀。這些衡量期刊文獻老化、指標都只是對實際情況的一種理想化、概略性的測度指標[5]。這就對文獻老化理論的研究與發展提出了迫切的要求。相對于已有的這些老化指標,本研究從歷時分析入手,微觀統計在監測時間段內期刊單位時間的被引頻次分布數據,嘗試性引入生存分析法,初步探究生存函數在期刊評價方面的應用,探索期刊文獻的生命規律,以期為期刊評價工作注入新的視角。
1生存分析方法
生存分析法源于醫學領域,由于其在分析時序數據等方面的優勢,逐漸被應用到多個行業領域,如工程學、金融業、保險業等。近年來,有學者將生存分析法應用于網絡信息、專利信息等不同類型信息的老化規律研究[6-9]。這為生存分析在期刊評價上的應用提供了理論基礎與參照。
1.1生存分析的含義
生存分析是指將終點事件和出現此事件所經歷的時間結合起來進行分析的一種統計分析方法,是研究生存現象和現象的相應時間數據及其規律的方法[10]。通俗來說,生存分析是研究一個或多個生物,在經過某一特定的時間后,將發生某種特定事件(稱為終點事件)的概率,是一種動態研究某個現象或因素隨時間變化的規律的統計方法[11]。生存分析法主要通過構建生存模型(生存函數、概率密度函數等),計算出各個時間點上的危險率,即所研究的對象的生存時間及其發生狀態轉變的可能性。
1.2生命長度及生存數據
在生存分析法中,生存時間是指從某點開始到被觀測對象發生終點事件所經歷的時間。對于期刊論文來說,生存時間可以稱為生命長度,是指論文自見刊之日起至失效(即失去利用價值)所經歷的時間跨度。判斷信息失效是生存分析法運用到期刊評價過程中至關重要的階段。在大多數研究中,實驗的時間檢測窗口是固定的,但研究對象進入檢測窗口的時間是不同的,并且在檢測時期內生存時間情況也不盡相同。因此,生存數據可以分為完全數據和刪失數據。(1)完全數據:實驗對象的起點和終點均落在時間窗口內。在本研究中,如論文的發表時間及失效的時間點都在2008年1月至2015年12月,該論文就屬于完全數據。(2)刪失數據:或稱為結尾數據,包括左刪失、右刪失和區間刪失。左刪失數據指檢測窗口起點前樣本中已經發生了研究事件的數據。在本研究中,是指發表時間早于2008年1月的論文,在本研究的數據集中不涉及該類數據。右刪失數據指在監測時間終點仍未發生終點事件的樣本。在本研究中,是指在達到監測時間2015年12月時,仍未失效的期刊論文。區間刪失數據指只能確定事件發生在某一區間內,但無法準確得知發生的時間點。在本研究中,并不涉及該類型刪失數據。
1.3生存函數
在生存分析法中,生存時間的分布常用下列4個函數來描述生存過程,即累積生存函數、分布函數、密度函數、危險率函數[11]。這4個函數在數學上是等價的,給出其中一個函數,可以派生出其余3個函數。以下從論文角度對生存函數進行介紹。
1.4雙比例失效法
在評價中應用生存分析法時,終點事件即期刊論文“失效”的判定頗為復雜。本研究認為,期刊論文自發表之日起便擁有了一定的價值,其價值體現在被其他文獻引用的行為中,隨著時間的延長,論文將經歷單位時間內被引頻次越來越高、在某單位時間點被引頻次達到峰值、隨后逐漸降低至很少被人引用甚至不再被引用的生命周期。現假定某篇論文在連續T個單位時間內沒有被引用,可以認為該論文在這T個時間后被大量關注或使用的概率不高,以此來判定論文失效,其中連續零被引時長T被稱為判定論文失效的有效時間間隔。因此,定義生命長度為自論文見刊之日起至判定該論文失效的有效時間間隔T的起始時刻為止所經歷的時間長度。可見,T值是判定論文失效與計算論文生存時間的關鍵。為確定T值,引入了雙比例失效法,該方法有以下幾個主要步驟。(1)預設雙比例閾值P1、P2。經驗性通常設為80%、90%。其中,P1規定失效論文在生存時間內的累積被引頻次占檢測時間段內總被引頻次的比例,即有效累計被引率應達到的值;P2規定達到P1值的論文量應達到的比例。(2)遞歸判斷。當T=i(i=1,2,…)時,判別失效論文,分別計算每篇失效論文在生存時間內的有效累計被引率。(3)判斷每篇失效論文的有效被引率是否達到P1。(4)統計滿足條件(3)的論文數量,計算該論文量占樣本總量的百分比,判斷符合P1的論文量是否達到閾值P2:如果該比例小于P2,則T往后取值,從第二步重新計算;如果該比例大于等于P2,則將對應T值作為判斷該領域論文失效的時間間隔。通常,經過雙比例失效法得到的T值有多個,而在本研究中,取最小值作為判定論文失效的有效時間間隔值T。實質上,T值與雙比例閾值P1、P2之間是相互影響的,由預設的P1、P2值,通過雙比例失效法遍歷尋找到的有效T值,并在此閾值對下確定有效T值的大小及各類型論文的比例情況,可以反向判斷預設的雙比例閾值是否合適,從而對閾值對進行調整。
2實證研究
2.1數據來源與處理
評價對象為30種物理學科中文期刊,數據來源于中國科技論文與引文數據庫(CSTPCD),以2016年為原點,向前追溯收集這些期刊集合在2008—2015年發表的論文及在被引關系中涉及的論文信息(共86375條記錄)、30種期刊所的被引用關系記錄(共115248條記錄)及施引和被引期刊的年發文頻次信息(共1698條信息)。數據清洗(去除冗余記錄、重要信息缺失記錄等,補充或修正期刊年發文頻次信息等)及數據表結構轉換過程,在此不作贅述。在此需要說明的是,在確定論文出版時間時,由于CSTPCD不直接提供期刊每期出版具體時間,并且對于雙月刊、季刊等類型期刊,不同的期刊選擇發表的月份是不同的,考慮到研究的可行性問題,統一把出版周期內最后一個月作為出版月。由此得到可用于生存分析的論文被引時序分布表,如表1所示。其中,-1對應論文見刊前的時間,0說明論文在該時間節點未被引用,正整數為論文在該時間節點處對應的被引用頻次。
2.2數據統計
CSTPCD收錄的母刊集在2008年1月至2015年12月的發文量、被引頻次、施引論文數、施引期刊數量等信息如表2所示。樣本數據集中,《物理學報》發文量最高,其次為《光學學報》,而《光譜學與光譜分析》的施引期刊數量最高。
2.3數據分類及T值判定
根據生存數據的分類特點及論文在監測時間段內的被引和失效情況,現將論文分為三類:第一類為無生命論文;第二類為失效論文;第三類為未失效論文。第一類論文是在發表后T+De(判定信息失效的時間間隔T及首次被引時滯均值De,De是本研究數據集物理學各個科期刊論文首次被引用的時間與其見刊時間的時間差的算數平均數)時間間隔內均未被引,這類論文自發表后就直接失效,無生命長度;第二類論文是根據前面介紹的方法,判定在監測時間段內失效了的論文,生命長度為失效點時間減去發表點時間,屬于完全數據;第三類論文是自發表后一直被引,監測時間結束生命仍在延續,規定這類論文的生存時間為監測時間終點減去發表點時間,屬于右刪失數據。在利用“雙比例”失效法判定有效時間間隔T值前,需要首先預設雙比例P1、P2閾值對的值。通常學者根據“二八法則”將雙比例閾值定為80%。考慮物理領域的上述學科論文被引分布特點,再根據閾值對與T值之間的制約關系,經過多次實踐調整最終將雙比例閾值P1和P2均設定為71%。在此閾值對P1、P2下采用窮舉法,對各個T值的有效性進行判定。如圖1所示,在雙比例閾值對71%—71%的條件下,隨著橫軸時間間隔T值從小到大變動,三類論文的數量也發生了明顯的變動。在此過程中,無生命論文數量單調減少后變為0,失效論文量先上升后下降最后變為0,未失效論文量單調增加,最終所有樣本論文都成為未失效論文。可以看出,物理學科作為基礎學科,其論文右刪失情況嚴重,這符合我們對物理學科發展及其老化速度相對遲緩的認知。表3列出了部分T值下論文類別分布及失效比例情況,其中“失效—P1數量”是指失效論文在有效生命長度內被引頻次占觀測時間內總被引頻次的比例大于P1(71%)的論文數量;在考慮到物理學科論文右刪失現象較為顯著的情況下,將“失效—P2占比”定義為失效—P1論文數量和未失效論文數量占失效論文數量和未失效論文總量的比例。實質上,雙比例閾值是不影響遍歷T值時三類論文的變化規律的,而是用來確定“失效—P1數量”與“失效—P2占比”達到閾值所對應的T值。根據表3的統計數據,當T值取14時(字體已被加粗的行),被引頻次大于P1的論文數量所占比例73.2%首次超過P2(71%)。并且,當T=14時,失效論文中滿足P1條件的論文量(即失效—P1數量)達到最大,并在此后逐漸下降。由此可見,在雙比例71%—71%的判定標準下,T取14滿足判定條件,并且滿足P1條件的論文量達到最大。因此,本研究判定實驗樣本論文失效的有效時間間隔的T值為14。
2.4樣本數據集的生存函數曲線分析
在論文生命長度分布基礎上,本研究依據論文生命表及生存時間函數,針對樣本論文的生存情況進行進一步的分析。以5個月為單位區間跨度,將論文生命長度劃分為19個時間段,利用生存曲線、概率密度曲線及風險曲線,對物理領域樣本論文整體情況進行分析。
2.4.1累計生存曲線
在本研究中,物理學科樣本論文集的累積生存曲線如圖2所示,反映了對應時間仍處于存活狀態的論文數量占總體樣本數量的比例。由于研究領域的單一性,所以選取時間前后縱向對比分析,物理學科論文隨著時間的增加,累計生存率整體呈現下降趨勢,前11個時間區間下降顯著,大約有80%的論文生命長度在11個時間區間內。突破11個時間區間存活下來的論文累計生存曲線變緩,失效速度減緩,生存時間較長。在檢測時間為結束時,仍然有將近10%存活率,說明物理學科論文數據的右刪失情況顯著。
2.4.2概率密度曲線
樣本論文集的概率密度曲線,如圖3所示(經過平滑后的折線圖),反映了樣本論文在各個壽命區間的分布情況,即具有相同壽命的論文在總體中所占的比例。由圖3可見,在前11個壽命區間的概率密度數值較大,隨后曲線呈現下降趨于平穩的狀態。此外,樣本論文見刊后第7個時間區間出現了壽命分布最大值,說明論文見刊后第7個時間區間失效的概率相比于其他時間要高。見刊第11個時間區間后的論文生命長度分布較為分散。
2.4.3風險曲線
樣本集的風險曲線如圖4所示(經過平滑后的折線圖),反映了每個壽命區間內未失效論文的失效概率,曲線出現多次升落現象,但從整體來看,在前10個時間區間內,論文在單位時間內的失效風險呈現逐漸增大的趨勢;在第11個時間區間失效風險達到最大;隨后迅速回落,逐漸趨于平緩。在風險迅速下降的過程中,在第13、15時間區間內再次迎來失效小高峰。度過失效高峰期的樣本論文失效的概率不斷變小,成為該領域內長壽論文。2.5樣本期刊生存曲線對比分析在分析了數據集整體生存規律的基礎上,將生存分析嘗試性地應用在期刊間的對比上。在此選取《低溫物理學報》《紅外與毫米波學報》及《應用光學》3種期刊,對其生存函數曲線進行對比分析。筆者統計了這3種期刊的發文量及被引分布表中的記錄數(表4),其中發文被引率是CSTPCD中收錄的被引論文量占發文量的比值。從2016年版《中國科技期刊引證報告(核心板)》(自然科學卷)的2015年中國科技核心期刊綜合評價總分排名表中,摘錄出樣本期刊的評價數據情況(表5),作為利用生存分析法對比3個樣本期刊結果的評價標準。3個樣本期刊的累計生存曲線對比圖如圖5所示。從總體來看,3種刊物的累計生存曲線下降趨勢由陡到緩依次為:《低溫物理學報》《應用光學》《紅外與毫米波學報》。因此,整體上相對來說,在相同時刻,《紅外與毫米波學報》生存率更高,《低溫物理學報》的論文生存率最低。《低溫物理學報》的論文生命長度集中在11個時間區間內,《應用光學》的最長生存時間能達到16個時間區間左右,《紅外與毫米波學報》在監測的末期,還能有接近20%的存活率。3個樣本期刊的概率密度曲線對比圖如圖6所示(經過平滑后的折線圖)。從圖6中可見,《紅外與毫米波學報》的論文壽命分布相對分散,而《低溫物理學報》分別在第6、9、11時間區間分別出現論文壽命分布高峰。從分析結果可以看出,在這3種期刊中,《低溫物理學報》的論文失效率較高,生存時間比較集中且普遍較短。筆者認為這反映了該刊的論文質量要普遍低于另外2種期刊;《紅外與毫米波學報》因其分散的生命分布、普遍偏低的失效風險及相對平穩降低的生存曲線成為3個樣本期刊中質量最高的期刊;《應用光學》處于上述兩種期刊之間。這個評價結果與2016年版的《中國科技期刊引證報告(核心板)》的2015年中國科技核心期刊綜合評價排名表的結果相符合,在一定程度上說明將生存分析法應用到期刊論文數據上是有一定效用的。
3總結與討論
(1)本研究將醫學領域的生存分析法移用到學術期刊評價,在此過程中克服了遇到的障礙性問題,從而使得應用生存分析法評價期刊論文成為可能。首先,對論文失效進行了定義,并利用“雙比例”失效法作出判定;其次,利用期刊的年發文頻次與論文見刊的年卷期計算了見刊時間(精確到月),解決了原始論文被引頻次的分布。(2)在選用CSTPCD收錄的30種物理學科中文期刊中,對整體樣本集進行分析后,選取3個樣本期刊,經生命曲線對比分析表明,《應用光學》的論文質量相對更高些,其次依次為《應用光學》《低溫物理學報》,與2016年版的《中國科技期刊引證報告(核心板)》的評價結果相符。(3)本研究僅實現了生存分析法在期刊評價上應用,并利用生存函數曲線對比分析了樣本期刊間的差異,對計算結果進行了初步分析,但沒有深入探究在期刊評價應用方向上的相關問題,例如指標構建及評價結果效用性等問題。(4)生存分析法用于期刊評價尚存在許多需要完善與優化的地方:在實證數據方面,應該延伸時間檢測窗口,擴大樣本數據范圍,在更加寬泛的數據集上監測更長的時間;在理論方法方面,對于期刊評價上的探究過少,缺乏對評價指標及評價效用性的探究。(5)本文為文獻老化視角下的期刊評價研究工作提供了新的思路與視角,豐富了文獻信息老化的理論“基石”。通過在理論與實證兩方面的研究,體現了生存分析法對被引時序數據具有普遍適用性。筆者認為,該方法可以在以論文為評價主體的期刊評價、學科信息老化速度評價、高校科研產出水平評價等方面進行推廣與應用。