本站小編為你精心準備了外語科研統計手段梳理參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
統計方法在外語教學與研究中得到越來越廣泛的應用,主要原因在于:首先,外語教學研究重視定量研究。定性研究雖然可以對語言現象進行詳盡的質的考察和描述,但其考察的數量往往有限,有時觀察到的現象可能是個別的、特殊的,其結論可能缺乏普遍意義。因此,外語研究人員需要對語言現象進行大量的觀察、收集和分析,從中找出普遍性的特征和規律。對大量的語料進行處理和分析時,往往需要統計方法和統計手段。因此,了解統計原理和統計方法對從事定量研究至關重要。其次,越來越多的高校開始為英語語言文學、外國語言學和應用語言學專業的學生開設統計學課程,使他們掌握一定的統計理論和統計方法。因此,越來越多的外語研究人員能夠把統計方法運用到其研究之中。第三,先進的計算機信息處理和儲存技術,使外語研究者能夠方便地運用統計方法和統計技術。大眾化的統計軟件,如SPSS的開發應用,更是在很大程度上方便了人們使用統計方法和統計技術[1]。從從20世紀80年代后期開始,我國學者在語言學與應用語言學研究中使用現代化的統計和測量手段進行量化研究有了上升的趨勢[2],外語教學研究類學術雜志上的實證研究文章越來越多,英語專業碩士研究生論文中也在大量地應用教育統計手段[3]。但國內研究者運用這些統計手段的情況如何?統計手段使用是否得當?在實際操作過程中研究者是否達到了自己的研究目的?對統計結果能否進行合理的解釋?本文旨在對英語專業碩士研究生碩士論文中統計手段的使用情況進行調查,以了解研究者在統計手段的使用上存在什么樣的問題,并對描述統計、相關關系、顯著性檢驗、回歸分析等常用統計手段的誤用進行梳理。通過對外語科研中的教育統計方法的探究,幫助研究者了解不同統計過程的使用前提條件,以避免使用中由于誤用帶來研究結論的不正確,從而掌握更為科學的統計方法來探索外語學習規律,提高外語科研質量。
1外語科研中教育統計手段的誤用
本文對某高校英語專業碩士研究生40篇涉及到實證研究的碩士論文進行了統計分析。通過仔細閱讀運用了統計手段的這些論文,我們發現國內研究者雖然已經注意應用一些數據分析的方法,但相當多的人對統計手段不太熟悉,在各種統計方法的具體使用中有許多不盡人意的地方。在統計手段的應用方面存在著以下問題:
1.1統計分析方法過于簡單。對上述的實證研究論文作了統計之后,發現大部分調查和分析收集數據的主要方法是問卷調查,統計手段使用過于簡單,只使用了描述性統計方法和相關分析,而未使用推斷性統計方法,統計上存在誤用現象。在描述統計中,用得較頻繁的是頻度統計、平均數、百分比描述、標準差等統計量[4]。但這些統計量僅能進行單變量數據描述,并且數據拘泥于就事論事的羅列,不能發現變量間的聯系,不能對數據進行深層次的挖掘。描述統計中常見的問題還有:不能正確地使用平均數、中位數或眾數等反映集中趨勢的統計量來表示實際的平均水平。一般說來,定類變量的數據的代表性數值是眾數,可以直接觀察,簡易、迅速、方便地確定數據的中心點。定序變量雖然也可用眾數表示,但其代表性數值應是中位數,因為中位數能更好地體現定序變量的等級數學特征。中位數的大小,取決于它在排列數據中的位置,不受極值的影響。定距變量可以用眾數、中位數和平均數為代表性數值,但平均值更適合表示定距變量數據的加減數學特征。平均數適合代數運算,而眾數和中位數不適合代數運算。但當一組數據中出現極值時,平均值的代表性就比較差。如某班19名同學的成績是:20、23、30、56、62、65、67、70、71、72、75、76、78、79、80、82、88、89、95。這組數據平均數是67,而中位數是72,二者相差5分。平均數與中位數之間的差距,顯然是平均數受到了極值的影響。因此,在本例中,中位數的代表性比平均數好,也就是說,中位數更能代表學生的總體考試成績。相關分析可以挖掘多變量間的關系,如關聯的程度和方向;也可用于信度分析、預測、理論假說檢驗等,是一種功能強大的多用途統計技術,但這些卻常常被許多作者所忽視或錯誤運用,從而給研究結果造成了致命缺陷。一些研究者由于未把握各種相關分析使用的條件,濫用皮爾遜相關分析[5]。如果兩個變量都是通過定距量表測量的、數據呈線性關系時,就可以使用Pearson相關系數,或稱積距相關(productmomentcorrelation)系數。如果數據是定序數據,就可以使用Spearman相關系數。Spearman相關系數實際上是Pearson相關系數的非參數形式,它適合定序數據或不滿足正態分布假設的等距數據的相關分析。分析前如果不知道兩個變量之間是正相關還是負相關時,選擇雙側(two-tailed)顯著性檢驗。如果事先知道相關方向,則選擇單側(one-tailed)顯著性檢驗。相關分析中的顯著性檢驗時,如果p值小于0.05,相關系數才具有統計意義。桂詩春和寧春巖在解釋相關系數時已經很明確地指出,經常會有人把相關系數的顯著性和相關性高低混為一談,相關系數的顯著意義和相關系數的意義是兩回事。因為相關系數的顯著性水平和樣本大小有關。只要樣本達到一定數量,統計顯著性是很容易滿足的統計量。如果相關系數過低,達到統計顯著性也說明不了問題,因此談論相關性的高低必須是以顯著性檢驗為基礎的,但不少研究者往往根據統計顯著性做出相關的結論。以上任何一方面的誤用都會使相關分析的結論產生誤導。
1.2對抽樣方法沒有明確說明。調查表明,只有少數論文給出了抽樣方法,幾乎沒有論文對抽樣框的選取方法做出恰當的說明,而統計量同時要受抽樣誤差和非抽樣誤差的影響,即研究結論同時要受抽樣誤差和非抽樣誤差的影響,抽樣方法和抽樣框的選取方式在論文中是必要的。統計理論指出:抽樣誤差是由被抽選樣本的隨機性而產生的誤差,只有采用概率抽樣方法才需計算抽樣誤差,即抽樣誤差只存在于概率抽樣方式之中;而非抽樣誤差是指除抽樣誤差以外的,由于各種原因而引起的誤差。在調查設計階段,問卷的設計有缺陷,如變量的概念和范圍不明確,就會產生非抽樣誤差。抽樣框的不完善是誤差產生的另一個來源;在數據收集階段,調查人員沒有能夠得到被調查單位的數據、被調查者提供虛假數據、錄入錯誤都會產生非抽樣誤差;而在數據處理階段,數據的錄入與編碼錯誤同樣會產生非抽樣誤差。一篇碩士論文如果采用了抽樣調查但沒有對抽樣方式與抽樣框的選取方法做出恰當的說明,就難以保證其結論的可靠性。只有少量的論文對樣本量的選取方法、論文結論的可靠性做了分析,只是籠統地由樣本統計量對總體參數進行簡單的推測,很少使用區間估計方法。
1.3混用顯著性檢驗方法。在外語教學研究中通常使用的統計檢驗T檢驗和卡方檢驗。T檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著,看它們之間的差異是隨機差異還是本質上的差異的參數檢驗方法。當總體呈正態分布,總體標準差未知,而且樣本容量n<30,那么這時一切可能的樣本平均數與總體平均數的離差統計量呈t分布。SPSS提供的T檢驗方法有獨立樣本T檢驗、配對樣本T檢驗和單樣本T檢驗。選擇不同的T檢驗是根據不同的研究目的來確定的。如果比較兩個不同的樣本(即獨立樣本)在某個變量上的差異時使用獨立樣本T檢驗方法;如果需要比較同一個樣本在兩個變量上的差異時,就是用配對樣本T檢驗的方法;如果比較的是一個樣本的平均值與某個指定的值時,就使用單樣本T檢驗。這3種方法的原理大不相同,但很容易混淆,所以我們做T檢驗時應指出用哪一種。遺憾的是在調查的論文中很少明確說明。在部分論文中,作者不僅沒有明確說明用哪種T檢驗,而且明顯混用了這幾種T檢驗。另需注意的是,我們要保證兩個對比組的安排是隨機的,還要注意不能對幾個組的平均值做交叉比較,因為這樣會誤導我們拒絕無差別假設,從而得出接受實驗假設的結論。做交叉比較應使用方差分析[7]??ǚ綑z驗是一種非參數檢驗,主要是檢驗頻數的分布和某個概率分布模型是否一致。它有單向表和雙向表兩種檢驗,即把頻數按一種或兩種分類標準進行整理和排列,并了解同一因素內部或兩個因素之間是否相互獨立。在各種問卷調查中我們常需要使用這種方法來決定被調查人的各項反應是否有顯著性差異。但是很多作者僅僅滿足于統計頻數、計算百分比、平均數,沒有進一步做卡方檢驗。X2檢驗主要根據X2分布理論對數據進行統計分析,它適用于對多項分類的數據進行檢驗。X2檢驗的基本思路是將收集到的數據按次數分組,然后進行擬合度檢驗或獨立性檢驗。擬合度檢驗指檢驗次數的分布是否與某個概率分布模式擬合。也就是說,檢驗某一實驗因素實際出現的次數與期望出現的次數是否有顯著性差異。
1.4回歸分析的誤用?;貧w分析研究變量間數量關系,它根據大量的數據資料找出變量之間因果關系的數學表達方式,用數學方程的形式來反映變量間的變動關系,這種方程稱為回歸方程。涉及兩個變量的回歸分析稱為一元回歸;涉及3個或3個以上變量的回歸分析稱為多元回歸。回歸方程可能是直線方程,也可能是曲線方程?;貧w分析是考察幾個自變量和一個因變量的關系。這些自變量各自對因變量都有所影響,但要考察它們聯合起來對因變量又是怎樣影響的,我們可以把這些因素放入多元回歸的方程式里進行計算。通過建立因變量與自變量之間的數學表達式Y=f(x),就可以從自變量的一個取值得出因變量的相應取值,這一完整的分析和計算過程就是回歸分析。回歸分析作為一種科學的方法,可以廣泛應用于外語教學研究。人們可以在大量觀察的基礎上,利用觀察數據和歷史數據,建立現象間的回歸方程,用于預測和估計。例如,人們可以利用高考英語入學成績,預測和估計大學英語考試的成績;可以用外語學習者學習外語的時間、學習動機和學習策略等因素,來綜合估計和預測其外語提高水平。只有當兩個變量之間存在著較高的相關關系,回歸分析才有意義和價值。相關程度越高,回歸預測就越準確。因此,在做回歸分析之前,往往有必要先進行相關分析,然后根據研究理論框架和研究目的,選擇相關程度高的變量做回歸分析,建立回歸方程。如果變量之間相關程度很低或沒有真正的相關關系,進行回歸分析就沒有多少或完全沒有意義。多元回歸分析問題主要在其數學模型要求應用于連續型數據,這種數據的連續性在社會科學研究中有時是不滿足的,而我們有些研究生片面認為誰的論文中統計方法使用得越多、越復雜,其結論越可靠,經常把不連續型數據用當成連續型來使用,造成不同的賦值方法其結果不同,使得研究結論更不可靠。
1.5忽略效度和信度檢驗。雖然大部分調查的論文都提供了有關測量工具方面的信息,但有超過半數的研究未提供令人信服的證據來說明其測量工具借鑒了前人相關的研究成果,而且是有效可靠的。其中有些測量工具是研究者自創的,但由于論文既沒有說明工具與相關研究之間的關系,又沒有介紹設計測量工具的過程和依據,因此使人無法判斷工具的信度和效度。還有些測量工具是借用或改編而成的,但研究者卻未提供借用或改編的理據。另一個值得注意的現象是,即使在那些介紹了設計調查工具過程和依據的論文中,工具的效度和信度這一重要問題也往往被忽視,只有個別文章提到了對工具信度的檢驗情況[8]。72%的被調查論文使用了問卷的信度與效度檢驗。大部分論文采用的是內容效度,使用專家評判法。但信度檢驗中存在著很多問題,大部分論文只是給出了重測信度、平行信度、折半信度或內部一致性信度的數值,計算方法沒有在論文中體現出來,與其論文所附的問卷并不匹配,其問卷中既有主觀性問題(如使用李克特五級式量表,從“完全同意”到“完全不同意”,分別賦予1~5分),又有客觀性問題(如性別、年齡、每周學習時間、父母文化程度等);這兩類變量計算信度的方法是不一樣的。有的問卷測量的內容包含多個領域,有心理的、有社會環境的,變量中既有連續的也有不連續的,簡單給出個信度數值是很難使人信服的。信度分為外在信度檢驗方法和內在信度檢驗方法。外在信度檢驗方法是通過對累計檢驗結果進行比較來驗證測量的信度。外在信度檢驗涉及用相同或類似的測量工具多次地收集數據。使用外在信度檢驗方法旨在弄清楚不同的測量結果是否差異很大。如果差異較大,說明測量工具的信度不高;如果沒有什么差異,即測量結果具有一致性,說明測量工具的信度高。驗證測量的外在信度的方法主要有評估者之間的信度、再測信度和復本信度。選擇何種檢驗方法取決于數據收集工具的不同性質和過程。如果數據的收集過程帶有較強的主觀性,如使用開放數據收集程序(訪談法、觀察法等),就需要檢驗評估者之間的信度,即驗證不同數據收集者之間的數據的一致性。如果研究者需要知道數據收集過程在不同的時間實施是否具有穩定性,即數據的收集是否受時間的影響,就可以使用再測信度檢驗法。如果研究者用兩個版本的測量工具測量相同的概念,就需要檢驗復本信度。SPSS程序提供了這些信度檢驗方法。內在信度是指測量同一概念的不同項目之間的一致性。如果在測量工具中使用了多個獨立的項目,就需要弄清楚這些項目提供的是否是相同的信息,即需要檢驗量表的內在一致性。也就是說,內在信度檢驗的是測量相同現象的不同項目是否產生類似的結果。內在信度檢驗方法主要有折半信度方法和Cronbachalpha系數。折半信度方法是在不可能重復調查的情況才使用的,常用的方法是將測量結果根據單雙號分為兩組,然后計算這兩部分之間的相關系數。研究者為了使用折半信度檢驗測量的一致性,往往在量表中增加一倍的測量項目,重復前半部分的項目的測量內容,但在措辭上不同。如果受試者在這兩部分上的得分高度相關,說明該測量有較好的信度。但通常的問卷既包含事實性問題又包含態度性問題。事實性問題一般不適合用折半信度這種方法,如何將事實性問題的信度與態度性問題的信度結合起來綜合評價整個問卷的信度是個不可忽視的問題,很少有論文提及到這一點。Cronbachalpha系數是人們用來檢驗不易進行折半系數分析的量表的內在信度,它可以幫助人們確定影響量表內在一致性的項目。Cronbachalpha系數介于0.00和1.00之間,系數越高,說明量表內在一致性越強,測量的結果就越可靠。一般認為可接受的信度系數不應低于0.70,不過實際研究中,有時人們也使用了系數0.70以下的變量,但他們往往在研究報告或論文中說明了這一研究的局限性。值得注意的是,信度系數還受到種種因素的影響。一方面,Cronbachalpha系數容易受量表的項目數的影響。某個結構的項目數越多,系數可能越高;項目數較少,系數稍低一點兒也是可以接受的。事實上,評估信度的方法遠不止這些,還有評分者信度、方差分析法信度、因素分析法評測信度、肯德爾和諧系數法等多種。由于采用不同的評估方法所得到的信度系數不同,所以在描述問卷的信度時,不能籠統地告知一個信度值,而應對取得的信度資料的特定條件、問卷的內容、采用的方法等加以詳細的描述。
1.6誤差方差分析。T檢驗中要檢驗的虛無假設是對兩個樣本的均值進行差異檢驗,看有沒有顯著性差異,方差分析要檢驗的虛無假設是3個或3個以上的樣本的均值之間有沒有顯著性差異。T檢驗一般只適合檢驗兩個樣本的平均數是否存在差異,它只能把對一個復雜問題的探討拆成對多組平均數兩兩之間差異的檢驗。而方差分析的特點是可以同時檢驗兩個及兩個以上樣本均數之間的差異。此外,ANOVA還可以同時分析幾個自變量,并且還能檢驗這些自變量產生什么樣的影響。方差檢驗可以讓我們知道3個或3個以上的小組的平均值之間是否有差異,但是如果發現有差異時,方差檢驗卻不能告訴我們差異究竟出在哪里,是組1與組2和組3之間有差異?還是組2與另兩組之間有差異?要回答這些問題,就需要比較小組之間的平均值。比較的方法有兩種:一種是事前比較(apriorcomparison),這種方法之所以稱為事前比較或事前檢驗,是因為研究者在收集數據之前就已經預計哪組與哪組之間有差異。而事后比較(posthoccomparison)是收集了數據并對其進行了如F檢驗并發現有差異之后進行的組別之間的進一步比較。SPSS軟件中方差檢驗程序提供Contrasts和PostHoc兩個計算功能,如果要進行事前檢驗就選擇Contrasts,然后進行必要的設定;如果進行的是事后檢驗,就選擇PostHoc,以便進行所需要的檢驗方法。具體研究中往往需要同時觀察幾個實驗變量,看看這些變量之間有些什么交互作用。在這種情況下,我們需要做因子實驗設計,進行多因方差分析,分析不同的因子以及因子的交互作用對變量有哪些影響[9]。在查看的文章中,不少作者滿足于頻數、百分比、均值等表面的比較,實際上他們收集的數據非常適合做方差分析。有的則使用了錯誤的推斷性統計方法,如在應該使用方差分析的情況下使用了兩兩t檢驗,還有的犯了統計結果表述方面的錯誤,如只提供屬方差分析一部分的“事后檢驗”(posthoctest)的結果,而未提供方差檢驗的結果。
此外,像其他參數檢驗方法一樣,單因素方差檢驗的數據要滿足以下3個條件:一是正態分布,偏態分布資料不適用方差分析。二是齊性方差,若組間方差不齊則不適用方差分析。三是要滿足獨立性的條件,即一個受試者的觀測值獨立于其他受試者的觀測值。具體說來,在試驗中,每個受試者只被觀察一次,并且受試者是被隨機分配給不同的實驗條件,這樣獨立性的條件就得到了滿足。方差分析與前面討論的回歸分析之間存在一定的關系。對于方差分析,所有的自變量都被視為定類變量;而回歸分析中,自變量可以是各種測度的變量(包括定類變量、定序變量、定距變量和定比變量)。事實上,經常把方差分析看作回歸分析的一種特例,幾乎所有方差分析模型可以由回歸模型來表示,可以用回歸分析的一般方法估計出相應的參數并進行推斷。
2結束語
除了上述較常見的幾種統計手段存在一定的問題外,我們在調查過程中還發現英語專業研究生的碩士論文中還存在設計不夠嚴謹、結果分析過于簡單、樣本過小、對實驗結果未能做出令人信服的解釋等問題,從而無法站在理論的高度來揭示實驗結果中帶有規律性的東西,而只能對觀察到的表面現象進行一些臨時的(adhoc)、印象式的、猜測意味極強的解釋,從而極大地削弱了實驗研究在促進學科理論發展上的重要功能。本調查發現,多種統計方法已經被研究者廣泛使用,但在使用中由于統計知識的匱乏存在不少統計手段誤用的現象,這些問題應引起統計教師的高度重視,在今后的統計教學中不但要教給學生更多、更新、更復雜的統計方法,而更要注意使學生了解不同的統計過程的使用前提條件,以避免使用中由于誤用帶來研究結論的不正確,從而進一步提高外語科研質量。