統計附錄
理解統針:分析數據和形成結論
■分析數據
描述統計
推論統計
■成為一個明智的統計學用戶
關鍵術語
在第2章中,我們注意到心理學家運用統計學來解釋他們收集的數據,同時也運用統計為他們得出的結論提供量化的基礎。因此,了解統計學的一些知識有助于認識心理學知識的獲得進程。從個人角度來講,對統計學有基本的了解有利于你通過分析數據能夠在搖擺不定的觀點和行為中做更好的決定。
大多數學生把統計學看做是乏味的、無趣的課程。然而,統計學在你的生活中有許多至關重要的應用。為了證明這個觀點,我們將追蹤一項研究,從追蹤它怎樣來源于真實世界到為得出一般的結論而使用統計學。這項研究最初要求對一個刊登在報紙頭版的故事做出反應,這是一個關于畏縮的人突然成為殺人犯的故事。故事如下:
“親戚、同事和熟人形容弗雷德·考恩是一個正派的、恬靜的人,一個喜歡孩子的紳士,一個真正的和藹可親的人。考恩上小學時的地方學校校長介紹考恩從前在禮貌、合作和信仰方面得了A。根據他的同事的介紹,考恩“從來不談論任何人,他是你能隨意擺布的人”。然而,考恩令每個認識他的人都很驚訝,在情人節,他手提半自動步槍來到工廠,開槍射擊殺死4名同事、一名警員,最后自殺。
這個故事有個通常的情節:一個害羞的、恬靜的人突然變成殺人犯,令每個認識他的人都很展驚。弗雷徳·考恩與其他突然從紳士轉變成暴力殘忍的人有什么共同之處呢?這些人的個性品質與我們有什么區別呢?
一組研究者懷疑害羞以及其他的個性特征與暴力行為間可能存在一定的聯系(Lee et al.,1997)。因此,這些研究者開始著手收集可能揭示這種聯系的數據。研究者推論,表面上非暴力卻突然犯謀殺罪的人很可能是非常害羞的、不具有攻擊性的人,他們能很好地控制自己的情感和沖動。在大部分生活中,他們都忍氣吞聲。無論他們感覺多么氣憤,他們都很少表達出自己的憤怒。從外表看,他們表現出與自己不相干,但是他們的內心可能正在為了控制強烈的憤怒而斗爭。他們給人的印象是恬靜的、被動的、有責任心的兒童或成人。由于他們是害羞的,他們可能不讓其他人接近,所以沒有人知道他們的真正情感。然后,突然爆發出來。最輕微的刺激——很小的侮辱,輕微的拒絕,一點點社會壓力——點燃了導火索,他們釋放出長久以來累積的那些受壓抑的暴力。由于他們沒學會通過討論和言語談判來解決人際間的矛盾,所以這些突然的謀殺者們把他們的憤怒付諸物質行動上。
研究者基于這些推理做出假設:與習慣性的殺人犯相比,害羞更可能是突然謀殺者特有的特性,這些人殺人但先前沒有暴力歷史或反社會行為,而習慣性的殺人犯先前有暴力犯罪行為的記錄。另外,突然殺人犯比習慣暴力分子更能控制自己的沖動。最后,與習慣犯罪的罪犯相比,突然謀殺者的被動性和依賴性更被表現在女性化和雙性化(androgynous)的特性上,標準的性別角色調查已測量了這一點。
為了檢驗這些關于突然謀殺者的觀點,研究者已獲得批準對加州監獄的一組殺人犯施測心理問卷。19名獄犯(都是男性)同意參加這項研究。犯謀殺之前,一些人已犯過罪,而樣本中的其他人先前沒犯過罪。研究者從這兩類被試身上收集三類數據:羞怯分數、性別角色認同分數和沖動控制分數。
使用斯坦福羞怯調查(Stanford Shyness Survey)收集羞怯分。問卷中最重要的項目是詢問被試是否害羞;答案為是或否。量表中其他項目詢問害羞的程度和類型,以及有關害羞起因的各種維度。
第二個問卷是貝姆性別角色問卷(Bem Sex-Role Inventory,BSRI),給被試呈現一系列形容詞,如好斗的、深情的,要求被試評估每個形容詞適合描述自己的程度(Bern,1974,1981)。一些形容詞典型地與女性化有關,這些形容詞的總分為被試的女性化分數。其他形容詞評占男子氣概,這些形容詞的總分為被試的男性化分數。女性化分數減去男性化分數做為最終性別角色分數,這個分數反映了被試女性化與男性化的差異。男性化與女性化分數的結合表明了被試的兩性化分數。
第二個問卷是明尼蘇達多項人格測驗(Minnesota Multiphasic Personality Inventory,MMPI),這個問卷用于測量個性的不同方面(見14章)。這個研究僅使用“自我過度控制”(ego-overcontrol)量表,這個量表測量了個體控制沖動的程度。被試這個量表的得分越高,被試越表現出過分的自我控制。
研究者預期,與先前有犯罪記錄的殺人犯相比,突然殺人者(1)經常在羞怯調查中描述自己是害羞的;(2)在性別角色最表中選擇更多的女性化特性;(3)自我過度控制的分數更高。他們發現了什么呢?
在你得出結論之前,你要理解一些分析數據的基本程序。研究者收集的真實數據將作為原始材料,用于教你一些不同類型的統計分析和一些可能得到的結論。
■分析數據
對于大多數心理學研究者來說,分析數據是令人興奮的一步——統計分析使研究者得以發現他們的預期是否正確。在這一部分,我們將一步步分析來自突然殺人者研究的數據。如果你已做了預見,那么你將看到一些數字和方程。記住數學是工具;數學符號是一種為了闡明觀點和概念操作的簡略表達方法。
原始數據——實際分數或其他測量——來自于突然殺人者研究的19名獄犯的數據列在表S.1。由表可看出,突然殺人組有10名獄犯,習慣性罪犯組有9名獄犯。乍看這些數據,研究者能感受到你所體會到的困惑。這些分數意味著什么?在各種人格測驗中,這兩組殺人犯有什么差異?僅僅檢驗這種無組織的數據排列是很難知道的。
心理學家依據兩類統計方法:描述統計和推論統計來解釋數據并得出有意義的結論。描述統計(descriptive slaklics)在客觀的、同一的方法基礎上使用數學程序描述數字數據的不同方面。如果你曾計算過你的年級平均成績,那么你就使用過描述統計。推論統計(inferential statistics)利用概率論做出可靠的推論:什么樣的結果可能僅僅是由于隨機變異而產生的。
■描述統計
描述統計是數據的概要描述模式。它用于描述來自于
一個實驗被試或幾組被試的數據。它也能描述變請間的相關。因而,研究者不必努力記住每個被試的所有得分,而是要得到每組被試的典型分數指標。研究者也要測墩典型分數是如何變化的——這些是發散的還是成族聚集在一起的。讓我們看一看研究者如何推導這些測量。
表S.1研究突然殺人犯的原始數據
BSHI MMPI
獄犯 羞怯 女性化-男性化 自我的過度控制
組1: 突然謀殺犯
1 是 +5 17
2 否 -1 17
3 是 +4 13
4 是 +61 17
5 是 +19 13
6 是 +41 19
7 否 -29 14
8 是 +23 9
9 是 -13 11
10 是 +5 14
組2: 慣犯謀殺者
11 否 -12 15
12 否 -14 11
13 是 -33 14
14 否 -8 10
15 否 -7 16
16 否 +3 11
17 否 -17 6
18 否 +6 9
19 否 -10 12
頻次分布
你將如何總結表S.1的數據呢?為了清楚描述各種分數的分布情況,我們得出頻次分布(frequency distribution)狀態——總結每類分數出現的頻次。羞怯分數很容易總結。19個分數中,9個是10個否;在組1中幾乎所有的反應都為是,在組2中幾乎所有的反應都為否。然而,自我過度控制和性別角色分數并不容易區分成是和否兩類。為了解這些數字反應的頻率分布,我們可以比較兩組被試的信息,我們主要討論性別角色分數。
看表S.1中的性別角色數據。最高分是+61(最女性化),最低分是-33(最男性化)。19個得分中,9個是正的,10個是負的——這意味著殺人犯中有9人描述自己是相對女性化的。10人描述自己是相對男性化的。但這些分數在兩組被試中是如何分布的呢?對一組數據進行頻率分布統計的第一步是把分數從高到低進行等級排序。對性別角色分數的等級排序如表S.2。第二步把這些排列后的分數進行分類,組成一些數目更小的類別稱為組距。本研究分了10類,每一類可能包括10個分數。第三步是建構頻次分布表,由高到低列出組距并記錄頻次——落入每組的個數通過頻次分布我們能看出性別角色分數大部分在-20到+9間(見表S.3)。大部分獄犯的得分都不太偏離,即他們的得分既不十分正也不十分負。
現在已把數據排列成幾類。下一步研究者將使用圖解表示頻次分布。
表S.2 性別角色差異分數的等級排列
最高
+61 -1
+41 -7
+23 -8
+19 -10
+6 -12
+5 -13
+5 -14
+4 -17
+3 -29
-33 最低
注:+分表示更女性化; -分表示更男性化。
——————
表S.3 性別角色差異分數的頻次分布
類別 頻次
+60——+69 1
+50——+59 0
+40——+49 1
+30——+39 0
+20——+29 1
+10——+19 1
0——+9 5
-10——-1 4
-20——-11 4
-30——-21 1
-40——-31 1

圖S.1 兩組謀殺犯的羞怯感得分(直條圖)
圖
當用圖來表示數據分布時,常常可以讓人更容易理解它們。最簡單的一類圖是直條圖。這種圖使我們能夠看到數據中存在的模式。我們可以用一幅直條圖表示出把自己描述為容易感到害羞的偶然殺人犯比殺人慣犯多出多少(見圖S.1)。
對于更復雜的數據,如性別角色得分等,我們可以使用直方圖。這種圖類似于直條圖,只是類別換成了間距——數據類別,而不是直條圖中使用的名稱類別。直方圖以視覺方式提供了各間距中得分的數量。從直方圖中的性別角色得分可以很容易地看出,這兩組殺人犯的得分分布是有差別的(見圖S.2)。
根據圖S.1和圖S.2可以看出,數據的基本分布情況服從研究者的兩個假設。與慣犯相比,偶然的謀殺犯更可能會把自己描述成容易感到害羞,也更可能會用帶有女性色彩的特質來描述自己。

圖S.2 性別角色得分(直方圖)
集中趨勢的度量
到現在為止,我們對這些數據的分布情況已經有了一個大致的印象。表和圖增進了我們對研究結果的理解,但我們希望能了解更多一例如,最能代表這一組數據的數值。當我們比較兩組或更多組數據時,這樣的一個數值是非常有用的;比較兩組數據中有代表性的數值要比比較整個數據分布容易得多。只用一個有代表性的分數來作為通過對組被試的測量所獲得的多數典型分數的指標被稱為集中趨勢的度量(measure of central tendency)(它應該位于分布的中央,其他分數則分布在其周圍。)心理學家主要使用三種不同的集中趨勢測量方法:眾數、中數和平均數。
眾數(mode)是一個比其他數出現次數都要多的數值。對于羞怯感的測量值來說,突然殺人犯的眾數反應是yes——10個人中有8個報告說自己是容易感到害羞的。而在慣犯當中,眾數反應是no。在突然的謀殺犯中,性別角色得分的眾數為+5。你能夠計算出他們的自我過度控制分數的眾數嗎?眾數是最容易得出的集中趨勢的指標,但常常又是用處最小的。如果你能夠注意到過控得分中只有一個分數高于眾數17但卻有6個分數低于它這一情況的話,你就可能體會出眾數用處很小的一個原因了。盡管17是頻次敁高的一個得分,但卻不符合我們關于“代表性”或“集中趨勢”的概念。
中數(median)更明顯的也是一個代表集中趨勢的度量;它將一組數據中高分的一半與低分的另一半區分開來。高出中數分數的數量與低于它分數的數量相等。當分數的個數為奇數時,中數是位于數據分布中間的那個分數;當分數的個數為偶數時,研究者常常以最中間的兩個分數的平均值作為中數。例如,如果將殺人慣犯的性別角色得分按照高低順序排列在單獨的一張紙上,可以看出中數是-10,分別有四個分數高于和低于這一數值。在突然的殺人犯中,中數是+5——第五和第六個分數的平均攸,這兩個分數恰巧都是+5。中數不受極值的影響。例如,即使突然殺人犯中最高的性別角色得分是+129而不是這里的+61,中數將仍然是+5。這個分數仍然會把數據中高分的一半和低分的一半區分開來。中數始終處在數據分布的之間位置。
平均數(mean)是多數人聽到平均這個詞時常常會想到的。它同時還是最常用到的描述一組數據的統計景,要計算平均數的話,我們需要把所有數據加在一起,然后再除以這些數據的個數。這一操作可以用下面這個公式來表示:
M=(ΣX)/N
在該公式中,M代表平均數,X是單個的分數,Σ(希臘字母sigma)表示把它后面的內容加在一起,N則是所有分數的個數。由于所有性別角色分數的總和(ΣX)是115,而分數的個數(N)是10,所以突然殺人犯的性別角色得分的平均數(M)可以這樣計算出來:
M=115/10=11.5
可以試著自己計算一下這些犯人的過控得分的平均值。結果將會得到14.4。
與中數不同,平均數會受到數據分布中特定分數的影響。改變某個極值的數值的確會改變平均值。例如,如果4號罪犯的性別角色得分是+101而不是這里的+61,那么整組罪犯的分數平均值就會從11.5增加到15.5。
離散性
除了了解哪一個分數最能代表整個數據分布外,了解這種集中趨勢度量的代表性究竟如何也是很有用處的。其他分數大部分距離它很近還是非常分散?離散性的度量(measures of variability)是描述圍繞在某些集中趨勢度量周圍的分數分布情況的統計量。
你能看出為什么關于離散性的度量非常重要嗎?舉個例子有助于說明這一點。假定你是一名小學教師。現在是一學年的開始,你將教授30名小學生閱讀。了解到本班的兒童一般能夠閱讀一年級水平的課本,這將有助于你安排自己的課程。不過,如果你還了解這30名兒童的閱讀能力的相同或不同程度的話,你就可以安排得更好。他們是否處在同一個水平上呢(低離散性)?如果是這樣的話,那么你就可以安排一門很標準的二年級的課程。但如果有一些兒童能夠閱讀更深的材料而其他人卻幾乎不能看懂它們(高離散性)的話,該怎么辦呢?平均水平現在已經不能夠代表整個班級的情況,因此你需要安排多種課程以滿足這些兒童的不同需要。
關于離散性的最簡單的一類度量是全距(range),即頻率分布中高值與最低值之間的差值。對于突然殺人犯的性別角色得分來說,全距是90:(+61)-(-29)。過控得分的全距則是10:(+19)-(+9)。在計算全距時,我們只需要知道兩個數值:最高值和最低值。
全距易于計算,怛心理學家常常更喜歡用那些更敏感的、將聽有數據都考慮進來而不是只考慮極端數值的度量。一個普遍使用的度量是標準差(standard deviation,SD),它代表著所有分數與其平均數之間的平均差值。要計算標準差,我們需要知道數據的平均值和單個的具體分數。一般的步驟包括先用各個分數減去均值,然后再確定出這些離均差的平均值。公式如下:

你應該能夠根據計算平均數的那個公式認出這里的大多數符號。(X-M)這個表達式的意思是“分數減去平均值”,通常稱之為離均差。先從各個分數中減去平均值,然后將得到的結果進行平方(以消除負值)。把這些數值相加(Σ),然后再除以觀測值的數目(N),就得到了方差的均值。這個符號要求我們對包括在符號內的數值取平方根以抵消前面的平方操作。表S.4中計算出了突然殺人犯過控得分的標準差。回憶一下,這些分數的平均值是14.4。由此,它就是那個必須用各個分數來進行相減以得出相應的離均差的數值。

表S.4計算突然殺人犯自我一過控分的標準差
標準差可以告訴我們一組分數的離散程度。標準差越大,則數據分布越分散。突然殺人犯中性別角色得分的標準差是24.6,慣犯的標準差卻只有10.7。這表明,慣犯組的數據離散程度要低一些。與突然殺人犯相比,他們的分數距離平均值更緊密。當標準差很小時,平均數是整個數據分布的一個很好的代表值。而當標準差很大時,它對整組數據的代表性將減小。
相關
解釋心理學研究數據的另一個有用的工具是相關系數(correlation coefficient),它是關于兩個變量(如身高與體重或者性別角色得分與自我-過控得分)之間相關程度和性質的一個度量。相關系數可以告訴我們在某種度量上的分數與另一種度量上的分數之間的聯系程度。如果在某個變量上獲得高分數的人傾向于在另一個變量上也獲得高分,那么相關系數將為正值(大于0)。如果在一個變量上獲得高分的多數人在另一個變量上卻傾向于得到低分,相關系數將會為負值(小于0)。如果兩個分數間不存在一致的關系,則相關系數將接近于0(也請參見第2章)。
相關系數的取值范圍從+1(完全正相關)到0再到-1(完全負相關)。在兩個方向上離0越遠,兩個變量之間或正或負的聯系就越緊密。相關系數越高,則根據一個變量的信息,可以更好的預測另一個變量。
在突然殺人犯中,性別角色得分與過控分數之間的相關(以r表示)為+0.35。因此,這兩者之間是正相關的——總的來說,那些認為自己具有更高的女性氣質的人同時還傾向于具有高過控特征。不過,與可能出現的最高相關+1.00相比,這一相關只有中等水平,因此我們知道在這兩者之間的關系中有很多例外情況。如果我們同時還測量了罪犯的自尊感,并且在過控分數與自尊感得分之間發現有-0.68的相關,這將意味著這兩者之間存在著負相關。如果確實是這樣的話,我們就可以說,那些具有獲得高過控得分的個體往往自尊感較低。這將是一個比性別角色得分與過控得分之間相關系數更高的相關,因為-0.68比+0.35距離0這一代表著沒有相關的點更遠一些。
■推論統計
我們已經使用了很多描述統計量來描述突然殺人犯研究所得到的數據,現在我們對這些結果的情況有了一定的了解。不過,仍然有一些基本問題沒有得到回答。回憶一下,研究者曾經設想突然殺人犯可能比慣犯更容易感到害羞、更具有過控特征以及女性氣質更重。在用描述統計比較了這兩組罪犯的平均反砬與離散程度后,看起來他們之間確實存在著一些差異。但我們怎么樣才能夠知道這種差異已經大到足夠的程度而具有一定的意義了呢?如果我們以其他一些突然殺人犯和慣犯重復這項研究的話,能夠預期會得到同樣模式的結果嗎?或者,已經得到的那些結果只是隨機現象的產物?如果我們能夠用某種方法對全部突然殺人犯與慣犯進行測量,所得到的平均值和標準差會和我們用小樣本研究所得到的結果相同嗎?
推論統計被用來回答上面這些問題。它們能夠告訴我們可以根據樣本研究做出什么樣的推論,以及根據我們的數據可以合理地得出什么結論。推論統計利用概率論來確定一組數據完全由隨機變化所得出的可能性。
正態曲線
要想理解推論統計是如何進行的,我們首先必須來看一下一種稱之為正態曲線的數據分布的特別之處。當從大量個體身上收集關于某個變量(如身高、智商或過控性等)的數據時,數據的個數常常符合一條大致類似于如圖S.3所示的曲線。注意,這條曲線是左右對稱的(左半部分是右半部分的一個鏡像),呈鐘型——中間高,多數數據處于這一位置,離均值越遠,曲線高度越低。這類曲線稱之為正態曲線(normal carve),或者叫做正態分布。(偏態分布是一條數據集中在某一端而不是圍繞在中央位置的曲線。)

圖S.3正態曲線
在正態曲線中,中數、眾數以及平均數都是同一個數。可以預測,某個分數所占的具體百分比將落在曲線的不同區間里。圖S.3給出了斯坦福-比奈智力測驗所得到的智商分數。這些分數的均值是100,標準差為16。如果以沿坐標底線距離平均值的距離來表示標準差的話,我們可以發現,在平均值100上下1個標準差的范圍內集中了68%多一點的分數。剩下的分數中,約有27%位于平均值下第一和第二標準差(IQ分數68和84之間)以及平均值上第一和第二標準差(IQ分數116和132之間)之間。另有不到百分之五的分數落入高于和低于平均值的第三個標準差范圍內。很少有數據落在這個范圍以外——只有約0.25%。
推論統計指明了所得到的特定分數樣本與你所要測量的內容之間存在著真正關聯的概率,或者說它們是否只是由隨機因素所產生的概率。例如,一個人的智商更有可能是105而不是140,但140的智商出現的可能性又要高于智商35出現的可能性。
正態曲線也可以通過收集一系列完全由隨機因素造成差異的度量來獲得。如果你把同一枚硬幣連續拋10次并分別記錄下正反面朝上的次數,就很有可能各得到5次——多數時候是這樣。如果像這樣連續拋100組的話,有可能會得到一些全部為正面朝上或沒有正面朝上的情況,也會得到更多的次數介于這兩個極端數值之間的情況,其中最多的是正面或反面為五次左右的情況。如果把這1000次拋硬幣的情況做成一幅圖的話,將會得到一條非常吻合正態的曲線,正如圖中所示的那樣。
統計顯著性
當研究者在兩組樣本的均值之間發現有差異后,他肯定想知道這是一個真正的差異還是只是因隨機因素而出現的差異。由于隨機差異服從正態分布,研究者可以用正態曲線來回答這個問題。
舉個簡單的例子可以說明這一點。假定你的心理學教授希望知道監考人的性別對于男女學生的考試成績是否會有影響。為此,教授隨機把一半學生分配給一位男監考老師,另一半分配給一位女監考老師。他然后比較了兩組學生的平均成績。這兩個平均數很可能會非常相似;如果有一些微小的差異,也很可能是隨機出現的。這是為什么呢?如果只有隨機因素在起作用且兩組學生來自同一個總體(無差異)的話,那么男監考老師和女監考老師這兩組樣本的分數均值在大多數時候都應該是相當接近的。根據正態分布中不同區間里分數所占的百分比,我們知道,男監考老師組中只有不到三分之一的學生成績會比女監考老師組中學生的平均成績高出或低出一個標準差。男監考老師組中學生的平均成績比女監考老師組中學生的平均成績高出或低出三個標準差的可能性是非常小的。如果某位教授確實得到了這么大的一個差異,那么他可以相當有把握地認為這是一種真實的差異,在某種程度上與監考老師的性別有關。接下來的問題將是這個變童是如何影響測驗成績的。
如果男女學生被隨機分配給兩類監考人,就有可能來分析監考人之間出現的差異在兩組學生中是否一致或者只是局限于某性別的學生。假定有數據表明,男監考老師給女學生的評分高于女監考老師的評分,而兩者對男學生的評分卻相同。教授就可以利用統計推論程序來估計某個觀測到的差異因隨機因素而出現的概率。這種計算的依據是差異量的大小和數據的分布情況。
根據已經達成的一致認識,當由隨機因素導致的概率不足5%(以p<.05來表示)時,心理學家將接受這個差異為“真”。顯著差異(significant difference)是指符合這一標準的差異。不過,在某些情況下可能還會使用更嚴格的概率標準如p<.01(100中不足1個)和p<.001(1000中不足1個)。
當出現了統計意義上顯著的差異時,研究者可以對所考察的行為做出一個結論。有很多不同的檢驗方法可以用來估計數據的統計顯著性。選擇何種檢驗方法將取決于研究設計、數據類型以及樣本的大小。我們在這里只介紹一種最常使用的檢驗,即t檢驗。當研究者希望知道兩組數據的均值差異是否達到統計上的顯著性時,就可以使用這種檢驗。
我們可以用t檢驗來考察突然殺人犯的性別角色得分均值與慣犯的得分均值之間是否有顯著差異。它使用一種數學程序來驗證你可能已經根據圖s.2得出的一個結論:兩組罪犯性別角色得分的分布差異已經達到了為“真”的程度。如果我們做一項恰當的計算——它將兩個均值之間的差異作為這些均值之間離散性的函數來進行處理——我們會發現,如果不存在真正差異的話,獲得這樣一個t值的概率很小,不足5%(p<.05)。因此,這種差異在統計上是顯著的,我們可以很肯定地認為這兩組罪犯之間存在著一個真正的差異。與慣犯相比,突然殺人犯確實把自己評價為女性氣質更重一些。另一方面,兩組罪犯過控分數的差異并沒有達到統計的顯著性(P<.10),因此我們在討論這個差異時必須非常謹慎。在研究者所預測的方向上出現了一個趨勢——這是一個在100次中會出現10次的差異。但是,這一差異并不在標準的5%的范圍內。(在用另外一種統計檢驗對得分頻率進行分析時,害羞感的差異達到了顯著水平。)因此,通過使用推論統計,我們能夠回答在開始進行研究時提出的一些基本問題,能夠更深入地了解那些突然從性情溫和、容易害羞的人變成殺人犯的個體心理。但是,任何結論都只是一種關于所研究的事件之間可能存在的相互關系的論斷;它永遠不會是確定性。科學研究中的真理都是暫時的,總會有后來更好的研究資料而被修正,由更好的假設而發展。
■成為一個明智的統計學用戶
既然我們已經學習什么是統計、如何使用統計以及它們的意義,就應該簡要地討論一下它們可能被錯誤使用的情況。很多人往往會接受那些沒有得到證實而只是由關于某種統計量的權威個人的看法所支持的“事實”。其他人則會簡單地相信或者否定統計處理的結果,而根本不知道該如何考察那些用來支持某種產品、政治家或提案的數據。在第2章末尾,我們曾經提出了如何成為一位明智的研究使用者的建議。報據本章對統計學的簡短介紹,我們可以將這牲建議拓展到進行統計判斷的情景中。
在進行統計分析時,有很多方面會給人造成一些有誤導的印象。研究工作的各個階段中所做的決策——從如何選擇被試到如何設計研究、選擇何種統計方法以及如何進行統計等各方面——對于從這吟數據中得出的結論都有著復雜的影響。
在報告研究結果時,使用哪些被試往往會造成很大的差異,而這種差異很容易被忽略。例如,在調査人們關于墮胎權的觀點時,在南部一個原教旨主義小社區里做這項研究會得到和在紐約市的大學里做這項研究很不同的結果。同樣,職業生活組在調查成員的意見時所得出的結論很可能會和職業選擇組在做同一調查時所得到的結論不同。
即使通過一定的方法對被試進行了隨機選擇而沒有出現偏倚,如果不能滿足統計學的基本假設,統計分析也會得出一些誤導結果。例如,假定有20個人參加智力測驗;其中有19個人的得分在90-110之間,另有1人的得分是220。這組分數的均值將會因為這個偏離多數而極高的分數而被大大地抬高。在這類數據中,中數或眾數能更準確地反映這組人的平均智力,而平均數卻會使得結果看上去好像是這組人中的一般人都具有高智商。但另一方面,如果這組人的數量是2000而不是20的話,一個極端數沮并不會造成很大的影響,此時平均數將是對該組人智力的一個合理概括。
避免出現此類錯誤的一個好方法是檢查樣本的大小——大樣本比小樣本出現誤導結果的可能性要小。另一個方法是同時檢查中數、眾數以及平均數——當這三者近似而不是有很大差別時,可以更有把握地對結果進行解釋。我們應該始終仔細地檢査所使用的方法和報告出的研究結果。要注意研究者是否報告有樣本大小、離散性的度量以及顯著性水平。試著去檢查他們所使用的方法是否準確且一致地測量了他們自己聲稱正在研究的內容。
統計是心理學研究的支柱。它們被用來理解觀測到的結果,并被用來確定這些發現是否正確。運用我們介紹的這些方法,心理學家能夠整理出數據的頻次分布,并計算出這些分數的集中趨勢和離散性。他們還可以用相關系數確定出幾組分數間相互聯系的強度和方向。最后,心理學研究者能夠確定出觀測值對總體的代表程度以及它們是否與總體有顯著差異。統計學也有可能會被錯誤地使用,誤導那些不了解的人。但通過正確且合乎道德地應用統計學,它們將使得研究者能夠擴展關于心理學的知識。
關鍵術語
相關系數
推論統計
眾數
描述統計
平均數
正態曲線
頻次分布
集中趨勢的度量
全距
離散性的度量
顯著差異
中數
標準差(SD)