書名：實驗心理學（第四版）
作者名：朱瀅
本章字數： 18100字
更新時間： 2019-08-16 17:36:01

2　實驗設計與準實驗設計

一、實驗設計

“由于歷史的意外事件，解釋數據資料的誤差理論的發展與實驗方法無關，因此，極為重要的原則被忽視了，這個原則是，實驗的實際結果一定要制約統計程序對結果的解釋（Plutchik，1983）。”幾十年前，Fisher提出了一條重要的原則，即實驗結果本身、實驗設計方法高于統計。在實驗研究中我們選擇實驗設計方法時，所考慮的遠不止統計的問題。而且，有時候現實生活提出的問題并沒有統計模型可以模擬，但它的確是真實的問題。在討論實驗設計方法之前讓我們認真思考并記住Fisher的原則。

實驗設計可以看作是安排實驗各種條件的方法，實驗設計的目的在于消除或減少誤差以便達到實驗的目的，即確定某些變量、找出事件的原因。但實驗設計不是死記硬背的公式，可以簡單地把各實驗組塞入公式而答案就由計算機給出。恰恰相反，在選擇各種設計時通常會有許多困難的決策。

（一）隨機組設計

隨機組設計（random groups design）屬于組間設計，它把被試分為兩組，隨機組1和隨機組2，其程序如下：

隨機組1：實驗處理測驗

隨機組2：無處理測驗

或者如表2.1所示：

表2.1　隨機組設計

沒有施加處理的隨機組2通常叫作控制組，它代表著一種參考水平來決定實驗組（實驗處理）是否有效。但這種設計的前提是實驗組與控制組在測驗前各方面都一樣，這樣，如果兩組在測驗上有差別，邏輯上就可以歸結為是實驗處理造成的。在實踐中要隨機挑選兩個等組并不容易，因此，在應用隨機組設計時一方面要盡可能做到隨機挑選被試，另一方面還可以應用如下擴展了的隨機組設計：

隨機組1：→—無處理測驗

隨機組2：x數量的處理→測驗

隨機組3:2x數量的處理→測驗

隨機組4:3x數量的處理→測驗

隨機組5:4x數量的處理→測驗

其中的x，2x，3x等代表自變量的不同水平，并不一定是整倍數的關系。

Craik（1994）開展的一項關于老年記憶的研究就是應用了這種擴展的隨機組設計。他挑選了三組特點各異的老年組與青年組匹配，如表2.2。然后在各種實驗條件下被試學習單詞，學習完畢進行測驗，測驗結果如表2.3。為了理解表2.3，我們首先介紹Craik（1990）關于老年記憶的基本觀點。Craik認為，像“晶態智力”在成年后并不減退而“液態智力”隨年齡增長出現減退一樣，某些記憶測驗中年齡差異很大，而另一些記憶測驗卻沒有年齡差異，這些不同記憶測驗得到的結果應該由不同測驗任務所要求的加工類型來說明。如果測驗任務能得到強有力的環境線索的提示與支持，老年被試的記憶操作相對不受損害；如果測驗任務無法得到環境（線索）的支持，而要求老年被試自己有意識地發動、組織有關的心理過程來完成，老年記憶的衰退就表現出來了。表2.3中的結果的基本特點是在組別與實驗條件之間存在顯著的交互作用。線索學習或線索回憶由于具有環境的支持因而能抵消老年化部分的消極影響。例如，在沒有任何線索的自由學習-自由回憶條件下，老年1組與老年2組的成績均不如青年組，但在線索學習-線索回憶條件下這兩組的成績與青年組一樣好，甚至老年3組的成績也相當好（5.5）。老年1組與2組的年齡、活躍程度相似，但社會經濟狀況不同，詞語得分不同，表現在記憶成績上1組比2組更好一些，例如，老年1組在②與③條件得分與青年組成績接近。而老年2組只在②條件下與青年組成績接近。總之，由于設立了三個老年組，他們在年齡、社會經濟狀況、詞語能力與社會活躍程度各不相同，較好地代表了老年人群，因而實驗結果具有較強的概括性。

表2.2　四組被試各種特點

表2.3　四組被試的回憶成績

（二）組內設計

組內設計（within-groups design）又稱重復測量設計，其基本思想是一個被試或一組被試按一種順序完成各實驗條件，而另一個被試或另一組被試在另一種順序中進行實驗，而且，被試必須隨機地分配到不同的順序上。

組內設計中每一被試都以自己為對照條件，這是其優點。由于同一被試在幾種實驗任務中，或在同種任務的重復測量中的結果傾向于高度相關，因此顯著性檢驗的標準差值（許多對樣本平均數的差形成的樣本分布的標準差，standard error）就減少了，從而導致易于檢測出較小的效應。從這點看來，組內設計比隨機組設計對統計檢驗更為敏感。組內設計也不需要事先對被試進行測驗以在某一特點上平衡被試（而隨機區組設計要求實驗前進行測量），因為每一被試與自身相比已經完全平衡。

組內設計的缺點在于，一種實驗條件下的操作將會影響另一種實驗條件下的操作，也就是實驗順序造成了麻煩。因為組內設計的實驗中每一被試輪流在各種實驗條件下進行實驗，因此會使自變量與“練習”或“疲勞”的因素混淆起來。為了消除實驗順序帶來的缺點，一是隨機地排出各實驗條件下的順序，二是采用抵消平衡的方法。

抵消平衡被試接受實驗條件（自變量）的順序，使每種實驗條件以各種順序出現的機會相同，以達到平衡由重復測量所產生的無關變量對因變量的混淆作用。表2.4給出了三種色光反應時實驗的系統抵消平衡順序的一個例子（黃一寧，1998）。

表2.4　抵消平衡無關變量接受自變量的順序

對同一問題的研究如果使用不同的實驗設計方法可能會有不同的結果。Challis和Brodbeck（1992）在綜述了大量文獻之后發現，雖然流行的觀點認為加工水平（levels of processing）對補筆測驗不起作用，但仍有少數實驗報告表明，加工水平的確影響了補筆效果。而且，普遍的情形是語義條件（深加工水平）比單詞的物理特征條件（字形、發音等淺加工水平）的補筆效果要大，雖然兩者達不到顯著性差異，但這一現象反復出現也不應忽視。他們認為，實驗設計是影響補筆測驗中加工水平效應的一個重要因素，因而系統地進行了實驗。結果表明，組內設計（交替，mixed）不存在加工水平效應，但隨機組設計與組內設計（區組，blocked）存在加工水平效應。

上述Challis和Brodbeck（1992）的研究表明，實驗設計已成為影響因變量的自變量之一，這一點二十多年前Plutchik（1983）也已經指出來了。當前，心理學研究正愈來愈多地應用腦成像技術，選擇什么樣的實驗設計仍然是研究者關心的問題。例如，Kelley（2002）認為，區組設計不適于研究自我參照思考（self-referential thought），因為區組設計中有關自我的人格形容詞是以區組（連續）的形式呈現的，因而激起的內側前額葉的活動不僅與單個的人格形容詞有關，也與由于連續要求被試參照自我來加工人格形容詞引起的更一般的自我狀態（a more global cognitive state）有關，這樣，區組設計有可能混淆單個人格形容詞（stimulus specificity）與任務要求（task specificity，即參照自我）。他們建議使用事件相關fMRI設計（event-related fMRI）。

（三）隨機區組設計

隨機區組設計（randomized-block design）要求首先對被試作測驗，然后按成績分組，再把實驗條件隨機分配給各組中的被試。

假設我們做三種不同預備時間（200 ms，300 ms和400 ms）對反應時的影響的實驗。按照隨機區組設計，我們首先測量被試的反應時（預備時間設為1.5 s），按照被試反應快慢排序分組（A到L），反應最快的前三名組成第一組，其次的三名構成第二組，等等（表2.5）。

表2.5　隨機區組設計示例

經過這樣的分組（block），每組中被試的差別是很小的，換句話說，可以把每組看成一個人一樣，然后，將實驗條件200 ms，300 ms和400 ms隨機分配到各組中（表2.6）：

表2.6　各組隨機分配示例

這樣，由于A, B，C被試之間的差別不大，第一組就是由類似的被試構成（頭三名在反應時上類似），而每組內的差別就成了實驗條件200 ms，300 ms與400 ms之間的差別。同理，第二組、第三組與第四組也是如此。因此，“區組”指設計中使用了區組，而不是單個的被試；“隨機”指實驗條件是隨機分配到各區組的單個被試上的。

隨機區組設計中的每個被試只在一種實驗條件下進行實驗，因而避免了不同實驗條件順序的影響，因此，它具有組間設計的優點。又因為隨機區組設計要求在一個區組中的被試在某一特點上是類似的，這樣，對各個實驗條件來說，被試基本上是類似的，這一點又類似于組內設計，因此它又具有組內設計的優點。混合設計也具有組間設計與組內設計的優點，但隨機區組設計把類似特點的被試安排在一個區組內的做法比混合設計中對被試的選擇更好。隨機區組設計也有它的局限性：第一，這種設計的價值依賴于實驗前的預測驗對正式實驗的預測性，預測性愈高價值愈大。第二，它的有效性還取決于實驗條件的多少。實驗條件過多（比如6種實驗條件），那么，每個區組就要有6名被試，應用到剛才敘述的例子中，我們就得假定反應時的第一名與第六名是類似的，這似乎不大合理。因此，3～4種實驗條件采用隨機區組設計比較恰當。

（四）拉丁方設計

拉丁方設計（Latin Square design）的要求是，每種條件在橫行的順序中只出現一次，在縱列中也只出現一次，如一項藥物實驗的安排見表2.7。在表2.7中，被試分成3組。第1組先做安慰劑的實驗，然后做高劑量藥物的實驗，最后做低劑量藥物的實驗；而第2組與第3組做實驗的順序則不同。由此可見，拉丁方設計的優點在于使用了完善的抵消誤差的措施（不同的實驗順序），因而同時能測量多種變量（安慰劑、高劑量藥物和低劑量藥物）。

表2.7　一項藥物實驗的拉丁方設計

統計學圖書中一般有已排列好的拉丁方供使用，例如（表2.8）：

表2.8　可供使用的拉丁方順序示例

在表2.8的拉丁方中，A, B，C, D代表四種實驗條件，由于每種實驗條件在橫行與縱列中只出現一次，因此保證了整個實驗中每種實驗條件在順序的各個位置都出現過，這就避免了由于順序不同造成的混淆（order effect）。但上面的拉丁方中，B總在A后面，D總在C后面，等等。如果A, B，C, D是不同的解決問題的任務，而A含有一些線索有助于解決B，結果在A, B的順序中B的成績要好于B, C順序中B的成績，這就是傳遞效應（carry-over effect）。為了避免傳遞效應，我們介紹一種安排拉丁方的方法。假設我們有幾個自變量，那么，實驗的第一種順序就是：

1，2，n，3，n-1，4，n-2，5，n-3……

在這里，1代表第一種自變量，2代表第二種自變量，3代表第三種自變量，等等。第二種順序是依次在第一種順序上加1，第三種順序是依次在第二種順序上加1，等等。而且，各順序中遇到n時，改為1。這樣，第二種順序就是：

2，3，1，4，n，5，n-1，6，n-2……

當n=4時，拉丁方的安排如下：

當n=3時，不能用拉丁方排除傳遞效應，只能用平衡方塊設計（balanced square de-sign）解決。設A, B，C為三種實驗條件，有關的平衡方塊如下：

平衡方塊的思想可以應用于一個組的被試（a single group）參與許多條件的實驗而又要避免順序效應。例如我們想要測年輕人的聽覺敏感性，頻率有500，1000，2000，5000和10000 Hz，那么，下列安排可以使用（A, B，C, D，E代表不同的頻率）：

A, B，C, D，E, E，D, C，B, A

按這樣上升（ascending）和下降（descending）的順序多次重復實驗，就可平衡掉任何順序效應。

拉丁方設計最初應用在農業研究中以避免種植土壤的不同帶來的變異。一片田野被分割成許多塊，橫排成行，縱列成行，每一塊土地施加一種實驗處理。這樣，在一塊土地上的實驗處理與另一塊土地上的實驗處理并沒有必然的聯系，數學上這意味著塊之間不存在交互作用。然而在心理學研究中，不同的實驗條件在順序中并不是彼此獨立的，即存在交互作用。如果事先我們有理由相信，將要進行的實驗會有交互作用，那么，我們應該選擇別的設計方法，如隨機區組設計。

（五）交互作用：多于一個自變量的實驗1

心理學研究很少只用一個自變量進行實驗，常常同時選用兩個到四個自變量，這樣做的優點很多。第一，做一項有三個自變量的實驗比分別做三個實驗的效率要高。第二，做一項實驗比分別做三項實驗易于保持控制變量恒定。第三，也是最重要的，在幾個自變量同時并存的情形下所概括的實驗結果比從幾個單獨實驗所概括的結果更有價值，更接近生活實際。下面，以一項社會心理學實驗研究為例，對多自變量實驗設計與優點，進行說明。

在某大學校園的咖啡店里，主試耐心等待，當他看到小桌子（只供2個人用）或是大桌子（只供4人用）旁邊坐著一個學生時，就來到他（她）跟前，有禮貌地詢問能不能坐下，得到允許坐下后，這個主試弄來一份午飯。不久，主試離開桌子去買杯飲料，想象著留在座位的人會幫他照看午飯。這時，一位裝束同咖啡店招待員一樣的主試的同伙來到桌邊，問這個學生，留在桌上的午飯是否是他（她）的，就在學生解釋吃午飯的人很快就會回來以前，假招待員已經把午飯掃走，扔進垃圾桶內。當主試回來時，看見午飯沒有了，就問這個學生是怎么回事，并且試圖向這個學生借錢再買一份午飯。有時候，午飯不是由假招待員掃走，而是主試假裝不小心弄掉在地上，然后向學生借錢。這樣，這個實驗的因變量就是，學生即被試愿意借多少錢給一位陌生人（主試）。由上述實驗情節可以想見，影響借錢數量的因素有兩個。第一，學生所在桌子大小。因為桌子大小會造成學生與主試的空間距離不同，從社會心理學的觀點看來，這會影響到兩人的親密程度。第二，處理午飯的方式：午飯是被別人掃走還是自己弄掉的。不同的處理方式可能激起學生同情的程度是不一樣的。午飯被掃走使學生感到自己有點責任，而午飯掉地則與己無關。上述兩個因素也就是這個實驗的兩個自變量，每個自變量又各有兩個水平：①桌子：大或小；②處理午飯方式：掃走或掉地。

實驗結果見圖2-1。圖2-1表示，愿意借出較多的錢來幫助午飯被掃走的人只是坐在小桌子邊上的學生；坐在大桌子邊上的人對午飯被掃走或是掉地一視同仁，都只愿意借出少量的錢。在這里，我們想引出交互作用的概念（interaction）。一項實驗中有兩個或兩個以上自變量，當一個自變量的效果在另外一個自變量的每一水平上不一樣時，我們就說存在著（自變量的）交互作用。例如，僅僅坐在小桌子邊上并不能保證讓學生多借錢給陌生人，小桌子的作用大小要依賴午飯是怎樣處理的，如果午飯是弄掉地的，學生只借出少量的錢，只有午飯被掃走，學生才肯借出較多的錢。換句話說，桌子大小這一個自變量的作用，受午飯處理方式的制約即在另一自變量不同水平上是不一樣的，所以我們說，這項社會心理學實驗顯示了交互作用。

圖2-1　兩個自變量對借錢數量的影響

圖2-2　桌子大小對借錢的影響

假設這項實驗是兩項單獨的實驗。第一項實驗中，只有桌子的大小是唯一的自變量，而午飯的“遭遇”是控制變量、即午飯總是被掃走。那么實驗結果將會如圖2-2所示。圖2-2表明，坐在小桌子邊上的人會借出較多的錢。但是從這個實驗結果，研究者不知道，要是午飯掉地，桌子的大小就不起什么作用。在第二項實驗中，處理午飯的方法是自變量。桌子大小是控制變量，要是用大桌子來做實驗（即把大桌子當作控制變量），將會獲得沒有意義的結果——不管午飯的“遭遇”怎樣，人們只愿意借出大致相同數目的錢（見圖2-3）。但是從這個結果，研究者不知道，要是用小桌子做實驗，借錢數量是有差別的。將圖2-1與圖2-2、圖2-3比較我們可以看到，分別做兩個實驗（即獲得圖2-2與圖2-3的結果），我們會喪失許多信息，而在一項實驗中包括兩個或多個自變量，我們會獲得較多的信息。

讓我們再重復一下這項實驗所顯示的交互作用（參見圖2-1）：處理午飯方式這一自變量的效果在另一自變量的不同水平上（桌子大或小）不一樣。當午飯被掃走，桌子大小導致借錢數目不同。如果午飯掉地，桌子的大小就無關緊要，換句話說，桌子大小這一自變量的效果在另一自變量——處理午飯方式的不同水平上（掃走或掉地）不一樣（如果桌子小，處理午飯的不同方式導致借錢數目不同。如果桌子大，處理午飯的方式就無關緊要）。

圖2-3　處理午飯的方式對借錢的影響

2-4　兩個自變量對借錢數量的影響（無交互作用）

在這個社會心理學實驗中我們還想補充三點：

（1）自變量至少是以兩種水平存在的，桌子作為一個自變量至少是大或小的，如果桌子只是大的，那么，桌子就不是自變量而是控制變量了（如圖2-3）。換句話說，自變量不能只有一個水平。午飯處理方式也是這樣，它至少有兩種方式（即兩種水平），如果處理午飯的方式只是一種（都是被掃走的或都是掉地的），那它就不是自變量而是控制變量了（見圖2-2）。

（2）當把實驗結果作圖表示時，只有一個自變量的實驗，自變量總是用橫坐標表示，因變量永遠用縱坐標表示（見圖2-2、圖2-3）。如果實驗包括兩個以上的自變量，那么一個自變量用橫坐標表示，其余自變量畫在圖上，因變量永遠用縱坐標表示（見圖2-1）。在任何情形下，控制變量都不出現在圖中，但必須用文字在適當地方說明。

（3）交互作用反映在圖中，表現為圖中的線是交叉的（見圖2-1）。如果圖中的線是平行的，就說明該實驗不存在交互作用。假設上述的社會心理學實驗結果如圖2-4所示，那就不存在交互作用。因為任何一個自變量的效果對于另一個自變量的兩個水平來說都是相同的。這就是說，不管午飯是掉地或被掃走，坐在小桌子邊上的人總是愿意借出更多的錢；還有，不管坐在小桌子或大桌子邊上的人都愿意借出更多的錢給午飯被掃走的人，這就是圖2-4說明的問題，平行線總是意味著沒有交互作用發生。當然，圖2-4是虛構的，圖2-1才是真實的實驗結果。

我們想強調一下，交互作用是本章中最重要的概念之一，我們還將在本書其他章節，也就是說在心理學幾個最重要的領域中舉例說明它。如果你能恰當地理解它，將會幫助你去理解各種心理學問題。

（六）因素設計及其數據處理2

1.因素設計

心理學實驗一般都應用兩個或兩個以上的自變量。這是因為研究者通常想要對某一問題提出多種可能的解釋，然后通過實驗來排除某些解釋。例如，一個小孩有一樣心愛的玩具，這個玩具是有絨毛、彩色的，并且還會發出聲音，如果你想知道小孩到底被玩具的什么特點所吸引，你可以把同樣的玩具做成三種不同的樣子：

A：有絨毛，無彩色，不會發出聲音

B：無絨毛，有彩色，不會發出聲音

C：無絨毛，無彩色，會發出聲音

玩具A測試小孩對絨毛的喜愛，B測彩色，C測聲音。A與B都不會發聲，所以它們控制了聲音，類似地，A與C控制彩色，B與C控制絨毛，所以，為了檢驗三個假設，你必須有三種條件（即三種玩具）。每一種玩具都起到部分的控制條件的作用，而每一種玩具也包含一個自變量。這樣，在這個實驗中我們變化了三種自變量。

在一次實驗中使用多個自變量的另一個重要理由是，一個自變量的作用可能依賴于另一個自變量的不同水平，即自變量之間很可能存在交互作用。例如，被試強烈的動機會改善容易任務上的操作，但遇到特別困難的問題時卻會產生相反的效果，這就是說強烈動機的作用依問題的難易水平而不同。

因素設計（factorial design）是關于兩個或多個變量（因素）的一種實驗設計，它的特點是將實驗中每一變量的各個水平都結合起來進行實驗。因素設計的最簡單形式就是實驗中有兩個自變量（因素），每個自變量各有兩種水平。這就是人們熟知的2×2因素設計，2×2的因素設計一共有4種可能的結合（見表2.9），我們把不同因素按水平形成的各種組合叫作處理。各種處理的總數是各因素所包括的水平數的乘積。這樣2×2的因素設計就有4種處理。

表2.9　2×2因素設計

如果一個因素有兩種水平，而另一種因素有三種水平，那么我們就叫這樣的設計為2×3的因素設計，共有6種可能的處理（見表2.10）。

表2.10　2×3因素設計

在剛才舉的玩具的例子中，我們使用三個自變量：絨毛、彩色和聲音。每個自變量各有兩種水平：有或無（例如，有絨毛或無絨毛）。于是我們有一個2×2×2的因素設計，共有8種處理（見表2.11）。將這8種結合都實驗以后，也許我們才知道，小孩最喜歡的不是玩具的某一種特點，而是這些特點的某種結合。例如，她最喜歡帶彩色又有絨毛的玩具，但對于只有絨毛或只是彩色的玩具并不感興趣。

因素設計一般使用兩個或三個因素，每個因素有2～6種水平，因素再多或水平再多都將使實驗變得十分復雜而難以進行，并且即使進行實驗，其結果也很難解釋。

表2.11　2×2×2因素設計

因素設計既可以按組內設計也可以按組間設計進行，但組間的因素設計更常見。混合的因素設計至少有一個變量按組內設計、一個變量按組間設計。

如果表2.9的2×2因素設計是按組間設計安排的，那么，由于有4種結合，我們需要4個組來進行實驗。如果對每種結合我們都使用8名被試的話，則可以采用像表2.12這樣的分配方式。

表2.12　2×2因素設計（組間設計）

如果表2.9中的2×2因素設計是按組內設計安排的，由于組內設計要求每個被試都在每一種實驗條件下進行實驗則一共有4種可能的實驗條件，所以每個被試都需要進行4次實驗。設J代表A1B1的實驗條件，K代表A2B1，L代表A1B2，M代表A2B2，那么，可用拉丁方的方法排列實驗順序如下：

表2.13　2×2因素設計（組內設計）

對比表2.12與表2.13可以看到，組內設計大大節省了被試數量。例如，在表2.13中，每名被試都參與K（A2B1）的實驗，8名被試就獲得對A2B1反應的8個數據；表2.12中被試17～24參與A2B1的實驗，也有8名被試獲得對A2B1反應的8個數據。但是就整體而言，組間設計需要名被試，而組內設計則只需要名。

如果表2.9中的2×2因素設計是按混合設計安排的，那么設變量A用組內設計安排，變量B用組間設計安排，則可以采取表2.14這樣的分配方式。

表2.14　2×2因素設計（混合設計）

2.因素設計的數據處理

下面以舉例的形式介紹兩種典型的因素設計的數據處理方法。

（1）2×2因素設計（組間設計）的方差分析

有一個關于互助行為的實驗是這樣的：把課堂筆記借給同班同學是一種互助行為，為了研究這一行為，研究者對兩個因素進行了操控。一個因素是需要借筆記的原因，原因分兩種水平，一是缺乏記筆記的能力，一是沒有用心聽講；另一個因素是需要借筆記的頻率，頻率也分兩種水平，一是經常需要借，一是偶爾需要借。這個實驗按2×2因素設計（組間設計）進行，假設獲得的數據如表2.15所示：

表2.15　互助行為實驗的假設數據

注：這些數據可按表2.12的分配方式獲得

表2.16是進行方差分析計算的有關項目與公式，假設各小組的方差沒有顯著性差異。

為了按表2.16的方式進行計算，我們把表2.15改變成表2.17，并把40個數據合并成4個數據。

表2.16　方差分析的項目與公式（組間設計）

表2.17　數據的重組

注：Xij=每個單元中的數據，在這里，它們是42，35，34，27。

I=2，J=2，K=10（表2.15中，每單元10個數據）

N=40（總共40個數據）

讓我們把表2.17中的數據分別代入表2.16中各項目的公式：

①I之間自由度：I-1=2-1=1

I間F：

②J之間自由度：J-1=2-1=1

J間和方

J間均方：

J間F：

③交互作用（I×J）自由度：（I-1）（J-1）=（2-1）（2-1）=1

I×J的和方：

④誤差自由度：IJ（K-1）=2×2×（10-1）=36

誤差和方：

誤差均方：

⑤總計自由度：IJK-1=N-1=40-1=39

總計和方：

將計算的結果排列成表2.18。

表2.18　方差分析組間設計的2×2的因素設計

*p＜0.01

F值的顯著性水平表明：I間差別即頻率的兩種水平對互助行為的影響是有顯著差異的；J間差別即原因的兩種水平對互助行為的影響也是有顯著差異的。同時我們還知道，在頻率與原因之間不存在交互作用。

（2）2×2因素設計（混合設計）的方差分析

這是一項關于心境對學習影響的實驗，研究者假設，故事中的情節與讀者的心境一致時，讀者對某情節記得好；兩者不一致時，則記得不好。通過一定辦法造成不同被試高興或不快的兩種心境。然后讓他們閱讀關于兩個人的故事，與A有關的故事都是高興的，與B有關的故事都是不快的。讀完故事后第二天，在被試處于平和心境時，要求被試盡可能回憶所讀故事。結果發現，被試高興時對故事中讓人高興的情節記得較好被試不快時對故事中讓人不快的情節也記得較好。見表2.19及圖2-5。本實驗中被試心境是組間設計，即一組被試高興，另一組被試不高興；故事情節是組內設計，即每一被試讀的故事既有高興的情節也有不快的情節。

表2.19　心境對學習影響結果

注：這些數據可按表2.14的程序獲得。

2-5　心境與情節對記憶的影響（參見表2.19數據）

表2.20是方差分析的各種公式。

表2.20　方差分析的項目與公式（混合設計）

為了按表2.20的公式進行計算，我們把表2.19改變成表2.21，并把20個數據合并成4個數據。

表2.21　數據的重組

注：I=2，J=2，K=5（表2.19中每單元5個數據），N=20（總共20個數據）。

讓我們把表2.21中的數據分別代入表2.20中各項目的公式：

組間

①不同心境間（對高興情節）

自由度：I-1=2-1=1

②不同心境間（對不快情節）

自由度：I-1=2-1=1

③單元內

自由度：IJ（K-1）=2×2×（5-1）=16

組內

④不同情節間（對高興心境）

自由度：J-1=2-1=1

⑤不同情節間（對不快心境）

自由度：J-1=2-1=1

交互

⑥交互作用（情節×心境）

自由度：（I-1）（J-1）=（2-1）（2-1）=1

⑦交互作用（情節×被試）

自由度：I（J-1）（K-1）=2（2-1）（5-1）=8

和方：

將計算結果列表如下：

表2.22　方差分析（混合設計的2×2因素設計）

讓我們來看一看表2.22能告訴我們些什么。①不同心境之間（對高興情節）的回憶差異顯著，說明被試高興時對高興情節的記憶遠遠超過被試不快時對高興情節的回憶。②不同心境間（對不快情節）的回憶差異顯著，說明被試不快時對不快情節的記憶遠遠超過被試高興時對不快情節的記憶。③不同情節之間（對高興心境）：被試高興時對高興情節的記憶顯著好于對不快情節的記憶。④不同情節之間（對不快心境）：被試不快時對不快情節的記憶顯著好于對高興情節的記憶。⑤交互作用（情節×心境）：被試的不快心境對記憶的影響依賴于要回憶的情節的性質，如果情節使人不快，記憶好；如果情節使人高興，記憶差。即（不快的）心境這一自變量的效果在另一自變量（情節）的兩種水平（使人高興的或使人不快的）上是不一樣的。換句話說，當存在交互作用時，某一自變量的影響不是絕對的。當被試高興時的交互作用請讀者自己分析；當情節是使人高興的，那么也只是被試高興時才記得好，而被試不快時，高興的情節也記得不好。這就是說，（高興的）情節這一自變量的效果在另一自變量（心境）的不同水平上是不一樣的。當情節是使人不快時的交互作用請讀者自己分析。

上述五點你可以從圖2-5上看到。但方差分析的數據證實了你看的直觀的結果。如果沒有方差分析的數據作為依據，僅憑圖2-5，我們不能夠得出上述五點結論。

（七）被試樣本的大小問題

在單個的實驗中選用多少個被試合適？這個問題沒有簡單的答案，但可考慮以下幾種因素來做決定。

（1）某研究領域傳統上使用多少被試。如感知覺的實驗，一百多年來研究者在單個實驗中只使用非常少的被試，甚至一到兩名，而每個被試要求做大量的（如幾千次）判斷。動物實驗通常也是一組約2～4只。社會心理學的研究通常要求幾十名到幾千名被試。

（2）計劃使用什么樣的統計方法。如果是兩個獨立樣本實驗設計，并且計劃使用t檢驗進行顯著性檢驗。那么很明顯，實驗結果的差別愈大，愈容易通過t檢驗。因為t值與被試數目（n）成比例，n愈大t就愈大（其他方面保持恒定）。所以，增加被試增大了通過t檢驗的概率。如果一個人僅僅關心t檢驗，在這種情況下，兩個組之間的差別無論多小，只要不斷增加被試總能通過t檢驗。這就意味著，除了統計顯著性的標準外我們還需要其他的標準來判斷實驗結果的意義性。涉及統計的問題還有一點要注意，如果兩組被試數相等比兩組被試數不等要容易通過t檢驗，這是t檢驗的公式決定的。

（3）如果預期在實驗中變異會較大，那么，相應地需要多一些被試。還有，如果認為將要發現的差別有特別重要的意義，也需要多一些被試。這些都與研究者的研究經驗有關。從研究經驗的角度看，不同的實驗需要數量不同的被試，而這就意味著，每個實驗只是相關的系列實驗中的一個部分，并不是孤立存在的。“如果一個人這樣來考慮一項實驗研究，那么在任何一項研究中該使用多少被試的問題就變得相對地不那么重要了。并且，對數據的信度而言，實驗結果能加以重復比單個實驗中獲得的顯著性水平是一項更令人滿意的指標。”（Plutchik，1983）

（4）在腦成像（fMRI）研究中，Firstone（1999）認為，7個左右（不少于7個）被試的結果，宜用Conjunction analyses方法處理，而12～30個左右被試的結果，宜用Random-effect analyses方法處理。腦成像數據處理方法發展很快，研究者需要隨時加以注意。

（八）使用一個被試的實驗有意義嗎？

對于這個問題，答案是肯定的。Ebbinghaus 1885年前后以他自己為被試的記憶實驗使他成了科學記憶研究的先驅。Watson 1920年發表的關于條件性情緒反應（condi-tioned emotional response，教會兒童害怕）的著名研究只有一名幼兒被試。

有時候罕見的現象出現在一個人身上因而具有重要意義。如，極少的人生下來就沒有疼痛感覺，一只眼色盲但另一只眼正常，情景記憶完全喪失，沒有自我意識（auto-noetic consciousness）但其他智力正常（Tulving，2002）。對這樣個案的詳盡研究會給基本心理過程提供扎實可靠的資料。

1996年Klein發表了題為《一個遺忘癥病人的自我知識：走向人格與社會心理學的神經心理學》的實驗研究報告。一名女大學生W.J.因摔倒導致腦部受傷，自述忘事。Klein等人以兩名正常女大學生作為控制組，與W.J.進行了對比研究。受傷期間讓W.J.作大學時期自我人格判斷，在記憶恢復后又進行第二次自我人格判斷，兩次測驗的相關系數達到顯著相關程度（r=0.74，p＜0.05），與控制組的兩次測驗的相關系數幾乎相等（r=0.78，p＜0.05）。在W.J.受傷期間及記憶恢復后還對W.J.及其控制組進行了情景記憶測驗（見圖2-6）。

圖2-6　W.J.及控制組被試對四個時間段的情景記憶比較

（a）為W.J.受傷期間的測驗結果，而（b）為W.J.恢復以后的測驗結果。（引自Klein et al.，1996）

從圖2-6a可以看到，在W.J.受傷期間她對近期（12個月之內，即第一個時間段）發生的事情記得最少，約5%左右。而對遠期（10年前，即第四個時間段）發生的事情記憶得較多，約45%。與W.J.相反，控制組的被試對近期發生的事情記憶得最多，約65%。而對遠期發生的事情記得最少，約5%。在W.J.記憶恢復后，從圖2-6b可以看到她對各時間段事情的記憶百分比完全與控制組一致。上述結果表明，W.J.的情景記憶曾受到嚴重損傷。

比較上述結果與自我人格測驗的結果使Klein得出結論：W.J.喪失了情景記憶并不影響她對自我人格作出判斷；換句話說，一個人的情景記憶與一個自我的人格表征是分離的。這樣，單個被試的實驗研究得出了關于人類的普遍的結論。實際上這個普遍的結論，即一個人的情景記憶與一個人自我的人格表征是分離的，在后來的研究中得到了進一步的證實（Klein, et al，2002）。

二、準實驗設計

在現場進行的實驗研究（如比較不同班級的學生或不同的學校）中，被試不可能隨機地分配到實驗條件中，我們把被試以非隨機方式分配到實驗處理上的設計，稱為準實驗設計（quasi-experimental design）。

討論準實驗通常涉及實驗的內部（internal）和外部（external）效度的概念。一個“好”的實驗就是在自變量與因變量之間證明有因果關系的聯系，而且對實驗結果的其他可能的解釋均可排除，在這樣的情況下這個實驗被稱為具有內部效度。如果一個實驗的結果可以推廣，概括到其他的被試和其他的場合，那么，我們說它具有外部效度。因此，評估外部效度主要根據隨機樣本成功選取的程度來進行的，這些樣本包括被試、實驗者、刺激和反應；評估內部效度主要是根據對實驗結果的其他可能解釋被排除的程度來進行的。

（一）準實驗設計

準實驗設計中實驗組與控制組不是用隨機的程序選出來的。因此，各個組的差別是不清楚的從而導致自變量的效果不能明確地決定。例如，學校的班級、公司的團隊或醫院的病人進行比較的時候，被試就不是隨機選取的。準實驗中，雖然被試樣本、實驗的其他條件的可比較性（comparability）不是很好，但還是有可能把它們安排恰當，以獲得一定程度的因果關系的結論。這意味著準實驗的“好”并不是全或無的，而是一種程度的問題，即競爭的假設被排除的程度問題。換句話說，準實驗獲得的因果關系的結論雖然不是十分明確，但卻可能是合理的。下面介紹三種準實驗設計的方法。

1.不等組比較設計

不等組比較設計（nonequivalent comparison-group design或selection cohort design）對兩個或更多自然形成的被試組進行研究。例如，在一個小學研究兩個五年級班級，這些五年級學生并非以隨機方法分成兩個等組，所以任何一組都不是控制組，只是比較組或對照組。這種設計最簡單的例子是，對一個組經過實驗處理以后測量它的因變量，然后與一個對照組的因變量相比較（黃一寧，1998；董奇，2004）。Plutchik（1983）以評估美國學前兒童電視節目“芝麻街”（Sesame Street）為例，說明這類準實驗是怎樣進行的。“芝麻街”節目首次播出結束之后，對一組觀看節目的學前兒童進行了一項閱讀測驗。作為對照，研究者使用這些學前兒童的哥哥姐姐幾年前進行同一測驗的現成數據，他們在同一幼兒園但沒有看過“芝麻街”節目（因為在他們小時候還沒有這個節目）。這些哥哥姐姐做閱讀測驗的時候，他們的年齡與看過節目的學前兒童一般大。這個實驗之所以被稱為準實驗，是因為年齡大一點的哥哥姐姐與年齡小一點的弟弟妹妹不是等組。例如，年齡大一點的哥哥姐姐更可能是長子或長女（first-born child），而出生順序的差別可能造成兩組測驗的差別。為要檢驗這種設想，可以將二胎出生的兒童與他們的三胎出生的弟弟妹妹的測驗成績分開，將三胎出生的兒童與四胎出生的弟弟妹妹的測驗成績分開，等等。這個準實驗中，另一個可能的混淆是，年齡大一些的兒童的經歷與年齡小一些的兒童的經歷不同，而且還沒有什么辦法來評估這種差別造成的影響。為了排除這種混淆，可以把兒童分成多看節目的與少看節目的，分別與年齡大一些兒童隨機分成的兩組（設為A, B）作比較。由于多看節目小組與少看節目小組經歷同一年代，多看節目小組與A組的差別同少看節目小組與B組的差別之間的任何不同，就有理由歸結為是“芝麻街”教育電視節目的效果（參見圖2-7）。這個例子表明，通過各種內部分析（internal analysis）可以減少準實驗中可能的解釋的數目，以強化實驗結果的內部效度。

圖2-7“芝麻街”節目的不等組比較設計

O1代表多年前已有的結果，用作對照，即事前測定。X代表“芝麻街”節目，O2代表看過“芝麻街”之后的結果，即事后測定。將O1的結果隨機分成兩組，即A組與B組；將O2分成多看組與少看組。如果差別D1=D2，表明X的實驗處理不影響O2，事后測定成績好是經歷造成的；如果D1＞D2，表明X的實驗處理影響了O2，事后測定成績好是X造成的。

2.間歇時間序列設計

間歇時間序列設計（interrupted time-series design）是在實施實驗處理前后的一段時間里對某種效應進行多次重復測驗。如果我們以O1，O2，O3等代表在不同時間上的測量，而X代表實驗處理，那么，一系列測量的不同結果可以由圖2-8表示。從圖上看出來，雖然每條線上從O4到O5的發展大致相同，但很明顯的是，在A, B，C系列中X的效應最大，而在D, E，F系列中X的效應最小或不起作用。上述判斷主要是基于X引入后變化的不連貫性做出的。如果說圖2-8表示的是一種簡單間歇時間序列設計，即從一個系列測量在施加實驗處理前后的變化來探討是否存在實驗效果，經常使用于不能設置控制組的研究情形。例如，推行社會改革，所有的政府單位都要推行改革措施。由于這種設計缺乏一個適當的控制組，所以無法剔除無關因素的干擾作用。為了克服這一弱點，可采用復合間歇時間系列設計（這種設計基本上是簡單間歇時間序列設計的延伸），即在研究設計中增加一個沒有接受實驗處理的比較組，來替代控制組的部分功能，以提高間歇時間序列設計的功能（黃一寧，1998）。

這種設計的模式如下：

時堪（1990）曾在北京手表廠進行過技工崗位培訓的準實驗研究，他用復合間歇時間系列設計考察心理模擬教學方法與常規培訓方法是否在培訓效果上存在差異。學員分兩班接受崗位培訓，在不影響生產線正常生產的情況下進行輪換培訓。圖2-9是實驗結果圖。從圖2-9可以看到，培訓前兩班學員每日生產的合格產品數基本相當，培訓后（施加實驗處理）兩班學員的合格產品數都有增長，但實驗班（心理模擬教學方法）的增長明顯高于控制班（常規方法）。研究者不滿足于此，而是接著讓控制班也接受心理模擬教學方法培訓，結果表明，培訓后控制班在合格產品數方面也達到了實驗班的水平。這說明，對實驗班所采用的培訓方法同樣適用于控制班。這種結果還說明，高于常規方法的增長效果確實是實驗處理帶來的。

圖2-8　間歇時間序列設計圖示（Plutchik，1983）

圖2-9　復合間歇時間系列設計實驗結果圖（時堪，1990）

3.交叉滯后組相關設計

交叉滯后組相關設計（cross-lagged panel corelational design）要求在時間1對兩個變量的關系做出測定和相關分析，再在時間2做相似測定和分析，求得同步相關rA1B1和rA2B2（見圖2-10），rA1A2和rB1B2為穩定性相關，它們實際上是重測信度。

圖2-10　交叉滯后組相關設計

在同步相關穩定的情況下，如果rA1B2＞rB1A2，可以認為，與B引起A相比較A是B的更強的原因；反之，B是A的更強的原因（王重鳴，1990）。

Eron和他的研究小組應用交叉滯后組相關設計開展觀看暴力電視節目是否導致犯罪行為的追蹤研究是很著名的（Eron, et al.，1972）。美國社會持續增長的暴力犯罪使研究者猜想，充滿暴力鏡頭的電視節目對青少年影響巨大，是導致犯罪行為的可能原因，因而提出如下假設：觀看電視暴力節目造成犯罪。他們的一個典型結果如圖2-11所示。

圖2-11　觀看暴力電視與犯罪行為的追蹤研究（Eron et al.，1972）

Eron等人對211名三年級的男孩測量了其攻擊行為，實施過程是讓同班同學填寫同伴-提名的攻擊問卷（Peer-nominated aggression），問卷項目包括：誰不聽老師的話？誰常常推撞別的同學？誰常編造故事或謊言？誰沒事常找茬？等等。每個被試的得分是根據其他同學的某項目上的提名次數決定的。10年之后，同樣的被試再次回答同伴-提名的攻擊問卷。研究者在控制了各種因素之后發現，喜歡看暴力電視節目的9歲男孩與其19歲時的攻擊行為有密切的聯系。他們控制的因素包括，測定了被試9歲時同伴評定的攻擊行為，這樣電視暴力對攻擊行為變化所起的作用就有了一個起點，因而也就確立了這種作用的時間順序。其他控制因素包括被試9歲時父親的職業、父親的攻擊性、兒童的IQ、母親的攻擊性、雙親對小孩的處罰、雙親的運動性取向、被試看電視的小時數以及被試19歲時父親的職業、被試的志向、看電視的小時數，等等。

喜歡看電視暴力的9歲男孩與其19歲時的攻擊行為密切相關，這一結論是怎樣得出的呢？從圖2-11看，實測結果不像假設預期的那么清楚。A1與B1的相關10年前后由正的0.21變為負的0.05；重測A1與A2為0.05，B1與B2為0.38，都不算高，雖然A1與B2的相關0.31達到了顯著水平，但B1與A2的相關很小（0.01），表示二者幾乎無關。這樣，B導致A的可能性不能與A導致B的可能性競爭，因此削弱了它的可靠性。雖然目前的結果不能直接證明假設——觀看暴力電視造成犯罪，但可以通過拒絕站不住腳的假設，即排除一些假設來限制可能的相互競爭的假設，這也是準實驗的研究中常常遇到的情形。用路徑分析（path analysis）在排除了四類可能的解釋之后，作者認為，A1導致B1與B2的可能性最大。A1與A2相關低（0.05）可解釋為，當被試10年后成長為青年時，他們更多地轉向攻擊行為（偷盜和斗毆）而不是僅僅從暴力電視節目尋找“刺激”，這也能解釋A2與B2相關低（-0.05）。

在Eron和他的研究小組1960年開創電視暴力與犯罪行為的關系研究四十多年以后，Savage（2004）從方法論的角度對觀看暴力傳媒（violent media）是否造成暴力犯罪的眾多研究進行了全面而詳盡的評估。其中Savage（2004）對Eron等人一系列的研究的正面評述包括：①在長期追蹤研究的開始（被試9歲時）測定其攻擊行為，即控制了攻擊行為的初始水平（與10年后相比），這在眾多的研究中是一個里程碑式的貢獻。②控制了許多其他因素。③Eron等人的發現是迄今此領域最重要的發現之一，提供了令人信服的證據來表明，觀看電視暴力造成了暴力犯罪。Savage（2004）也指出Eron等人研究的不足包括：①對電視暴力的最初測量僅局限于喜歡暴力節目，而不是測量看了多少暴力節目。②對攻擊行為的測量主要是一些令人生厭的行為而沒有涉及嚴重的暴力，這就有可能漏掉一些兒童在家里欺侮弟弟妹妹但在攻擊行為上得分低，而另一些兒童僅嘴巴厲害就得分高。因此推廣到后來的暴力犯罪上就顯得說服力不強。

（二）效度問題

Anderson（2001）對效度問題有系統而獨到的看法，包括過程效度（process validity）與結果效度（outcome validity）的區分，以及這兩種效度的內部水平（internal level）和外部水平（external level）的相互關系。圖2-12是他關于效度的圖解。

結果和過程的區分反映了研究者關注的焦點不同：是關注所觀察到的實驗結果本身還是關注實驗結果背后的基本過程。可以認為，準實驗一般是關心實驗結果，而真實驗（實驗室實驗）是關注基本心理過程。內部和外部的區分指概括性（generality）水平：是在某一特定的研究設置條件內（particular research setting）還是在超出特定設置條件的外部場合。還要注意，結果與過程、內部與外部都是用虛線連接，表明它們之間是一個連續體，不是非此即彼的關系。

圖2-12　效度圖解：兩種連續效度的區別（Anderson，2001）

1.過程效度與結果效度

在研究問題與研究方法這兩方面，過程效度與結果效度是不同的。

結果效度是應用研究的目標，關注的是行為變化本身。例如，在預防交通事故的研究中，事故頻率是關注的焦點。在學前教育的研究中，詞匯量與社交技巧是關注的焦點；應用領域的研究者想要把在某一特定情景下獲得的結果推廣到更一般的場合。

過程效度是基礎研究的目標，關注的是表面結果背后的基本心理過程，通常是研究極為基本的心理過程以便概括為普遍規律。例如，基于空間的注意或基于物體的注意的實驗范式，分別對“空間”或“物體”做了嚴格的、清晰的規定。

結果效度與過程效度各有兩個水平：內部水平與外部水平。內部水平指研究在某具體情景設置下的有效性，外部水平指超出該具體設置的概括化。內部效度是外部效度的必要條件（prerequisite）。

內部結果效度（internal outcome validity）的評估始于統計顯著性檢驗，達到統計顯著性水平意味著特定設置下的研究結果是有效的，而不是隨機產生的；但外部結果效度（external outcome validity）的評估要求超越統計的推論，例如，當把動物實驗的結果推廣到人類時，這一點是不言而喻的。

內部過程效度（internal process validity）與外部過程效度（external process validity）的評估都依賴超越統計的推論，這是因為過程效度本質上不是數據、事實本身，而在概念。安德伍德和肖內西（1981）在評論因變量的可靠性時的一段話可供我們思考：“更困難的情況是在概念上圍繞這樣一個事例，即兩種反應測量值都有高度可靠性（因此也有敏感性），但是彼此之間沒有相關。這種情況在根本上強迫得出這樣的結論：兩種反應測量標示兩個相對獨立的過程。如果自變量不是以同樣方式影響兩種反應測量，這個結論就特別肯定。在這點上我們只能作理論性的思考，因為資料不能提供給我們更多的東西了。”

Anderson（2001）強調，超越統計的推論是科學的脊柱，這既適用于實驗室研究也適用于現場研究。但科學生活中的這一基本事實常常為關于統計的說教所掩蓋，因而人們錯誤地認為，通過統計顯著性檢驗的內部結果效度除了保證外部結果效度之外，也多少保證了內部過程效度。事實上主要的效度問題要求超越統計的推論。把統計的與超越統計的推論結合起來評估效度才是更有效的。

2.過程效度與結果效度的不一致

科學研究中選擇什么問題以及采用什么樣的方法進行研究決定了研究的水平，這一點既適用于以追求過程效度為目標的基礎研究，也適用于以追求結果效度為目標的應用研究。但是，過程效度與結果效度這兩個目標是不一致的，不可能兩者兼得，在外部效度水平上過程效度與結果效度的不一致表現得很清楚。實驗設計和實驗程序有利于結果效度，通常會削弱過程效度，反之亦然。企圖同時實現兩個目標，則可能一個目標也實現不了。

為了追求結果效度，特定的情景設置愈接近真實生活、愈能代表真實生活，這樣，得到研究結果才容易推廣，外部結果效度才會好。例如，教育心理學中教學方法的比較離開了真實的課堂教學就沒有意義，但真實的課堂教學是很復雜的，決定學生學習成績的因素很多，有些是不可測量的，有些甚至還不知道。

另外，追求過程效度要求相反的策略，即使研究情景盡量簡化、明確，以便排除其他心理過程造成的混淆。獲得的具體研究結果的推廣不是過程效度取向所關心的，過程效度取向研究關心的是具體研究結果背后的基本心理過程。例如，巴甫洛夫關于唾液分泌的研究，興趣不在狗或人的唾液分泌本身，研究結果也沒有推廣價值；他關心的是唾液分泌背后的頭腦中神經過程的聯系規律——條件反射規律。總之，像唾液分泌、小白鼠按壓杠桿這些心理學中很出名的實驗任務離開真實生活很遠，但它們有利于研究基本心理過程。

這樣，結果效度與過程效度不同的取向自然對實驗設計、反應測量和數據分析有不同的強制的要求。要達到任何一種效度都很困難。那么，要同時追求兩種效度必然會在研究問題和研究方法上折中，到頭來在兩種效度目標上折中。因此，Anderson（2001）強調，區分結果效度與過程效度是為了避免同時追求兩者，避免在實驗設計與實驗程序上做出耗費心思但徒勞無益的折中。

問題

1.寫出一項實驗室研究的實驗設計。

2.寫出一項現場研究的準實驗設計。

3.舉例說明交互作用的概念。

4.舉例說明什么是過程效度？什么是結果效度？內部效度與外部效度的關系？

5.用2×2因素設計（組間設計）設計一個實驗，并寫出該實驗的實驗程序（流程）。

6.利用表2.15的數據，寫出方差分析的項目與公式并進行計算。

7.參考表2.2與表2.3，討論Craik（1994）實驗的優點。

參考文獻

安德伍德，肖內西著.方俐洛，虞積生譯.（1981）.心理學實驗方法.北京：科學出版社.

陳功香.（2004）.內外部線索在學習判斷中的作用.中國科學院心理研究所：博士研究生學位論文.

董奇.（2004）.心理與教育研究方法.北京：北京師范大學出版社.

黃一寧.（1998）.實驗心理學：原理，設計與數據處理.西安：陜西人民教育出版社.

時勘.（1990）.現代技工培訓的心理模擬教學研究.北京：中國科學院心理研究所.

王重鳴.（1990）.心理學研究方法.北京：人民教育出版社.

Anderson, N. H.（2001）.Empirical direction in design and analysis.Empirical Direction in Design and Analysis.NJ, Mahwah：Lawrence Erlbaum Associates.

Challis, B. H.，&Brodbeck, D.R.（1992）.Level of processing affects priming in word fragment comple-tion.Journal of Experimental Psychology Learning Memory&Cognition，18（3），595～607.

Craik, F. I.（1990）.Changes in memory with normal aging：a functional view.Advances in Neurology，51，201～205.

Craik, F. I.M.（1994）.Memory changes in normal aging.Current Directions in Psychological Science，3（3），155～158.

Eron, L. D.，&Huesmann, L.R.（1972）.Does television violence cause aggression？American Psychol-ogist，27（4），253～263.

Friston, K. J.，Holmes, A.P.，&Worsley, K.J.（1999）.How many subjects constitute a study？Neu-roimage，10（1），1～5.

Klein, S. B.，Loftus, J.，&Kihlstrom, J.F.（1996）.Self-knowledge of an amnesic patient：toward a neuropsychology of personality and social psychology.Journal of Experimental Psychology General，125（3），250～260.

Klein, S. B.，Rozendal, K.，&Cosmides, L.（2002）.A social-cognitive neuroscience analysis of the self.Nature，20（2），105～135.

Plutchik, R.（1983）. Foundations of Experimental Research.New York：Harper&Row.

Savage, J.（2004）. Does viewing violent media really cause criminal violence？A methodological review.Aggression&Violent Behavior，10（1），99～128.

Tulving, E.（2004）. Episodic memory：from mind to brain.Annual Review of Psychology，53，1～25.

官术网_书友最值得收藏!

實驗心理學（第四版）

2 實驗設計與準實驗設計

一、實驗設計

二、準實驗設計

2　實驗設計與準實驗設計