官术网_书友最值得收藏!

1.6 元分析在行為科學與社會科學中的作用

心理學研究中經典的小樣本研究產生了看似矛盾的結果,而對統計顯著性檢驗的依賴使研究結果顯得更加矛盾。元分析整合了這些研究結果,揭示了作為研究文獻基礎更簡單的關系模式,從而為理論開發奠定了基礎。元分析可以校正抽樣誤差、測量誤差和其他人為誤差的失真效應,而這些人為誤差會產生相互矛盾的錯覺。

任何科學的目標都是累積知識。最終,這意味著解釋作為科學領域焦點現象的理論開發。一個例子是解釋兒童和成人的人格特征如何隨著時間的推移而發展,以及這些特征如何影響他們生活的理論。另一種理論是什么因素導致工作和職業的滿意度,以及工作滿意度反過來又對生活的其他方面產生怎樣的影響。然而,在開發理論之前,我們需要準確地識別變量之間的關系。例如,同事社會化與外向性之間的關系是什么?工作滿意度與工作績效之間的關系是什么?

除非我們能準確地識別變量之間的這種關系,否則,我們沒有構建理論的原材料。理論沒有什么可解釋的。例如,如果在不同的研究中,兒童的外向性和受歡迎程度之間的關系是隨機變化的,從強正相關性到強負相關性,以及介于兩者之間的所有關系,我們就不能構建一個關于外向性如何影響受歡迎程度的理論。這同樣適用于工作滿意度與工作績效之間的關系。

不幸的是,大多數研究文獻確實顯示出這種相互矛盾的研究結果。一些研究發現有統計上顯著的關系,有些則沒有。在許多研究文獻中,這一比例大約為50%:50%(Cohen,1962,1988;Schmidt,2010;Schmidt,Hunter,1997;Schmidt,Hunter,Urry,1976;Sedlmeier,Gigerenzer,1989)。這是大多數行為科學和社會科學領域的陳規陋習。因此,很難促進理解、開發理論和累積知識。

今天,元分析正被廣泛應用于解決這個問題。元分析的使用程度反映在這樣的事實上:Google使用此術語所進行的搜索產生超過5 000萬次點擊量。

完美研究的神話

在元分析之前,科學家了解研究文獻的方式通常是主觀的描述性綜述。然而,在許多研究文獻中,不僅有大量的研究,而且存在相互矛盾的結果。這種合并使標準的主觀描述性綜述成為一項幾乎不可能完成的任務:人類信息加工的研究表明,這項任務遠遠超出了人類能力。比如,如何靜下心來理解相互矛盾的210項研究?

在許多描述性綜述中,這個答案更是得到了極大的發展,常常被稱為完美研究的神話。評論者確信,許多情況下,現有的絕大多數研究具有“方法上的缺陷”,甚至不應在綜述中加以考慮。這些對方法論缺陷的判斷通常是基于特殊的觀點:一個評論者可能會認為皮博迪人格問卷(Peabody Personality Inventory)存在“構念效度缺陷”,進而放棄使用該問卷的所有研究。另一個評論者可能認為,使用同一份問卷是方法健全的先決條件,并排除沒有使用該問卷的所有研究。因此,任何特定的評論者都可以剔除除少數研究之外的所有研究,并可能將研究的數量從210項縮小到7項,然后根據這7項研究得出結論。

長期以來,最廣泛閱讀的文獻綜述出現在教科書中。教科書,尤其是高級教科書的作用是總結某一領域已知的內容。然而,沒有教科書能夠引用或討論210項研究以用于分析單一關系。教科書作者經常會挑選一兩個他們認為是“最佳”的研究,然后僅僅根據這些研究得出教科書式的結論,忽略研究文獻中的大量信息。因此,完美研究只是一個神話。

事實上,沒有完美的研究。如后文所述,所有研究都包含測量誤差。所有研究都與測量誤差相關,沒有研究的測量具有完美的構念效度。此外,通常還有其他人為誤差會扭曲研究結果。即使假設的(并且必須是假設的)研究沒有產生這些失真,它仍會包含抽樣誤差,通常是大量的抽樣誤差,因為樣本量很大的情況非常罕見。因此,所有單個研究或小型亞組研究都不能為累積的科學知識提供最佳依據。結果,對“最佳研究”的依賴并不能解決研究結果之間相互矛盾的問題。這種方法甚至沒有成功地欺騙研究者,使他們相信這是一種解決辦法,不同的描述性評論者因為選擇“最佳”研究的不同亞組而得出不同的結論。于是,“文獻之間的沖突”成為“綜述之間的沖突。”

一些相關史實

到20世紀70年代中葉,行為科學和社會科學陷入了嚴重困境。大量研究積累了許多對理論開發和/或社會政策決策很重要的問題。對同一問題的不同研究結果通常是相互矛盾的。例如,當工作者對自己的工作滿意時,他們的工作效率會更高嗎?研究結果并不一致。當班級規模較小時,學生會學到更多嗎?研究結果也相互矛盾。參與式的管理決策能提高生產率嗎?工作擴大化是否會提高工作滿意度和產出?心理治療真的對人有幫助嗎?這些研究的結果都是矛盾的。結果,公眾和政府官員對行為科學和社會科學越來越失望,獲得研究經費變得越來越困難。沃爾特·蒙代爾(Walter Mondale)參議員1970年在美國心理學會的一次演講中,表達了他對這種情況的失望:

我沒有學到的是,我們應該對這些問題做些什么。我曾希望通過研究來支持或最終反對我的觀點,即高質量綜合教育是最有前途的方法。但我幾乎沒有找到確鑿的證據。對于每個研究,無論是統計研究還是理論研究,只要包含一個擬議的解決方案或建議,總會有另一個同樣有據可查的方案,挑戰第一個研究的假設或結論。似乎沒有人同意其他人的方法。更令人痛苦的是,我必須承認,我與我的同事一樣困惑,甚至常常感到心灰意冷。

然后,在1981年,聯邦管理和預算辦公室主任David Stockman提議減少80%的行為科學和社會科學研究經費。這一提議在某種程度上是出于政治動機,但是行為科學和社會科學研究的失敗累積起來,就容易受到政治攻擊。這項削減提議是試探性的,引發了無數的政治對抗。即使提議的削減幅度遠小于嚴格意義上的80%,我們也會確信選民將會提出抗議。這種情況經常發生,許多行為科學家和社會科學家都預料到了。但是,事實并非經常如此。事實證明,行為科學和社會科學在公眾中沒有支持者;公眾并不關心(見《削減引發新的社會科學的質疑》,1981)。最后,絕望之余,美國心理學會率先成立了社會科學協會聯盟,游說反對削減計劃。雖然這個超級協會在減少這些削減方面取得了一定的成功(甚至在某些領域,隨后幾年的研究經費有所增加),但是這些發展應該使我們仔細審視這種事情是如何發生的。

導致這種狀況的事件順序,在一個又一個研究領域中大同小異。首先,人們最初對利用社會科學研究來回答社會重要問題持樂觀態度。政府資助的職業培訓計劃有效嗎?我們會做研究以找出答案。早教真的能幫助弱勢兒童嗎?研究將告訴我們(這個結果)。融合提高了黑人兒童的學習成績嗎?研究將提供答案。接下來,對該問題進行了一些研究,但是結果相互矛盾。這個問題沒有得到回答,這讓人有些失望,但是決策制定者和普通民眾仍持樂觀態度。與研究者一樣,他們得出結論:需要更多的研究來確定導致矛盾結果的假設的交互效應(調節變量)。例如,也許職業培訓工作是否有效取決于受訓者的年齡和教育程度。也許學校里的小班只對低智商的孩子有益。據此假設,心理治療對中產階級患者有效,而對工薪階層患者無效。也就是說,目前的結論是需要尋找調節變量。

在第三階段,大量的研究被資助和進行,以檢驗這些調節變量的假設。當它們完成后,現在有了大量的研究,但沖突的數量非但沒有得到解決,反而增加了。初始研究中的調節變量假設并沒有得到證實,也沒人能理解相互矛盾的結果。研究者得出的結論是,在這種特殊情況下,在這個特殊的案例中被選中研究的問題已經變得非常復雜。然后,他們轉向對另一個問題的研究,希望這次的問題會變得更容易處理。研究資助者、政府官員和公眾不再抱有幻想,并施以冷嘲熱諷。研究資助機構削減了在這一領域和相關領域的研究經費。在這個循環被重復了足夠多次數后,社會科學家和行為科學家也開始對自己的工作價值感到悲觀,他們發表文章支持這樣一種觀點,即行為科學和社會科學研究在原則上不可能發展累積的知識,也不能為社會重要問題提供普遍的答案。這方面的例子包括Cronbach(1975)、Gergen(1982)和Meehl(1978)。

顯然,在這一點上,迫切需要有一些方法來理解大量累積的研究結果。從20世紀70年代末開始,人們開發了新的方法,將同一主題的研究結果整合起來。這些方法被統稱為元分析,術語是由Glass(1976)創造的。元分析在累積的研究文獻(例如,Schmidt,Hunter,1977)中的應用表明,研究結果并不像人們想象的那樣具有矛盾性,而且實際上可以從現有研究中得出有用的和可靠的普遍性結論。結論就是,在行為科學和社會科學中,累積理論和知識是可能的,社會重要問題可以用確定的、合理的方式回答。結果,籠罩在行為科學和社會科學中許多人頭上的悲觀情緒得到了緩解。

事實上,元分析甚至已經產生了證據,證明行為科學中研究結果的累積性可能與物理科學中的一樣。長期以來,我們認為我們的研究不如物理科學中的研究具有一致性。Hedges(1987)使用元分析方法來檢驗粒子物理學中13個領域和心理學中13個領域研究結果的差異性。與普遍的看法相反,他的發現表明,物理學研究中的差異性與心理學研究中的差異性一樣多。此外,他還發現,物理科學使用的合并研究結果的方法與元分析“基本相同”。當恰當地應用元分析時,心理學和物理學兩個領域的研究文獻都產生了累積的知識。Hedges的主要發現是,與物理科學相比,在行為科學和社會科學中,研究結果相互矛盾的頻率并不高。事實上,這一發現令許多社會科學家感到驚訝。這一事實表明,我們長期以來高估了物理科學研究結果的一致性。此外,在物理科學中,單個研究不能回答研究問題,物理學家必須使用元分析來理解他們的文獻研究,正如我們所做的那樣(如前所述,在分析單個研究數據時,物理科學不使用顯著性檢驗;它們使用點估計和置信區間)。

元分析也產生了其他變化。文獻綜述的相對地位發生了巨大改變。傳統上只發表初始研究并拒絕發表文獻綜述的期刊現在已經發表大量元分析綜述。過去,研究綜述是基于描述性主觀方法,它們的地位有限,并且在學術提升或職稱方面獲得的信譽很少。往往對那些進行初始研究者給予獎勵。現在不僅不再存在這種情況,而且有了更重要的發展。如今,在積累知識方面的許多發現和進展不是由那些做初步研究的人,而是由那些使用元分析來發現現有研究文獻的潛在意義的人取得的。今天,具有所需訓練和技能的行為科學家或社會科學家,正在通過挖掘累積的研究文獻中尚未開發的信息脈絡,做出重大的原創發現和貢獻。

梳理和理解研究文獻的元分析過程不僅揭示了累積的知識,還提供了剩余研究需求的更清晰的方向。也就是說,我們也懂得下一步需要什么樣的初始研究。一些人提出了這樣的擔憂:元分析可能會扼殺進行初始研究的動機和動力。元分析清楚地表明,沒有一個單個的初始研究能夠解決一個問題或回答一個問題。研究結果具有內生的概率性(Taveggia,1974),因此,任何一項研究的結果都可能是偶然發生的。只有跨研究發現的元分析整合才能控制抽樣誤差和其他人為誤差,并為結論提供基礎。然而,除非進行必要的初始研究,否則不可能進行元分析。在新的研究領域,這個潛在的問題并不是很值得關注。第一次進行的研究包含了100%的可用研究信息。第二次研究包含大約50%的可用信息,依此類推。因此,任何領域的早期研究都具有一定的優勢。然而,第50項研究僅包含約2%的可用信息,而第100項研究僅包含約1%的可用信息。我們會很難激勵研究者進行第50或第100項研究嗎?如果這樣做了,我們不認為這是元分析導致的。當描述性綜述是研究整合的主要方法時,評論者并沒有將他們的結論建立在單個研究上,而是建立在多項研究上。因此,就像現在一樣,沒有研究者能像現在這樣合理地希望自己的單個研究能夠決定一切問題。事實上,元分析在某方面代表了初始研究者的進步:所有可用的相關研究都包含在元分析中,所以每個研究都有效果。正如我們之前看到的,描述性評論者經常拋棄大部分相關研究,并將他們的研究結論建立在少數他們最喜歡的研究上。

此外,應該指出的是,那些提出這個問題的人忽視了元分析所帶來的有益影響:它防止了寶貴的研究資源被轉移到真正不需要的研究中。元分析應用已經表明,在某些問題上,額外的研究會浪費科學和社會上有價值的資源。例如,自1980年以來,已經進行了882項基于70 935總體樣本的研究,其中涉及知覺速度與文書工作者的工作績效之間的關系。基于這些研究,我們對這種元分析的平均相關性的估計值是0.47,其中SDρ=0.22(Pearlman,Schmidt,Hunter,1980)。對于其他能力,通常有200~300個累積的研究。顯然,對這些關系的進一步研究并不是對現有資源的最佳利用。

如果一項元分析完成后出現一項或多項新的研究,那么如何更新元分析以納入這些新研究?Schmidt與Raju(2007)指出,最好的方法是重新計算包括那些研究的元分析(即使用更新元分析的“醫學方法”,而不是貝葉斯方法)。

主站蜘蛛池模板: 油尖旺区| 保德县| 绍兴县| 靖江市| 保靖县| 高青县| 霍州市| 清流县| 南乐县| 石阡县| 贵阳市| 柳州市| 宁陵县| 阿克陶县| 宜川县| 新津县| 辽源市| 阳高县| 疏勒县| 新邵县| 罗田县| 枣阳市| 岳普湖县| 潜江市| 疏附县| 资阳市| 吴忠市| 二连浩特市| 六安市| 清河县| 南京市| 山阴县| 新疆| 汝阳县| 广丰县| 永清县| 通渭县| 公主岭市| 阿拉善左旗| 安西县| 淮滨县|