官术网_书友最值得收藏!

第一章
應試教育:古德哈特定律與衡量指標悖論

2015年4月27日,珍妮·沃雷爾—布里登(Jeanene Worrell Breeden)在紐約地鐵站里等待地鐵列車。沃雷爾—布里登是一名小學校長,被稱為“孜孜不倦的奮斗者”,并因在她任教的所有學校(通常有許多貧困學生)中創造了“卓越的教學文化”而受到稱贊。[1]她是紐約哈萊姆區師范學院社區學校的創始校長,紐約市議員馬克·萊文(Mark Levine)稱這所學校“取得了巨大的成功”[2]。沃雷爾—布里登的學校是社區的驕傲,附近的每個人都希望自己的孩子去這所學校上學。2015年,該校收到了超過464份申請,而學校僅有50個招生名額。

在4月27日之前的兩個星期,師范學院社區學校的三年級學生進行了一次考試。沃雷爾—布里登在考試當天早上為學生提供早餐,并舉行考前動員會來鼓舞學生的士氣。[3]學校通常不會在考試前舉行動員會,但那次特殊的集會有很多原因。

2013年,紐約州和其他42個州一起通過了“共同核心計劃”(Common Core program),這是奧巴馬政府出臺的一項教育標準,是“力爭上游”(Race to the Top)計劃的一部分,打算在全美推廣。該計劃出臺了學生在每個年級結束時需要學習的英語和數學知識的標準,開發了根據這些標準對學生進行評估的考試,并實施了一項教育撥款計劃,考試成績在確定資格方面發揮了重要作用。[4]第一年的評估在2014—2015學年進行,三年級的學生是參加考試的學生中年齡最小的。

考試是由兩個聯盟開發的,一個是“智者平衡評估聯盟”(SBAC),另一個是“大學學習和就業準備聯盟”(PARCC),它們獲得了3.6億美元來開發新的考試。這些考試在評估教師和校長,以及確定學校能否獲得“力爭上游”撥款資格方面有很大影響。學生在考試中的表現不僅關系到學生、家長和教師,還關系到成千上萬美元的撥款,著實意義重大。

2015年4月27日,就在沃雷爾—布里登站在135街和圣尼古拉斯大道附近等地鐵B線的幾個小時前,她的一名同事向紐約市教育局匿名投訴了她。投訴人聲稱,沃雷爾—布里登已經承認在“共同核心計劃”考試中偽造了幾名三年級學生的考試成績。

當地鐵B線列車駛近時,珍妮·沃雷爾—布里登,這名教育工作者、導師、妻子,以及數百名學生的激勵者,縱身一躍,跳到了列車前……她被緊急送往哈萊姆醫院中心。一周后,她去世了。

* * *

每年,世界各地的高中生都要為畢業考試做準備。對學生來說,這次考試極其重要。在許多國家,畢業考試的分數占高中生最后成績的一半,甚至更多。這些成績會決定他們可以被哪所大學錄取,影響他們接受教育的質量,影響他們在大學期間建立的人際關系,最終影響他們未來的職業道路。這些成績還將決定他們是否有資格獲得數千美元的獎學金,進而影響到他們是否需要做兼職來幫助支付學費,占用寶貴的學習時間和課外活動時間,甚至會影響他們未來的雇主對他們的評價。說這些考試影響巨大,這一點兒也不為過。

以數學畢業考試為例,這是一場長達3個小時的數學解題馬拉松。大多數學生要在高中體育館內與成百上千名不同焦慮程度的學生一起進行考試。考試內容涵蓋學生全年所學科目,其中大部分是選擇題。社會研究、英語和科學學科的考試也是如此。

考試不僅對學生很重要,教師、校長和學校董事會的業績也在很大程度上取決于學生在考試中的表現。由于這項考試關系到大學招生,家長會向教師施壓,以確保他們的孩子在考試中取得好成績,從而可以進入一所好學校。[5]

校長也感受到了考試的壓力——在很多地區,學校的考試成績會刊登在當地報紙上。學校的成績可能會影響學校未來的招生和聲譽,因為家長會為孩子選擇“成績更好的學校”。如果學校所在的州實施了“共同核心計劃”以及隨之而來的撥款政策,或采用了類似的標準,那么考試成績就決定了學校獲得的撥款金額。學校董事會也感受到了壓力,因為其所在地區學校的表現會影響其吸引學生和籌集資金的方式。更大的壓力還在后面,州議員、教育部部長、州長,甚至總統都感受到了改善教育的壓力。這通常會轉化為一句簡單的口號:“考試分數太低,要提高分數。”[6]

這種情況對讀過高中的人來說再熟悉不過了,大多數正在讀這本書的人對此也很熟悉。可悲的是,對那些年齡小得多的低年級學生來說,這種情況也越來越熟悉。在實施了“共同核心計劃”的州,標準化考試在三年級就成為學生課程的一部分。

但是,這有一個問題。

問題不是我們不應該要求學生努力學習,也不是教師、校長和學校董事會不應該盡心盡力地教育孩子。這些都不是問題,因為我們不應該要求知道學生、教師和學校的表現如何。然而,這又確實是一個問題,因為標準化考試,特別是那些有大量選擇題、需要計時且很重要的考試并不能很好地衡量學生的理解力或綜合能力,而且考試傷害了學習。

讓我們從問題本身說起,特別是那些選擇題。選擇題經常用于考試題目,因為它是一種有效的考試方式。它有幾個優點:客觀,容易評分,學生容易填寫,教師無須辨認高中生潦草的字跡就能確定正確答案。這些優點的問題在于,它們都與閱卷的難易程度有關,而與考試方法能否很好地反映學習情況無關。布魯斯·C.鮑爾斯(Bruce C. Bowers)就說過下面這段話。

標準化考試的主要目的是以盡可能有效的方式對大量學生進行分類。這個有限的目標很自然地產生了簡答題、選擇題。當考試以這種方式進行時,主動技能,如寫作、說話、表演、繪畫、建造、修理,以及其他任何可以而且應該在學校教授的技能,都自動降到次要地位。[7]

鮑爾斯的觀點是,選擇題考試歧視那些比死記硬背層次更高的問題,因此也歧視與之相關的思維方式。單純地選擇出正確答案有很多不足之處。選擇題考試使學生認為,所謂的“聰明”只是知道很多事實,能夠快速記住東西。選擇題考試衡量的往往是學生短期記憶的表現。

選擇題考試還缺少一個好的考試的重要組成部分:要求學生自己寫出答案。這樣的問題被稱為自由回答,不僅要求學生進行更多的批判性思考,而且能防止他們在考試中抄襲。想象一下,你在一次考試中被問到如下問題。

美國第27任總統是誰?

(A)喬治·華盛頓

(B)亞伯拉罕·林肯

(C)威廉·霍華德·塔夫脫

(D)溫斯頓·丘吉爾

毫無疑問,答案是威廉·霍華德·塔夫脫。喬治·華盛頓是美國首任總統,林肯是第16任總統,丘吉爾根本就不是美國總統。要知道這道題的答案,你根本不需要知道關于威廉·霍華德·塔夫脫的任何事情。你不需要知道他是第27任總統,甚至根本不需要知道他是總統。你只要能排除其他答案,就能得到正確答案。這個問題的備選答案A、B和D之間的差別類似于史酷比狗、機械戰警和野蠻人柯南的差別。

選擇題的另一個缺陷是,有一部分學生在做選擇題時特別吃力。這些學生并不是因為不懂教材而苦惱,也不是因為他們患有考試焦慮癥。事實上,許多在選擇題上有問題的學生是教師眼中的好學生。這些學生之所以在選擇題上有困難,是因為他們太聰明了。

理解力更強的學生在閱讀題目時,會更多地體會到題目的復雜性和細微的差別,因此他們思考問題的時間會比考官計劃的時間長得多,這導致他們要在臨近考試結束時匆忙完成大部分內容。他們會選擇一個答案,但一分鐘后又會懷疑自己。通常,天才學生面對選擇題時會想:“不可能這么簡單,他們一定是想騙我們。”正因為如此,很多天才學生的成績不會像他們的課堂表現和對教材的理解那樣好。

這些學生并沒有表現出缺乏信念或信心。他們不是因為不理解問題而在問題上花很長時間。這些學生中的許多人對教材的理解比班上的其他學生更加微妙和細致。他們在更高的層次上思考。他們對題目有深刻的理解,知道現象是復雜的,原因是多方面的。他們的思考水平是我們希望經理、領導者、政治家以及每個人都能達到的。但是,當他們在簡化了復雜問題的考試中面對一道選擇題時,他們會猶豫不決。

我們對世界的信念和價值觀是通過我們的行動和與周圍世界的互動來表達的,而這些行動和互動反過來又最全面地反映了我們的____。

(A)意識形態

(B)文化

(C)社會

(D)個人主義

上面這道題取材于十二年級的社會學實踐文憑考試,這就是那種對優秀學生來說很困難的問題。事實上,對任何一個對這個問題有著微妙理解的人來說,這道題都有點難。我本科學的是政治學,輔修歷史學,我沒有信心回答這個問題。這道題的正確答案是(A)意識形態。

這道題提到了一個極其復雜的現象,涉及文化、意識形態、個人信仰和社會規范在多大程度上影響我們的行動以及我們與周圍世界的互動,并將其簡化為一句話。這種簡單化令人沮喪。政治哲學家可以就這個問題爭論幾年,甚至幾十年。“意識形態”很可能是這道題的答案,因為在學生教科書的某一頁上,有這樣一句話:“意識形態是我們對世界的信念和價值觀,它影響著我們的行動和與周圍世界的互動。”出題人只是希望學生記住它。

這個問題不在于學生是否理解什么是意識形態,而在于學生是否記得讀過課本上節選的某句話。難怪那么多孩子對教育制度感到失望和困惑,因為很多評價都取決于是否記得課本上的某句話。

這就是選擇題不能很好地體現理解能力的另一個原因。學生越是見多識廣,選出答案就越難,需要花費的時間就越多。在有時間限制的考試環境中,這可能意味著這些學生會比那些選擇簡單答案的學生考得更差。[8]

此類問題可以在所有不同的課程和科目中找到。選擇題本質上要求將題目簡化,進而使答案更清晰。在這個過程中,學生們失去了對細微差別、復雜性、創造性或多樣性的感覺。本應是辯論性的、充滿個人差異的、場景化的主題卻被簡化為一個標準答案。以下是由美國大學理事會[SAT(美國高中畢業生學術能力水平考試)的出題機構]制作的在線練習SAT中寫作和語言部分的一個例子。[9]

古生物學家正在利用現代技術來更好地了解遙遠的過去。借助計算機斷層掃描(CT)和3D(三維)打印,研究人員能夠創建史前化石的精確模型。

此時,作者正在考慮添加下面這句話。

化石為古生物學家提供了一種估算化石所在巖層年齡的便捷方法。

作者是否應該在這里加上這句話?

(A)是,因為它用一個重要的細節支持了本段的論點。

(B)是,因為它提供了與前一句話的邏輯過渡。

(C)否,因為它與這段的主旨沒有直接關系。

(D)否,因為它破壞了這段的主要主張。

這道題的問題在于,它把寫作和編輯這種極其復雜的、主觀的、個人化的過程簡化為一個標準公式。根據寫作的受眾(考試中沒有給出考生相關信息),作者的個人風格和想法,作者的文章將在哪里刊登,以及作者身處的社會氛圍,答案可能會有所不同。學生怎么知道讀者是否知道化石是什么?如果受眾不同,這句話可能是有用的信息。

我猜那些從事寫作行業的人——作家、編輯、營銷人員、代理人、出版商——不僅對如何最好地組織一篇文章有不同的看法,而且對如何選擇詞語、段落結構和語氣都有不同的意見。我甚至可以確信,他們都不會認為只有一種“正確”的寫作方式。作家、編輯和其他每一個參與寫作過程的人都會不斷地對寫作進行討論和修改,沒人有一個“正確”答案。然而,SAT的考試問題恰恰假設:只有一個正確答案。上述這道題的答案是(C)。下面是我家鄉的化學實踐文憑考試中的三道題。

符號“Ga”代表什么元素?

釩的符號是什么?

符號“Cm”代表什么元素?

雖然這三道題都有明確的答案,但對所有這些問題的回答應該為:“誰在乎呢?”或者,如果你是化學家,你會說:“你如果忘了,看看你桌子上的元素周期表就知道答案了。”這是標準化考試的另一個缺點:它們常常問一些沒有明顯用處的問題,僅僅因為這種題目很容易評分。這是為了記憶而記憶。

此類問題對理解或準備工作來說毫無價值。如果你的雇主問“釩的符號是什么”,然后因為你不知道答案而解雇你,那是多么可笑的事情啊!這些問題都不是在考核有用的知識。它們只是要求你記住元素周期表。除了能考你之外,我們完全不清楚為什么要問這些問題。

標準化考試也普遍對女性不公平。像SAT這樣的考試往往有大量的選擇題,而女性在這方面可能不如男性。愛爾蘭的一項研究用選擇題考試和自由回答考試比較了相似學科的結果。男性在選擇題上表現更好,而女性在自由回答上表現更好。[10]這是為什么?

首先,在回答選擇題時,男性往往比女性使用更多的捷徑和技巧,而女性在回答過程中往往更有條理。其次,更多的女性患有考試焦慮癥,她們喜歡自由回答的問題,因為這樣她們就可以充分表達對問題的理解。她們不愿意做選擇題,因為在選擇題中,她們更容易質疑自己,從而進一步加劇她們的焦慮。[11]這種試題歪曲了教育評價,使聰明和有天賦的女性無法在學校取得成功,并使她們對教育系統更加失望。除了嚴重依賴選擇題之外,學校中的幾乎每一次標準化考試都是限時的。考試時間的倒計時也許是考試經歷中最容易引發焦慮的一個因素。考生在一道題上多花一分鐘,在別的題目上就要少花一分鐘。隨著時間一分一秒地過去,焦慮感會不斷加劇。

考試不再是正確地回答問題,而是變成了快速回答的練習。計時考試假定知識和學習是關于記憶和快速回憶的。當今世界,許多人的手機都可以上網,更不用說電腦了,幾乎任何信息都可以隨時隨地被獲取,記憶的作用值得懷疑。即使無法訪問信息豐富的網絡資源,現實生活中也很少需要人們當場記住事實、公式或過程。除了創傷外科醫生和運動員,有多少職業需要人們立即對問題做出反應?有多少工作場合不允許人們在制訂行動計劃之前對問題進行規劃、制定策略?正如阿爾菲·科恩(Alfie Kohn)所問的:“人們有多少次被禁止向同事尋求幫助?”[12]同樣,有多少工作阻止員工獲得與其工作相關的信息?把說明書從工作場所移走的公司是愚蠢的公司。

標準化考試考的是選擇題,因此這種考試很難為更高層次的思維設計問題。設計一個選擇題考試來對學生的創造性思維和解決問題的能力進行分類是極其困難的。那會發生什么呢?考試考查的是學生對細枝末節和不相關事實的記憶。考試考查學生是否記得內維爾·張伯倫(Neville Chamberlain)名字的正確拼寫,而不是丘吉爾繼任的原因。復雜的概念被簡化為簡單的定義和分類。更高層次的學習被犧牲了,因為出題人渴望出一些孩子會答錯的試題,而不管他們為什么會答錯。正如阿爾菲·科恩所言:“就分號是否使用正確達成一致意見,比就一篇文章是否代表清晰的思想達成一致意見要容易得多。”[13]

選擇題和計時考試以客觀和簡單為目標。但學習很少是客觀和簡單的,至少重要的學習并不是客觀和簡單的。毫無疑問,學習中有客觀或簡單的要素,或者兼而有之;但這些要素并不構成我們學習的核心——理解。你記住一個公式并不意味著理解它。為了對學生進行分類,考試中的客觀性被犧牲了,所以考題或者帶有偏見,或者令人困惑,或者愚蠢至極。[14]

對于所有這些考試方式的缺陷,我們不禁要問:它們有什么好處?如果計時、選擇題、常模參照測驗對評估學生的創造性思維、批判性分析問題或深入理解所學材料的能力都沒有幫助,那么它們還有什么用?考試盡管名為“考試”,但其實并不是為了評價學生對各學科教材的理解程度而設計的。它們真正的設計目的和潛在目的是對學生進行分類和排名。標準化考試如SAT、GRE(美國研究生入學考試)、GMAT(經企管理研究生入學考試)、MCAT(美國醫學研究生院入學考試)和LSAT(美國法學院入學考試)的主要目的是對學生進行排名,以決定哪些學生能被哪些計劃錄取。標準化考試幾乎是每所大專院校的標準。學校每年只能錄取這么多學生,所以需要一種篩選方法來方便這種排序。最具成本效益(換言之,最劃算)的學生分類方法就是考試。考試不是真實評價學生能力和潛力的工具,而是“給孩子貼上標簽;將他們分類,進而限定他們的未來”[15]

即使讓每個學生都對所學科目有出色的理解,讓每個學生都取得100分的考試,對進入大學來說也不是一個很好的考試。(至于有多少人應該能夠上大學,我們是否應該完全限制人們上大專院校的資格,應該為他們提供多少獎學金,以及這對我們的社會有什么影響,這些完全是另一回事。)如果每個人都在考試中得了100分,那么考試肯定不夠難,也沒有提供足夠的分辨能力來淘汰不及格的學生。然而,難道我們不應該期望所有的學生每次考試都拿到100分嗎?教育的目的不就是學好學科知識嗎?學會70%似乎不太好。所以,考試就會變得更難,至少考試的創造者是這樣告訴我們的。通常情況下,考試中多了很多考查記憶的內容和一些刻意模糊的問題,這就使考試本身變得更加武斷。

從理論上講,標準化入學考試的目的是確定哪些學生在學校表現最好。高校希望錄取那些最有可能在班級中表現最好,并最有可能在未來的職業生涯中取得更大成功的學生。這個想法是說,我們投入高等教育的資源,應該用在那些能產生最大影響的學生身上。在我們這個喜歡考試的社會里,這些學生就是那些考試成績最好的學生。這是考試機構、學校管理者和提倡標準化考試的政客們一再重申的信息。

可能會讓人感到震驚的是,在控制其他因素的情況下,標準化考試與在大學里取得成功幾乎沒有關聯。[16]像MCAT這樣的考試幾乎不能預測學生在醫學院實踐方面的表現,如臨床輪換和實習工作。[17]SAT也好不到哪里去。有一所大學——貝茨學院——決定完全取消入學考試,因為入學考試幾乎無法預測學生的大學表現。貝茨學院仍然允許學生自愿提交SAT成績作為錄取時的參考因素,而那些選擇不提交SAT成績的學生提交分數只是出于研究需要(SAT成績不用于評估他們的錄取要求)。然后,研究人員比較了那些提交SAT成績的人(成績普遍較高)和不提交SAT成績的人(成績普遍較低)在大學的表現。他們發現,盡管不提交SAT成績的學生成績平均比提交SAT成績的學生成績低160分,但是這兩類學生的大學成績之間沒有統計學意義上的差別。[18]

標準化考試成績好的學生,在畢業后并沒有更好的表現。考試成績和職場成功之間沒有多大關聯。這并不奇怪,因為考試偏重于記憶和快速思考,而不是解決復雜問題和進行全面分析。考試也不能評估動機、社會技能和職業道德,而這些通常是職場中更重要的特征。在許多工作場所,最有價值的員工并不是那些能最快記住最多事實的人,而是那些能做出最佳決策的人。當人們很容易獲得信息的時候,在規定的時間內記住某個事實是完全無用的。

那么,如果那些在SAT、LSAT、MCAT、GRE等標準化考試中成績優異的人,在本科階段、法學院階段、醫學院階段或研究生階段的成績并不比其他人好,那么他們在什么方面表現更好呢?在這些考試中取得優異的成績到底預示著什么?正如彼得·薩克斯(Peter Sacks)所說:“在標準化考試中得高分是一個人在標準化考試中得高分能力的一個很好的預測因素。”[19]

在創建可以用來區分大學錄取、獎學金資格或未來工作的“客觀”標準的過程中,我們偏離了學習的真正目標。學校變成了備考中心,專注于教孩子如何做題,而不是真正理解他們所學的東西。標準化考試給學生傳遞了錯誤的信息。選擇題和計時考試告訴學生,教育應該是記憶事實和數字的艱苦工作。它向學生傳達了一個信息,即最重要的評價標準是誰能在考試前最努力地將盡可能多的無關信息塞進自己的腦袋里。它消除了人們在學習新思想、發現解決問題的方法、理解我們的世界如何運行和相互配合的過程中產生的所有驚奇、敬畏和好奇心。學習數學、科學、社會研究和語言的過程中應該充滿著迷、驚奇、好奇心和求知欲。但現實正相反,這變成了一項艱苦的記憶工作。難怪大多數學生都討厭學校。

這不僅是因為考試不能很好地評估學習情況,也不僅是因為考試關注的是無關的信息和被簡化的教材。當考試的壓力越來越大時,課堂就會發生變化。教師面臨著讓學生在標準化考試中取得更好成績的壓力,開始減少對學習的關注,而更多地關注如何應對考試。他們開始進行“應試教育”。

第一,教師開始減少對那些可能不在考試范圍內的內容的關注。他們把更多的時間花在訓練學生掌握他們認為(有時甚至已經知道)會出現在考試中的內容上,而不是花在課堂討論上。[20]一個特別熱愛學習的學生如果想了解更多的知識,問了一個不在考試范圍內的問題,教師會拒絕回答他,因為不想把時間花在不會被評估的東西上,盡管花些時間回答學生的問題會增強學生的求知欲。考試把課堂從探究和思考的地方變成了工作間,把教師從學習促進者變成了教官。受害的不僅僅是課堂。學校里其他讓學習變得豐富和完整的部分——在運動隊打球,參與學校演出,加入俱樂部——都是不斷追求更高考試成績的潛在受害者。有多少校隊運動員被告知,除非提高考試成績,否則不能加入校隊?

第二,利益攸關的考試導致教師簡化教材。專注于考試會使課堂的重點從理解概念轉移到記憶事實和數字。這聽起來可能不合常理,但學生想得越少,考試成績就越好。那些抄襲答案、連蒙帶猜、跳過難題的學生通常比那些復習自己不理解的部分、在閱讀時問自己問題、試圖將所學內容與正在做的事聯系起來的學生成績更好。那些好奇心旺盛的人在考試中會被那些對學習興味索然的人打敗。要知道,選擇題、計時考試其實漏洞百出,這并不令人感到震驚。那些在盡可能短的時間內回答盡可能多的明確、簡單問題的人,會比那些花更多時間深入思考模糊問題的人做得更好。但誰學得更多呢?考試讓學生認為,學習不是為了尋找解決問題的方法,不是為了了解新概念,也不是為了發現我們生活的美好世界的另一面。考試告訴學生,學習就是要記住無用的事實,為考試死記硬背,努力不被令人困惑的問題欺騙。學習中所有的驚奇、嘗試和發現都被壓力之下的空洞和無用的記憶取代。

第三,應試型學校的教師更注重應試技巧,而不是學習本身。他們向學生傳授考試的技巧和策略,特別是在短時間內應對選擇題考試的技巧和策略。猜答案和答題前先看答案只是教師教授的兩種策略,而這兩種策略的傳授是以犧牲真正的學習為代價的。托馬斯·奧謝(Thomas O'Shea)和馬文·維登(Marvin Wideen)在加拿大不列顛哥倫比亞省進行的一項研究發現,標準化考試導致教師在課堂上花更多的時間講課,而花更少的時間來引導課堂討論。[21]相反,在日本,學校通常不太重視標準化考試。與美國同行相比,日本教師要求學生自己想出解決問題的方法,并把它們解決掉,而在美國,學生只是被告知解決問題的“正確”方法,然后付諸實踐。[22]他們不知道為什么這個方法是正確的,只是教師告訴他們這是正確的。

第四,教師開始操縱課堂由哪些學生組成,以確保得到較高的考試成績。在學習教材方面有困難的學生被戰略性地趕出課堂。有時他們被認為有學習障礙,或者干脆被排除在考試之外,以保證平均分不被拉低。為了不斷提高平均考試成績,那些考試成績不好的學生會被安排到補習班,這樣教師就可以把他們從分數計算中排除。有時,被排除在外的學生也會搞政治。2015年,紐約教育官員面臨著一個困境:很多學生決定不參加標準化考試。那一年,近20%的學生選擇不參加標準化考試。[23]

這些學生的能力不一定比其他學生差,事實上,他們可能表現出更高的思維水平。但由于考試簡化概念,懲罰創造性和細致入微的思考,獎勵速度,所以那些更喜歡沉思默想、更細致縝密的學生實際上被告知,他們不如其他學生聰明。

標準化考試對學校有什么影響?首先,學校把課堂的重點從真正的學習轉移到了死記硬背上。這樣一來,學校疏遠和排斥了那些比同齡人有更深層次思考的學生。標準化考試給學校帶來了一個殘酷無情的排名系統,確保只有少數精挑細選的人能夠晉級。問題是,這少數人并不一定比其他人更聰明或更有能力。他們只是擅長考試而已。

在考試對學校造成的所有這些影響中,有一個共同的主題:考試損害了真正的學習。由于太過專注于對學生進行分類,我們的考試變成了一種反常的工具,它獎勵簡單化的思維方式,削弱真正的理解。考試已經成為學習的對立面。

在學校中使用選擇題考試作為衡量指標是因為它容易使用和實施,而不是因為它準確反映了我們想衡量的能力。我們不應該因為某個衡量指標很簡易就使用它。當然,通過做選擇題來測試學生對基本事實和數字的記憶是很容易的,但這并不意味著我們應該這樣做。衡量員工在工作中花了多少時間也很容易,但這并不意味著我們應該以此衡量他們的表現。易于測量并不能使測量變得相關、重要或有用。

標準化考試無法很好地衡量創造性地解決問題的能力。這并不意味著創造性地解決問題的能力不重要,也不意味著我們應該完全取消選擇題、計時考試。這僅僅意味著我們需要確保標準化考試不會主導課堂,也不會成為我們認為重要的東西的替代品。考試改變了學校,這完全不應該。

標準化考試對學校的影響應該是一個警告,它告訴我們盲目遵守和遵從衡量指標會扭曲我們的努力,導致事與愿違。這種現象并不局限于學校。當我們盲目追隨時,任何衡量指標都會使我們與我們所做的任何事情背后的最終目的和意義分離。就像追隨信息素蹤跡的螞蟻一樣,盲目地堅持標準化考試已經把我們的教育系統引向了一條不正常的道路,使我們為了考試成績好而犧牲了學習能力。我們萬萬不可做“螞蟻”。

“應試教育”可能是教育系統常用的一個說法,但“爭分奪秒”“看起來不錯”“得分很高”也同樣耳熟能詳。它們都指向一種情況,即某件事情可能測量結果很好,但實際上可能很失敗。但是,對考試成績的強調并不只是改變了教師在課堂中的工作方式,有時,在利益攸關的考試環境中,教師甚至會作假。

* * *

2008年,希瑟·福格爾(Heather Vogell)和約翰·佩里(John Perry)注意到佐治亞州迪卡爾布縣的阿瑟頓小學有些異常。那年春天,該校32名五年級學生中有近一半沒有通過每年一度的州教育考試。該校在該州的小學中僅僅排在第10百分位數,這意味著90%的學校在考試中表現更好。然而,當學生們在秋季重新參加考試時,聯邦當局實施了一項規定,允許學校使用最新的考試成績來申請聯邦撥款,這次,全體學生都通過了考試。最重要的是,26名學生在考試中獲得了最高的分數。該校在全州的排名從第10百分位數上升到第77百分位數。

考試成績的提高意味著,學校達到了聯邦教育計劃《不讓一個孩子掉隊法案》所規定的“適當年度進步”。達到要求意味著學校將有資格獲得更多的聯邦撥款,更重要的是,這將避免學校因未達標而受到懲罰。該校校長將學生成績的突飛猛進歸于暑假期間的強化補習,以及教師更加重視考試。

佐治亞州的其他幾所學校也有類似的異常結果。亞特蘭大的亞當斯維爾小學和帕克萊恩小學,以及格林縣和蓋恩斯維爾的另外兩所學校的成績也出現了令人難以置信的提高。[24]《亞特蘭大憲法報》的兩名記者福格爾和佩里在報紙上發表了他們的調查發現。

一定是有什么事情發生了。

* * *

匹茲堡是亞特蘭大南部一個以黑人居民為主的貧困工人階級社區,距離市中心約3英里[25]。它毗鄰亞特蘭大的佩格勒姆鐵路商店,它的名字表達了對賓夕法尼亞州匹茲堡鋼鐵廠的致敬。從20世紀60年代開始,較富裕的黑人家庭開始搬離這個社區,在城市中尋找更富裕的地區。1970—1990年,這里的人口減少了一半。到2014年,匹茲堡社區有近一半的房屋空置,賣淫和盜竊行為在這一帶很普遍。在匹茲堡所屬的學區,3/4的學生生活在貧困線附近或以下的水平,90%的人是黑人或拉丁裔,只有不到40%的人從高中畢業了。[26]匹茲堡是人們想要逃離的社區,許多人也確實逃離了。對那些生活在匹茲堡的人來說,生活沒有希望。帕克斯中學正位于匹茲堡。

2005年,克里斯托弗·沃勒(Christopher Waller)出任帕克斯中學的校長,他發現學校瀕于倒閉。前任校長雖然通過翻新校舍和聘請輔導員改善了學校,但因被指控在之前的工作中存在性行為不端而引咎辭職。[27]教師士氣低落。學生則努力掙扎著想要達到為他們設定的越來越高的標準,但往往不能保持他們在小學階段取得的進步。沃勒是一位教師的兒子,在佐治亞州的一個鄉村小鎮長大。在孩提時代,他喜歡和兄弟姐妹玩過家家,他總是扮演教師和牧師。他大學畢業后獲得了教育學學位,和他的母親一樣,他的教育經驗主要來自與低收入家庭的孩子打交道。

曾經,在沃勒的第一份工作中,他不得不沒收學生的武器。在來到帕克斯中學之前,沃勒曾在佐治亞州的多所鄉村學校任教,擔任科學教師、足球助理教練、行政助理和校長助理等,到了晚上和周末,他是教會的牧師。[28]

帕克斯中學的許多學生沒有父親,有些學生甚至無父無母。許多孩子是由祖父母撫養長大的,有一些孩子正處于被送進少年拘留所的邊緣,還有一些孩子的父母吸毒,或因其他原因不在孩子身邊。在帕克斯中學工作期間,沃勒經常在法庭上懇求法官不要把他的學生送進監獄。[29]教師和家長的汽車在學校里會被偷走。學校里,入室盜竊也很常見,有一次,失竊的設備在一名家長的家中被找到。一些學生甚至在放學回家的路上遭到性侵犯,沃勒甚至不得不作證指控一名男子對他的一名學生進行性侵犯和禁閉。[30]

沃勒面臨著一項艱巨的任務。帕克斯中學在過去幾年的考試中表現不佳,情況岌岌可危。沃勒必須扭轉這所瀕臨絕境的學校的情況,以確保達到績效目標,否則學校可能會失去撥款,甚至被關閉。這是一項令人難以置信的任務。32歲的沃勒是整個亞特蘭大公立學校系統中最年輕的校長。[31]

2001年,喬治·沃克·布什總統簽署了《不讓一個孩子掉隊法案》。該法案提出將大幅增加聯邦政府對教育的撥款,但學校要達到一定的標準才有資格獲得這筆撥款。2001—2004年,聯邦政府對教育的撥款增加了25%以上。該計劃基于一種叫“基于標準的教育改革”的教育理念。這一教育理念認為,如果你為教育設定高標準,建立可衡量的績效目標,并要求教師和行政人員對這些目標負責,那么學生的個人成績就會提高。這套系統嚴重依賴于使用標準化考試確定學生的表現,跟蹤學生的進步。

《不讓一個孩子掉隊法案》根據標準化考試的實施情況給州政府撥款。為了獲得撥款資格,學校必須證明其成績逐年提高。然而,績效標準由各州自行制定。在佐治亞州,績效標準是通過CRCT(標準參照能力考試)實施的。考試的重點覆蓋5個領域:閱讀、數學、英語/語言藝術、科學和社會研究。[32]學校被分為兩類:一類是達到“適當年度進步”的學校,即學校的考試成績正在提高;另一類是“需要改進”的學校,即學校的成績不合格。對于達到“適當年度進步”的學校,聯邦基金將提供額外的支持。那些沒有達到“適當年度進步”要求的學校,將不得不制訂計劃來提高未來兩年的表現。一旦一所學校被列為“需要改進”的學校,學生就可以選擇轉學(并獲得相關資金)。如果學校的表現在兩年計劃后沒有得到改善,學校將被迫向學生提供免費輔導,這會進一步加大資源壓力。如果到了第4年還沒有改善,學校可能要采取違背自身意愿的措施,包括大規模更換教職員工或引入新課程。如果到了第6年,學校的表現還沒有改善,政府就會對學校采取嚴厲的措施,比如由州政府接管學校,或者完全關閉和解散學校。

這就是克里斯托弗·沃勒在2006學年陷入的困境。帕克斯中學之前幾年的成績很差,它被列為“需要改進”的學校。這一年,該校58%的學生需要通過數學CRCT考試,67%的學生必須通過語言CRCT考試,否則學校可能面臨停課。[33]正如沃勒所說:“不管孩子被教了多少或學了多少,如果不能達到目標,我們就不能幫助孩子繼續學習。如果我們沒有達到‘適當年度進步’,學校就會被關閉。”[34]

* * *

1999年,貝弗利·霍爾(Beverly Hall)成為亞特蘭大公立學校的督學。霍爾在服務弱勢學校和表現不佳的學校方面有豐富的經驗。她出生于牙買加蒙特哥灣,畢業于布魯克林學院,隨后獲得紐約市立大學碩士學位和福特漢姆大學博士學位。[35]她曾在布魯克林的格林堡和紐瓦克工作,自1995年起,她在那里擔任督學。[36]當她來到亞特蘭大時,她不僅帶來了教育弱勢學生的熱情,還帶來了籌款的訣竅。但最重要的是,霍爾相信責任。[37]

除了聯邦《不讓一個孩子掉隊法案》對學校實施的激勵和懲罰措施之外,在貝弗利·霍爾的領導下,亞特蘭大公立學校還設計了與考試成績掛鉤的附加措施。學校董事會有一個名為“研究、規劃和責任部”的部門,為每所學校制定了要實現的年度目標。學校董事會的副督學會監督各個學校的表現,并要求校長承擔責任。[38]

如果學校達到了績效目標,霍爾就會用捐贈者擔保的資金來獎勵學校。如果學校達到目標,教師、校長、后勤人員,甚至校車司機將會獲得高達2 000美元的現金獎勵。相反,如果在3年內沒有達到績效目標,校長就會被解雇。[39]沒有例外,沒有借口。[40]霍爾說到做到。在她擔任督學的10年里,90%的校長都被換掉了。[41]

在亞特蘭大公立學校,考試成績就是一切。每年秋季,該學區都會在佐治亞球館(亞特蘭大獵鷹隊的主場)舉行畢業典禮。成績達標的學校將得到認可,坐在球場上,而成績不佳的學校則被安排在看臺上。座位安排非常重要,人們甚至為此創造了一個詞:“鋪地板”[42]

對沃勒來說,亞特蘭大公立學校以CRCT成績的形式關注考試,這與他以前經歷的任何事情都不同。根據他在農村地區的工作經驗,重點是教學或表現,在一個農村里,重點甚至只是讓孩子們來上課,而不去打架。[43]但在亞特蘭大公立學校,重點是考試、考試、考試!學校要達到的標準不僅比《不讓一個孩子掉隊法案》規定的標準高,而且還在不斷提高,因為霍爾認為進步應該是持續的。霍爾實施了一個制度,要求達標的學生人數必須每年增長3%。[44]正如沃勒所說:“即使達標的孩子成功升入下一個年級,學校也為接下來的年級設定了標準。年復一年,要實現讓孩子們達標的目標變得越來越困難。”[45]

在貝弗利·霍爾領導下的亞特蘭大公立學校,你要么達到標準,要么承擔后果,沒有任何借口。霍爾向系統中包括沃勒在內的每一位校長明確表示了人們對校長的期望:“在亞特蘭大,人們保住工作的方法就是制定目標。”[46]當校長們與霍爾會面時,她會以10人或12人為一組,把每所學校的分數用大圖表的形式展示在房間里,并詢問每位校長當年是否能實現目標。沒人敢說不能。[47]

除了通過《不讓一個孩子掉隊法案》獲得聯邦政府的資助外,霍爾還為亞特蘭大公立學校爭取到了數百萬美元的私人捐款,并在整個系統內進行分配。霍爾會利用慈善家提供的資金支付教師的工資,并幫助學校建立課外項目。霍爾認可教育在幫助人們擺脫貧困方面的作用,僅從通用電氣基金會、比爾及梅琳達·蓋茨基金會,她就為學區籌集了4 000多萬美元。[48]

整個亞特蘭大取得的成果簡直令人震驚。當貝弗利·霍爾開始擔任督學時,只有不到50%的八年級學生達到該州的語言藝術標準。到2009年,這個數字已經上升到了90%。學校發生了變化,學生們看到了希望。霍爾證明了教育改革運動和績效目標是有效的。通過制定嚴格的目標,問責教師、校長和行政人員,霍爾為亞特蘭大公立學校帶來了轉機。她在亞特蘭大公立學校的工作引起了美國學校管理者協會的注意,2009年,該協會將她評為年度國家督學。貝弗利·霍爾在亞特蘭大公立學校取得的成果令人難以置信,市議會宣布,將2009年9月8日定為“貝弗利·霍爾博士日”,還為她舉行了一場儀式。[49]

* * *

當沃勒開始在帕克斯中學擔任校長時,他注意到了一些很不尋常的事情。從帕克斯中學周邊的小學進入帕克斯中學的學生在CRCT語言藝術考試中的成績很好。然而,當他們來到帕克斯中學上課時,他們甚至很難達到一年級的閱讀水平。他無法解釋為什么學生的綜合閱讀水平會在一個夏天的時間里從五年級水平跌到一年級水平。沃勒認為這種差異只有一個解釋:小學在作假。[50]

沃勒試圖向負責帕克斯中學所屬地區的副督學邁克爾·皮茨(Michael Pitts)反映這一情況,但皮茨拒絕解決。相反,皮茨對沃勒的擔憂做出了回應,他威脅說,如果沃勒繼續喋喋不休,帕克斯中學將只會接收那些在小學里“表現最差”的學生,那樣將進一步加重沃勒的任務。[51]

這種處境讓沃勒不知所措,他向學校的幾位教師提出了這個難題,以及考試結果讓他們陷入的困境。一位教師告訴他,她聽說有一所小學,教師會在學生寫完試卷后涂改答案,以此篡改學生的考試成績。副校長格雷戈里·里德(Gregory Reid)告訴沃勒,他聽說有些學校的教師可以提前拿到試題。[52]

沃勒處境艱難。他所負責的學校瀕臨關閉,必須達到不切實際的標準。不僅僅沃勒自己會感受到沒有達到這些目標的懲罰,而且教師會被調離,甚至有可能被解雇。更重要的是,學生可能會失學。對許多人來說,這是他們生活中唯一穩定的事情。因此,為了應對向帕克斯中學輸送學生的小學所做的事情,并維持學校的運營,沃勒決定做亞特蘭大公立學校系統的其他幾十名校長正在做的事情:作假。[53]

沃勒知道,他必須與自己可以信任的教師合作。因此,他建立了專門的核心教師小圈子,幫助他確保學校達到年度績效目標。在飽受了幾個月的壓力之后,他尋找到的第一位教師是該校的數學教師達馬尼·劉易斯(Damany Lewis)。劉易斯當時還不到30歲,出生在東奧克蘭,母親是銀行出納員,父親是癮君子。他從2000年開始在帕克斯中學工作。他既是橄欖球教練,又是足球教練,還創辦了國際象棋俱樂部。據大家所說,劉易斯簡直是一個啟明星一般的人。他知道很多學生沒有錢洗衣服,就幫他們洗衣服。對其他學生來說,當他們的父母不在家或沉迷于毒品時,劉易斯會為他們提供一個睡覺的地方。[54]沃勒勸說劉易斯,如果學生考試不及格,學校就會關閉,學生將被分開,帕克斯中學在社區中扮演的角色就會蕩然無存,這才說服劉易斯幫助作假。劉易斯只好委曲求全。

帕克斯中學的作假系統主要圍繞著沃勒之前了解到的兩種策略:在考試開始前先拿到試卷,然后把試卷分發給值得信任的教師;在交卷之后、評分之前篡改學生的考試答案。獲取試卷并不難。劉易斯會潛入存放試卷的辦公室,用剃刀打開試卷包裝,復制出幾份試卷的副本,然后用打火機加熱的方式把包裝上的塑料重新封好。然后,劉易斯將試題交給信得過的教師,他們會仔細思考這些試題,再把答案教給學生。為了操縱考試,沃勒會在考試日帶著考試協調員阿爾弗雷德·基爾(Alfred Kiel)去市中心吃長時間的午餐,從而分散他的注意力。在他們離開后,一群教師就會走進基爾的辦公室,篡改試卷。[55]教師們會復核學生的答案,以確保答案正確。

在學生答錯的地方,教師會把錯誤答案擦掉,寫上正確答案。不過,沃勒很謹慎,他要求教師們改動的題目不超過1/5,而且只改動一定數量的答案,使得學生成績最終只超過及格線幾分。[56]

沃勒領導下的帕克斯中學的考試成績顯著提高。2005年,86%的八年級學生數學成績達到優秀水平。而在2004年,這個數字是24%。閱讀成績優秀水平從35%提高到了78%。[57]貝弗利·霍爾和亞特蘭大公立學校從未容許作假,但每個人都知道發生了什么。沃勒在數年后講述了這樁丑聞,他說,霍爾用各種方式明確表示,作假即使不被鼓勵,也是可以接受的,但她從來沒有直接這樣說過。霍爾會用“高層改革”這樣的暗語來描述學校為取得成果而采取的措施,而不直接指示任何人采取不當行為。[58]然而,霍爾會確保她所在系統內的校長清楚地知道對他們的要求。她讓工作人員向校長展示到底有多少學生需要通過考試,以及需要多少正確答案才能達到標準。[59]霍爾還保護作假的教師和校長。當帕克斯中學的教師塔梅卡·格蘭特(Tameka Grant)寫信給霍爾,稱沃勒勸說教師在考試中作假時,霍爾答復說:“沃勒沒干什么。”在格蘭特提出申訴后不久,她就被調到了該區最“危險”的學校之一。[60]霍爾說得很清楚,舉報者會受到懲罰。這就是系統。校長會組建他們可以信任的核心教師小圈子,幫助學校在考試中作假。亞特蘭大公立學校的督學和高層人員會保護這些校長,并給他們發獎金。如果有人抱怨,他們會被拒之門外,重新安置,或者被排斥。組織內外任何人對作假的指控都會被立即駁回或忽略。

幾年之后,帕克斯中學的作假系統幾乎變成了自動作假。沃勒相信他的核心教師小圈子會負責操縱考試結果,并在考試前拿到試卷。他從來沒有直接指示教師操縱考試成績,但大家都心照不宣。被信任的教師會參與其中,要么自己直接操縱學生的考試成績,把錯誤的答案抹掉,換成正確的答案;要么提前拿到CRCT考試的試卷并做一遍,確保學生知道答案。沒有人公開談論學校發生的作假行為,但很多人都知道。正如沃勒所描述的那樣,作假在帕克斯中學已經成為一臺“運轉良好的機器”[61]

到了2009年,一切分崩離析。

* * *

希瑟·福格爾和約翰·佩里發表了一篇關于阿瑟頓小學和其他三所小學考試成績大幅提高的問題的文章。兩人使用了一種叫回歸分析的統計方法,比較了幾所選定的每年都會考試的學校的成績。[62]兩人在2008年12月發表了一篇文章之后,又在2009年10月發表了另一篇文章,也就是在該市慶祝“貝弗利·霍爾博士日”一個月之后。[63]這一次,兩人考察了2008—2009年的CRCT成績,并將每年的結果進行了比較。兩人再次指出了全州各學校的一些令人難以置信的不正常的考試結果。韋斯特莊園小學和佩頓小學從前一年的成績最差的學校一躍成為后一年成績最好的學校之一。福格爾和佩里發現了許多一年之間成績大幅提高的案例,但也有成績急劇下滑的案例。[64]鑒于作假在亞特蘭大公立學校和整個州是如此普遍,這就說得通了。學生在教師作假的情況下考試,成績就會虛高,如果他們轉到教師沒有作假的班級,那么他們的成績就會大幅下降,反之亦然。

有些結果著實令人難以置信。2008年,韋斯特莊園小學四年級學生的成績排在全州第830名,但在2009年,這些上了五年級的學生的成績在全州名列前茅。佩頓小學是2008年全州數學成績最差的學校之一,但在2009年排名第四,盡管在模擬考試中,94%的學生的數學成績是四個等級中最差的一等。

結果不容忽視。佐治亞州的學校發生了一件非常奇怪的事情,可能涉及不得體的行為,甚至可能涉及犯罪。記者們確信,必須做點兒什么。文章明確指出:“從統計學角度看,更多的班級出現了不太可能出現的考試成績,這表明已經涉及4所學校的作假調查可能即將擴大。”[65]他們說的沒錯。這些文章不僅引起了亞特蘭大公立學校董事會的注意,也引起了州長桑尼·珀杜(Sonny Perdue)辦公室的注意。州長辦公室迅速進行了調查,發現該地區約1/5的學校出現了異常結果。帕克斯中學也被發現有75%的班級在考試中有可疑跡象。[66]

亞特蘭大公立學校承諾對可疑的結果進行調查,并成立了藍帶委員會[67]。該委員會由亞特蘭大公立學校組織并配備工作人員,他們得出的結論是,不存在共同謀劃操縱考試成績的行為。[68]珀杜州長卻并不信服。因此,2010年8月,他批準了一項行政命令,授權前州檢察長邁克爾·鮑爾斯(Michael Bowers)、前地區檢察官羅伯特·E.威爾遜(Robert E. Wilson)和特別調查員理查德·海德(Richard Hyde)徹底調查可疑的考試結果。珀杜州長賦予了他們傳喚權,以及雇用50多名調查人員的預算。[69]

調查人員最初遭到了學校董事會和教師的強烈反對,似乎沒有人愿意配合。但調查人員還是堅持了下來。當年秋天,佐治亞州調查局的50多名調查員花了一個月的時間走訪了全州的各個學校,包括帕克斯中學。[70]調查人員坐在食堂、教師休息室、走廊和教室里,與教師接觸,讓教師協助調查。最終,他們成功了。調查人員說服了眾多教師成為本案的證人,有的教師同意戴上竊聽器,記錄與其他教師的對話。[71]完整的調查持續了兩年半的時間。貝弗利·霍爾和其他許多人在調查期間退休,還有許多人在調查期間被解雇或被吊銷教師執照。

除了面談之外,州長學生成績辦公室還與“麥格勞—希爾教育測評中心”(CTB McGraw Hill)簽約,調查考試中由錯到對的答案改動。麥格勞—希爾教育測評中心進行的分析包括找出選擇題考試中哪些地方的答案被擦掉了,他們會統計這些答案由錯到對的改動數量。通過將這些變化的數量與典型考試進行比較,研究人員能夠確定考試成績是否被篡改。麥格勞—希爾教育測評中心發現,在亞特蘭大和其他34個學區,“相當數量的班級中由錯到對的涂改次數大大高于全州平均水平,令人震驚”。帕克斯中學的改動發生率最高。[72]調查人員聘請的教育測量學教授格雷戈里·奇澤克(Gregory Cizek)這樣描述隨機涂改出現的概率:這種事出現的概率就像用人把佐治亞球館填滿的概率一樣,而且“球館里的每個人都要超過7英尺高”[73]

這項調查涉及對全州各類教育工作人員的2 000多次采訪。僅在亞特蘭大就有44所學校存在作假現象,作假風氣盛行,據估計,83%的亞特蘭大公立學校都存在作假現象。[74]特別調查開始后僅10個月,2011年6月20日,調查人員就發布了一份報告,178名教師和校長卷入丑聞,其中82人已經認罪。[75]

該案的初步指控導致110名教師在承認作假或被懷疑作假后停職。[76]達馬尼·劉易斯是第一批同意合作以換取指控豁免的教師之一。[77]事情敗露了。調查人員還對亞特蘭大公立學校和貝弗利·霍爾提出了嚴厲的指控,稱“憂懼、恐嚇和報復的文化充斥著整個學區,各級作假行為多年來一直得不到遏制”。他們還表示,學校系統內的考試成績“被用作羞辱和懲罰學生的殘忍武器”[78]

調查人員得出結論:正是達到目標的巨大壓力導致教師作假。亞特蘭大公立學校達到目標的方式使教師和行政人員認為,他們必須在“為達到目標而作假”和“達不到目標而失去工作”之間做出選擇。[79]

隨著時間的推移,標準不斷提高,學生每一年的成績都要不斷提高,再加上作假現象已經很普遍,這意味著教師如果不作假就幾乎不可能達到預期的標準。調查人員提供的報告稱:“該地區多年的考試不端行為加深了作假的程度,教職人員每年不僅要讓學生成績達到上一年的虛假分數,而且要超過這一虛假分數。學生的學業水平與他們所要達到的目標之間的差距越來越大。”[80]

對亞特蘭大地區的校長和教師來說,作假不是一種選擇,而是唯一的生存之道。

對帕克斯中學的許多教師來說,考試作假只是達到目的的一種手段。對他們來說,學生才是最重要的。對達馬尼·劉易斯來說,重要的是讓帕克斯中學的學生相信自己可以逃離這片社區。劉易斯在自己的腦海中為作假辯護,因為對他來說,如果學校關閉,如果學生被重新分配,這就像是社區失去了主心骨。學生在帕克斯中學得到的引領和指導,以及相信自己能有所成就的信念,足以讓他們有充分的理由去篡改一些答案。學生相信自己可以做得比預期中更好,這就足夠了。劉易斯說:“我會盡我所能來阻止那種‘為什么要努力學習’的情緒出現。”[81]對沃勒來說,學校的變化對學生產生了積極的影響。他們“開始以不同的方式看待事物。他們看到了出路”[82]

總之,亞特蘭大和佐治亞州其他地區的170多名教師、校長和高級管理人員被指控犯有各種罪行,其中許多校長和高級管理人員是根據《反敲詐勒索及腐敗組織法案》(Racketeer Influenced and Corrupt Organizations,RICO)受審的,該法案與起訴有組織犯罪成員的法律條款相同。達馬尼·劉易斯是第一名因該丑聞而被解雇的教師,此前他拒絕辭職。他在2012年3月的解聘聽證會上宣讀的聲明中只是說:“我認為證據將證明亞特蘭大公立學校存在系統性問題。這就是我的聲明。”[83]

2013年3月22日,克里斯托弗·沃勒、貝弗利·霍爾和其他33名行政人員被大陪審團根據《反敲詐勒索及腐敗組織法案》起訴。貝弗利·霍爾的罪名包括敲詐勒索、虛假陳述、盜竊、影響證人和共謀犯罪。直到2015年4月1日,亞特蘭大地區的11名教育工作者才被判犯有敲詐勒索罪和其他幾項與標準化考試作假有關的罪行。霍爾不在其中,她在此之前一個月死于癌癥,但起訴書沒有回避將丑聞的大部分責任歸于霍爾。

久而久之,達到亞特蘭大公立學校年度目標的過重壓力導致一些員工作假。貝弗利·霍爾和其他高層管理人員拒絕接受任何未達成目標的行為,這創造了一種環境,在這種環境中,達到預期結果比學生的教育更重要。[84]

沃勒被判處5年緩刑,并處罰金4萬美元。[85]帕克斯中學于2014年關閉,并與林蔭山中學合并。

這一切都是因為考試。

* * *

發生在亞特蘭大公立學校的事情并不是異常現象。據報道,費城、托萊多、埃爾帕索、巴爾的摩、辛辛那提、休斯敦和圣路易斯等城市也普遍存在作假現象。[86]在某些情況下,作假會導致悲劇性的后果。盡管我們永遠不知道珍妮·沃雷爾—布里登(本章開頭提到的紐約一所學校的校長,被舉報在三年級的考試中作假,之后跳到地鐵列車前自殺)在4月的那個悲慘的日子里經歷了什么——她的祖母去世了,據報道,她還遇到了婚姻問題——我們只能推測,三年級考試的壓力,以及對她涉嫌考試作假的調查,是她決定自殺的原因。

人們對績效指標做出的反應出人意料、不合常理,有時甚至是不誠實的,但這并不僅僅發生在學校。事實上,在生活的方方面面,人們的反應幾乎都像亞特蘭大公立學校的教師那樣。雖然這種反應可能不涉及作假或其他不道德或非法的行為,但人們會想方設法達到目標。這種現象非常普遍,甚至有一個名詞來描述:古德哈特定律(Goodhart's Law)。[87]

查爾斯·古德哈特(Charles Goodhart)是一位研究貨幣政策的經濟學家。他發現,當政府試圖監管金融體系時,投資者將預見監管產生的影響,并從中獲利。古德哈特的結論是,一旦任何測量結果與激勵掛鉤,人們就會想方設法最大限度地提高這一測量結果,無論他們的行為是否有助于實現該測量的初衷。對這一定律最好的詮釋是:“當一項測量成為目標時,它就不再是一項好的測量。”這就是在亞特蘭大發生的事情。考試不僅是評估學生進步的方法,而且成了與其相關的激勵本身——巨大的獎勵。如果考試成績沒有達到目標,校長和教師可能會失去工作。不僅如此,學校還可能被迫關閉或者被接管和重組。如果考試成績達標,教師會獲得獎金。因此,獲得高分的動機非常強大。

人們以反常的方式回應衡量指標和激勵的例子比比皆是。19世紀,在中國工作的古生物學家對搜集恐龍骨骼化石來研究史前動物很感興趣。完整的化石很罕見,因為數千萬年的地質力量會分解骨骼和其他遺留物,古生物學家通常不得不處理骨骼碎片或其他不完整的化石。于是,古生物學家向當地農民尋求幫助,提出每上交一塊恐龍骨骼化石碎片,就付給農民一筆錢。農民很快就學會了如何玩弄這個系統:因為古生物學家是按“碎片”付費的,所以農民開始砸碎他們找到的恐龍骨骼化石,這樣他們就可以上交更多的“碎片”。[88]1992年,西爾斯公司開始向機械師支付維修設備的費用,這導致機械師為了賺錢而進行不必要的維修。[89]

在澳大利亞,列車員會因晚點而受到處罰。因此,他們開始進站不停車,這讓站臺上候車的乘客感到很疑惑:為什么火車就這樣呼嘯而過?在英國,急診科開始測量病人到達急診室后看病所花的時間。于是,在醫生準備好給病人看病之前,接診人員拒絕讓救護車里的病人下車。其結果是,救護車要一直等到醫生準備好,這占用了寶貴的輔助醫療資源,減少了對緊急情況的響應時間。[90]20世紀90年代,紐約州和賓夕法尼亞州開始公布醫院和外科醫生的患者死亡率數據,目的是在醫療保健領域實施問責制度。這個想法的初衷是,患者能夠選擇表現更好的醫院或外科醫生,醫生和醫療管理人員能有動力去改善醫療服務。但結果相反,外科醫生為了提高治愈成功率,開始拒絕收治病情復雜的患者。[91]

英國殖民印度時在印度首都德里遇上了一個麻煩:眼鏡蛇。這座城市里棲息著大量的毒蛇,給殖民政府和當地居民造成了危險。殖民政府想出了一個主意:懸賞捕蛇。當地居民每交出一條死眼鏡蛇就會得到一筆獎金。這個計劃似乎相當成功,許多蛇被殺死,政府也給了獎金。但很快,殖民政府發現了為什么這么多蛇能夠被捕獲并殺死:因為當地居民開始飼養蛇,再把死蛇賣給政府!英國人意識到印度人在玩弄這套系統,于是取消了捕蛇獎金。既然眼鏡蛇已經沒有價值了,那些養蛇的人就把蛇放生了。結果,城市里的眼鏡蛇數量增加了一個數量級。英國人控制城市里眼鏡蛇數量的計劃反而讓情況變得更糟糕。研究這種現象的德國經濟學家霍斯特·西伯特(Horst Siebert)稱之為“眼鏡蛇效應”。[92]

人們以不正當的、適得其反的方式對衡量指標做出反應的現象,無論被稱為“眼鏡蛇效應”還是“古德哈特定律”,都將貫穿本書。我們將看到,當一個衡量指標被使用時,人們會想方設法去實現它,而不管他們的行為是否實現了衡量指標背后的目標。

亞特蘭大公立學校丑聞可能是古德哈特定律的一個極端例子,但也是一個有用的例子。達到標準的壓力越大,情況就越危急,人們就越有可能突破可接受的極限來達到標準,并為此想盡辦法、不擇手段。不過,他們不會以你預期的方式來做。

在亞特蘭大公立學校的丑聞中,我們還看到了一個重要的區別,這個區別也將貫穿本書始終。為了應對考試成績的壓力,教師們以兩種截然不同的方式做出了回應。第一種反應是,教師改變他們的教學方式。他們把更多的教學精力放在他們認為會考的材料上,把更多的時間花在備考和教授考試技巧上,他們在課堂上取消了那些不會出現在考試中的內容,無論這些內容是不是課程的一部分。這就是“應試教育”。第二種反應是,他們決定作假。

這兩種反應之間的重要區別在于,第一種反應涉及對正在發生的事情的真正改變。應試教育意味著以犧牲學習的其他方面為代價教會學生如何考試。不在考試范圍內的科目被忽略了,更深入的理解被犧牲了,重點變成了更容易應對考試的簡單思維方式,而選擇題考試中無法體現的學習內容,如創造性和探究性,也被遺忘了。作假雖然是不道德的,也是違法的,但并不一定會改變課堂本身。學生們仍然可以學習創造性,學習考試內容之外的科目,并探索教材中更深入、更持久的內容。作假只涉及對測量本身的操縱。

古德哈特定律沒有做出這種區分,但這種區分很重要,貫穿本書。古德哈特只是說,任何測量,當被做成衡量指標時,都將不再有用,因為人們最終將學會玩弄這個系統。但古德哈特從未詳述人們將如何玩弄這個系統。人們可以從根本上改變自己的行為(通常是以反常的方式),以此最大限度地提高他們被衡量的表現,或者他們可以簡單地找到改變衡量結果的方法,而根本不改變他們的行為。這兩種策略通常會同時出現,我們必須明白它們是不同的,但不一定是分開的。那些在考試中作假的教師可能也改變了他們在課堂上的教學內容,但他們不一定要這樣做。

本章在討論標準化考試時總結的另一個教訓是,人們選擇某些衡量指標,往往不是因為它們是需要測量的良好指標,而是因為它們容易測量。當簡單的測量與按特定標準執行的激勵措施結合在一起時,這些測量會扭曲人們的行為,讓人們把注意力放在容易和可測量的事情上,而不是放在難而重要的事情上。

* * *

衡量指標會影響我們的工作、行為,以及我們最終選擇的價值。豪澤和卡茨說過:“你測量什么,你就是什么。”[93]丹·艾瑞里(Dan Ariely)則有不同的說法:“你測量什么,你就得到什么。”[94]這句話里有一個警告:一旦你開始測量某件事情,并且強調它的重要性,就會有更多的人想方設法地去做這件事。他們會找到各種各樣的方法來達到你測量的目標。如果你選擇了錯誤的東西去測量,人們就會開始做錯誤的事情。你測量的是什么,你可能就會得到什么,但這就是你得到的全部。

過分重視考試對我們的學校造成的影響可以作為一個警示:任何衡量指標都可能扭曲我們的社會。很少有衡量指標設計得很好,或至少有相關性,有用的衡量指標更少,沒有一個衡量指標是完美的。如果我們讓一個衡量指標主導我們生活中一切事物的運行方式,從我們的學校到工作,再到社會,那么我們就會對衡量指標不能代表的一切事物視而不見。把一個衡量指標視為萬無一失、無可爭議或出圣入神的標準,永遠不會有好的結果。如果我們不了解衡量指標背后強大的激勵機制如何導致適得其反的行為,情況就會變得更糟糕。

任何衡量指標所帶來的危害都不在于衡量指標本身,而在于如何使用和獎勵。測量本身并不能改變我們的思想、行為或環境。然而,衡量指標的目的正是做這些事情:我們為事情設立衡量指標,是為了改變。如果一件事不會改變你看待、完成或影響它的方式,那么你為什么要去測量它呢?衡量指標的使用方式決定了它們帶來的利與弊。它們可以有各種不同的使用方式。在本書中,我們會出于各種原因批評很多衡量指標。歸根結底,我們批評的不是衡量指標,而是使用衡量指標的方式。應試教育就是一個過于強調衡量指標的案例。盲目相信任何衡量指標,并將強大的激勵機制與之捆綁在一起,只會導致失敗。任何衡量指標都不應阻止我們質疑我們要實現的目標以及測量它的方式。測量并不能代替理解,任何衡量指標都不能代替我們思考最終要實現什么目標。

衡量指標在很多方面都是不完美的,我們將在本書中探討其中的許多方面。當我們把所有的努力都放在衡量指標上,而不是放在我們真正想達到的目標上時,我們就會采取適得其反的措施,扭曲我們的努力,或者效率低下地做事。本書將探討衡量指標失效的許多原因。但是,我們可以從“投入和產出”開始,看看我們是如何混淆資源、努力、產出和結果的。

[1] Kate Taylor, “Principal Acknowledged Forging Answers on Tests for Students, Officials Say,”New York Times, July 28, 2015; Laila Kearney,“NYC Grade School Principal Who Committed Suicide Had Forged Tests,” Reuters, July 27, 2015.

[2] Abby Jackson, “How a cheating scandal at a well-regarded public school in New York turned tragic,”Business Insider, July 28, 2015.

[3] Susan Edelman, Amber Jamieson, and Jamie Schram, “Principal commits suicide amid Common Core test scandal,” New York Post,July 26, 2015.

[4] Alan Singer, “The Results Are In: Common Core Fails Tests and Kids,”Huffington Post, May 2, 2016.

[5] Peter Sacks, Standardized Minds: The High Price of America's Testing Culture (De Capo Press, 2000), 128.

[6] Alfie Kohn, The Case Against Standardized Testing: Raising the Scores, Ruining the Schools, (Portsmouth, NH: Heinemann, 2000), 2.

[7] Bowers, Bruce C. quoted in Sacks, 9.

[8] Kohn, The Case Against Standardized Testing, 7, 18.

[9] The College Board. The SAT: Practice Test #5. https://collegereadiness.collegeboard .org/sat/practice/full-length-practice-tests.

[10] Sacks, 205.

[11] Sacks, 207.

[12] Kohn, The Case Against Standardized Testing, 6.

[13] Kohn, The Case Against Standardized Testing, 4。

[14] Kohn, The Case Against Standardized Testing, 6。

[15] Kohn, The Case Against Standardized Testing, 93。

[16] Sacks, Standardized Minds, 7.

[17] Sacks, Standardized Minds, 211。

[18] Sacks, Standardized Minds, 273。

[19] Sacks, Standardized Minds, 8。

[20] Jennifer Jennings and Jonathan Marc Bearak. “‘Teaching to the Test' in the new NCLB Era: How Test Predictability Affects Our Understanding of Student Performance.”Educational Researcher. Vol. 43, No. 8.(November 2014): 381—89.

[21] Sacks, Standardized Minds, 129.

[22] Sacks, Standardized Minds, 134。

[23] Elizabeth A. Harris, “20% of State Students Opted Out of Tests in Sign of a Rising Revolt,” New York Times, August 13, 2015.

[24] John Perry, “Surge in CRCT results raises ‘big red flag,’”Atlanta Journal Constitution. December 2008, updated January 19, 2012.

[25] 1英里≈1.609 3千米。——編者注

[26] Rachel Aviv, “Wrong Answer: In an era of high-stakes testing, a struggling school made a shocking choice,”New Yorker, July 21, 2014.

[27] Rachel Aviv, “Wrong Answer: In an era of high-stakes testing, a struggling school made a shocking choice,”New Yorker, July 21, 2014.

[28] Christopher Waller and LaDawn B. Jones, Cheating but Not Cheated: A Memoir of the Atlanta Public Schools Cheating Scandal (LaDawn B.Jones, 2015), 181—97.

[29] Aviv, “Wrong Answer.”

[30] Waller and Jones, Cheating but Not Cheated, 216.

[31] Waller and Jones, Cheating but Not Cheated, 110。

[32] http://www.gadoe.org/Curriculum-Instruction-and-Assessment/Assessment/Pages/ CRCT.aspx.

[33] Aviv, “Wrong Answer.”

[34] Waller and Jones, Cheating but Not Cheated, 131.

[35] Waller and Jones, Cheating but Not Cheated, 138。

[36] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal,” New York Times, March 29, 2013.

[37] Aviv, “Wrong Answer.”

[38] Aviv, “Wrong Answer.”

[39] Aviv, “Wrong Answer.”

[40] Waller and Jones, Cheating but Not Cheated, 141.

[41] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”New York Times, March 29, 2013.

[42] Aviv, “Wrong Answer.”

[43] Waller and Jones, Cheating but Not Cheated, 201—3.

[44] Aviv, “Wrong Answer.”

[45] Waller and Jones, Cheating but Not Cheated, 16.

[46] Aviv, “Wrong Answer.”

[47] Waller and Jones, Cheating but Not Cheated, 144.

[48] Aviv, “Wrong Answer.”

[49] Aviv, “Wrong Answer.”

[50] Aviv, “Wrong Answer.”

[51] Waller and Jones, Cheating but Not Cheated, 111.

[52] Aviv, “Wrong Answer.”

[53] Waller and Jones, Cheating but Not Cheated, 116.

[54] Aviv, “Wrong Answer.”

[55] Waller and Jones, Cheating but Not Cheated, 128.

[56] Aviv, “Wrong Answer.”

[57] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”New York Times, March 29, 2013.

[58] Waller and Jones, Cheating but Not Cheated.

[59] Waller and Jones, Cheating but Not Cheated, 132.

[60] Aviv, “Wrong Answer.”

[61] Waller and Jones, Cheating but Not Cheated, 117.

[62] Perry, “Surge in CRCT results raises ‘big red flag.’”

[63] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.

[64] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.

[65] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.

[66] Aviv, “Wrong Answer.”

[67] 藍帶委員會是指由一些專業人士組成的、目的在于對某項社會事務進行調查研究的組織。這種組織一般不受政府和其他權力機關的影響,但自身也不具備強制力。——譯者注

[68] Waller and Jones, Cheating but Not Cheated, 83.

[69] Michael Winerip, “Ex-School Chief in Atlanta Is Indicted in Testing Scandal,”New York Times, March 29, 2013.

[70] Aviv, “Wrong Answer.”

[71] Winerip, “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”

[72] Waller and Jones, Cheating but Not Cheated, 72.

[73] Waller and Jones, Cheating but Not Cheated, 171.

[74] Valerie Stauss, “How and why convicted Atlanta teachers cheated on standardized tests,”Washington Post, April 1, 2015.

[75] Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”

[76] Aviv, “Wrong Answer.”

[77] Aviv, “Wrong Answer.”

[78] Aviv, “Wrong Answer.”

[79] Waller and Jones, Cheating but Not Cheated, 141.

[80] Waller and Jones, Cheating but Not Cheated, 145。

[81] Aviv, “Wrong Answer.”

[82] Waller and Jones, Cheating but Not Cheated.

[83] Aviv, “Wrong Answer.”

[84] Valerie Stauss, “How and why convicted Atlanta teachers cheated on standardized tests”Washington Post, April 1, 2015.

[85] Aviv, “Wrong Answer.”

[86] Aviv, “Wrong Answer.”

[87] A similar observation by Donald T. Campbell occurred around the same time as Goodhart's work, and is termed “Campbell's Law.” While there is debate around which researcher should claim credit for the phenomenon, this book will use the term Goodhart's Law.

[88] Zeger Van Hese “Metrics—perverse incentives?” Test Side Story.https://testsidestory.com/author/zegervanhese/page/7/.

[89] Robert Gibbons, “Incentives in Organizations,” Journal of Economic Perspectives, Vol. 12, No. 4 (Autumn, 1998): 115-32.

[90] David Parmenter, “Should We Abandon Performance Measures?”Cutter IT Journal. January 2013 http://cdn.davidparmenter.com/files/2014/02/Should-we-abandon-ourperformance-measures-Cutter-Journal-2013.pdf..pdf.

[91] Megan McArdle, “Metrics and Their Unintended Consequences,”Bloomberg Opinion, January 3, 2018 https://www.bloomberg.com/opinion/articles/2018-01-03/metrics-and-unintended-consequences-in health-care-and-education.

[92] Patrick Walker. “Self-Defeating Regulation.”International Zeitschrift,April 2013.

[93] John R. Hauser and Gerald M. Katz, “Metrics: You Are What You Measure!,”European Management Journal, Vol. 16 No. 5 (April 1998):517—28.

[94] Dan Ariely, “You Are What You Measure,”Harvard Business Review,June 2010. https://hbr.org/2010/06/column-you-are-what-you-measure.

主站蜘蛛池模板: 高要市| 海阳市| 汕尾市| 灵川县| 绍兴县| 江安县| 鄢陵县| 廉江市| 昭通市| 宜兰县| 衡水市| 义乌市| 邯郸市| 廊坊市| 盐城市| 牙克石市| 清镇市| 南华县| 齐齐哈尔市| 永丰县| 邵东县| 周口市| 溧水县| 宜兰县| 南召县| 尚志市| 河北省| 永靖县| 漳平市| 泾川县| 潢川县| 阿克苏市| 宜宾县| 刚察县| 平原县| 本溪| 吉首市| 东港市| 德昌县| 长海县| 宁乡县|