當代美國考試機構在想什么、做什么?[11]
今年7月至9月,我應邀前往美國,在全球最重要的三大教育考試機構——美國大學理事會(College Board)、美國教育考試服務中心(Educational Testing Service, ETS)和美國大學入學考試委員會(American College Test, ACT)——進行為期兩個月的研究工作,詳細了解當代美國考試機構的運行和發展情況。這是我關于考試招生制度改革整體研究計劃的一個組成部分。兩年前,我在美國訪學研修期間,原本要同時開展招生與考試兩大領域的研究,但限于時間精力,只能把重點放在頂尖大學招生錄取制度上。不過,在內心深處,我一直惦記著一位領導同志的叮囑:關注美國考試領域的發展情況。考試與招生,是一枚硬幣的兩面,二者相輔相成,缺一不可。如果不能深入了解美國的考試評價,就不可能對與之緊密聯系的招生錄取制度有深刻的理解。
中國是最早通過考試選拔人才的國家,科舉制的歷史綿延上千年之久,至今仍然在制度設計、社會心理等方面對當代考試招生體系產生種種或微妙或深遠的影響。然而,歷史留給我們的更多的是在防范作弊技術上的積累——從“糊名制”到“八股文”,這種技術已經達到了相當精致的境界。就科學評價人才而言,我們和世界上最頂尖的水平相比,還有相當大的差距,主要表現在:命題方式原始粗糙——仍然采用一千多年前的“入闈”方式,缺少專業化的命題人員;命題質量的科學性和穩定性不夠——缺乏長期的數據分析支持,無法實現等值;考試結果的有效性差——導致對選拔結果的信心不足,心里沒底。在這些方面,美國三大教育考試機構于20世紀60年代以后基于現代心理學和IT技術的飛速進步,已經發展出相當完備的科學體系。
訪學期間,我最關心的問題是:在最前沿的領域,美國當代考試機構正在想什么、做什么?
當代美國社會對本科教育和招生提出了新的需求
進入21世紀以來,美國社會和美國教育發生了相當大的變化;和20世紀60年代相比,有許多甚至是帶有根本性的變化。變化的直接推動力來源于對創新和技術的不懈追求。在政府和民間機構的支持下,市場競爭迫使企業不得不在技術上不斷推陳出新——如果不能在技術上持續保持領先,就會被市場迅速淘汰。由此產生了兩方面的結果:一是對創新型人才的需求日益旺盛;二是對大學畢業生的質量越來越不滿意,包括那些最頂尖大學的畢業生。
勞動力市場格局的變化對大學形成了相當大的壓力。不斷有人質疑:大學的學費越來越貴,上大學的成本越來越高,可就業難度越來越大,美國高等教育到底在干什么?對于頂尖私立大學而言——它們同樣處在市場競爭當中,如果不能對勞動力市場的需求變化做出及時反應并進行相應的調整,它們將很快被市場和社會淘汰。于是,大學問企業:你們需要我們怎么做?企業回答:你們需要提高學生的創造力和合作能力。因為在一個技術飛速變化的時代,專業性知識很快就會過時,企業需要員工能夠積極面對新的市場需求,不斷提出新的想法,并開發出新的技術。這對員工的創造力提出了更高的要求。同時,在技術進步越來越復雜的今天,開發新的技術需要不同背景的員工之間進行合作,沒有人能夠單打獨斗,包打天下。這對員工的合作能力提出了更高的要求。
面對企業的需求變化,大學開始對本科教育教學進行根本性的改造,主要著力點是進一步降低專業性的知識講授,更加強調建立在討論研究性學習基礎上的通識教育,為學生提供更富于變化、適應性和面向未來的教育。例如,斯坦福大學剛剛實行的“開環大學計劃”(Open Loop University),對學制、教學形式和教學內容進行了根本性的變革;杜克大學推出了“Bass連接”(Bass Connections)項目和“杜克沉浸學習”(Duke Immerse)項目,根據學生的興趣重新組合師資和教學資源,編制以學生為中心的專業設置和教學計劃,將不同專業背景的本科生、研究生和教授組合成一個團隊,共同應用知識、研究和技能來開展學習與研究,力求為學生提供更為多樣化的跨學科教育,等等。所有這些革命性的變化,其實目的只有一個,就是不斷激發學生的想象力和創造力,鼓勵他們充分利用學校的教育資源,研究他們感興趣的真實世界的問題,從而提高他們的創造力和合作能力,迎接未來的挑戰。
本科教學的革命,直接對人才選拔提出了新的要求:在大學招生過程中,必須盡最大努力去尋找更富于創造力和合作能力的學生。不是說以往的招生不重視創造力和合作能力,而是說,在新的時代,要把具備這些能力的學生更為精準地篩選出來。這就需要開發出新的更加科學的考試招生技術。
當代美國教育考試機構的最新發展
在美國一百多年的招生考試發展歷程中,一般認為,學生的學術能力、批判性思維、基礎知識等方面的考察,可以通過客觀的標準化考試來實現;但對于領導力、創造力和團隊合作能力等方面,無法通過客觀的量化標準考察,只能依賴于主觀的定性評價。頂尖大學招生之所以采用“整體性評價”模式,高度依賴面試,皆源于此。盡管這套招生錄取體制在實踐中運行良好,但實際上大學對此并不滿意。因為主觀性評價看起來總是不夠科學、不夠嚴謹、不夠精確。對“非智力因素”的考察是否不可能實現量化?有沒有可能讓主觀性評價也能夠像實驗室里的數據一樣科學和精準呢?這個富有挑戰性的問題吸引了學術界和考試機構一大批雄心勃勃的學者,他們企圖將主觀性評價進行量化。然而,這個過程進展得非常緩慢。
最近十多年來,借助于心理學基礎理論和在線技術的飛速發展,對學生創造力和合作能力進行科學評測的研究取得了一些突破性進展,這集中體現在美國三大教育考試機構對新一代測評技術的開發上。
一個是美國大學理事會開展的大學先修課程“頂點”計劃(AP Capstone)。這是一項創新文憑計劃,包含研討班(AP Seminar)和研究課程(AP Research)兩個項目。兩大課程涵蓋了文化與社會、藝術與哲學、政治與歷史、環境、科學、經濟、倫理及未來主義等多個跨學科領域,從問題與探索(Q)、論據理解與分析(U)、評價多個觀點(E)、想法的綜合(S)以及團隊、轉換和傳播(T)五大維度出發,通過為學生提供在探索其感興趣的相關課題時實踐其經過訓練的學術研究能力的機會,鼓勵他們從多個角度研究真實生活中的問題,從多種資源收集并分析信息以提出可信且有效的論點,培養他們提出、交流以論據為基礎的論點的能力以及為論點進行辯護的能力,從而向學生提供日益受到大學重視的創新性跨學科研究、團隊合作及溝通技能。這兩大課程的重要特點都是在教學中強調團隊學習和研究、學生的討論和參與以及對未知問題的探索性學習。問題的關鍵不在于教學方法的改變——這種改變美國教育界已經開展多年了,而是在于,這樣一類課程,原來的認識是不可能對其進行大規模考試的。但在新的技術條件下,大規模考試完全可以實現。這是一個帶有顛覆性的變化。
大學先修課程原本就是為了激發學生的創造力,挑戰他們的潛能,但在培養學生的合作能力上還停留在傳統階段。如果能夠在大學先修課程中增加對學生合作能力的培養和考察,進一步強化對學生創造力的培養和考察,將使其如虎添翼,更好地滿足頂尖大學的招生需求。
另一個是ACT的創新業務。基于同樣的需求,ACT成立了專業化的創新研究部,通過新一代測評理論和在線技術研究前瞻性問題。通過開展應用型研究,設計和開發創新的命題方法、題型、命題程序、評分技術、測評數據分析、信息反饋和考試平臺技術。目前,創新研究部開展的主要項目之一是針對學生創造力和合作能力的量化測評。該項目已經開展了五年多,其心理學基礎理論工作已經全部完成,正在設計操作層面的模型和技術,預計五年后可以投入市場使用。此外,ACT近期還發布了關于學生核心學術能力、跨學科知識運用能力、創造力、批判性思維、合作能力、信息技術能力、行為素質、生涯規劃和導航能力的綜合研究報告,將作為新的出題模式和題型設計的理論基礎,開發新一代學生綜合素質評價考試。
作為一個專注于招生考試領域的研究人員,當我了解到這些信息時,內心受到的沖擊和震撼無以言表。就好像一百多年前當我們還在乘坐馬車和小舢板的時候,突然看見了火車和輪船一樣。今天,當中國大學招生仍然在用一個個冷冰冰的分數來迫使學生不得不進行大規模重復性訓練的時候,美國頂尖大學和招生機構已經在系統性地開發新的技術來評價學生的創造力和合作能力;當中國社會還在糾結于不以單一的看得見的分數而代之以綜合素質評價來錄取學生是否會引發不公正的時候,美國頂尖大學和招生機構已經不再滿足于主觀的整體性評價,而追求更加科學和精準的綜合素質量化評測技術。是的,你可以說這是基于中美國情的不同;但當兩種不同測評技術選拔出來的學生表現出不同的創新能力,取得不同的創造性成果的時候,任何解釋都是蒼白無力的。兩軍對壘硬碰硬,勝就是勝,敗就是敗,沒有第三種結果。
中美人才選拔制度的區別:科學性
中美人才選拔制度最重要的區別在于科學性。科學性來源于精確和證據。長期以來,我們習慣了模糊性思維,跟著感覺走,差不多就行了。比如,中國菜譜里常說,加鹽少許。少許是多少?是1克還是10克?美國人完全理解不了少許的含義,你一定要告訴他(她)具體的數量,甚至精確到毫克;再比如,如果要消滅一個山頭上的敵人,我們采取的辦法是萬炮齊發,把山頭削平。但敵人到底有沒有被消滅了呢?并不確定。也許他們被消滅了,但也有可能他們躲在地堡里。美國人的辦法是精確制導,一顆導彈深入地下,打爆你的頭,確保你的肉體被消滅。類似的例證還有經濟學研究的發展。古典經濟學強調定性的邏輯分析,例如,早期的“基數效用論”和“序數效用論”。這些理論能不能解釋人們的行為呢?在一定程度上是可以的,但不夠精確。你可以說一個人從吃兩個饅頭中得到的滿足大于吃一個饅頭,但這個大于的程度到底是多少呢?說不清楚。西方經濟學家不滿足于這一點,于是將數學引入經濟學的分析,通過復雜的數學模型對經濟現象進行解釋,使得對社會問題的研究可以像實驗室里一樣精確。這就是“模糊”和“精確”的區別:不是說模糊的方式就一定選不出“正確的人”,但精確的方式一定可以選出“正確的人”。
科學性的另一個來源是證據。證據的好處是可以用證據去推翻證據。比如,關于阿爾茨海默病(俗稱“老年癡呆癥”)的研究。現代醫學已經證明,消化系統和神經系統是有聯系的。因此,如果菌群在消化系統產生作用,則可以有效防止阿爾茨海默病的發生。這個理論解釋了為什么中國的老年人得阿爾茨海默病的比例比較低。因為中國的老年人喜歡吃醬豆腐、腌菜等。這是我們上千年養成的習慣,但我們不知道為什么。我們更不清楚,吃醬豆腐和腌菜與防治阿爾茨海默病之間的關系。美國科學家則用證據揭示了這個關系。這就是感覺和證據的區別:感覺可以被推翻,但證據很難被推翻。
事實上,這就是美國科學家推動學術研究進步的方式,這種方式也影響到對人的選拔和評價。為什么美國頂尖大學現在越來越不依賴于面試?主要的原因就是面試不穩定。在沒有更科學的評價方法之前,大學招生不得不依賴于面試;但如果能夠開發出比面試更為穩定和科學的評價方式,面試的作用就會被弱化了。
在一個全球化的時代,國家與國家之間的競爭最終取決于創新性人才的數量和質量。如果美國頂尖大學通過科學和精準的測評技術更有效地選拔出“正確的人”,一個人可以頂一萬個人,美國就始終能夠保持在全球的領先地位。對于這種戰略性人才布局給中國帶來的挑戰和壓力,我們不能不引起高度重視并未雨綢繆。它再一次促使我們深思:中國頂尖大學應該通過什么方式來選拔“正確的人”?
2015年11月11日初稿于北京大學經濟學院
2015年11月13日定稿于無思居