- 中國中學英語教師評價素養研究(外國語言文學學術論叢)
- 林敦來
- 21139字
- 2019-12-13 18:57:38
2.3 評價素養的定義、內涵與相關研究
教師所需要的評價知識顯然不同于測試專業人員的知識,而且基于上文教師知識的討論,教師需要的評價方面的知識應該是一個動態的復雜的內容。因此,本節開篇擬分別討論“評價”以及“素養”這兩個詞語的內涵。在教育學領域,從20世紀50年代開始,對教師應該擁有哪些測量方面的知識和職前的準備情況,研究者們已經開始探討。1991年“評價素養”這個概念的提出,進一步推動了教師評價素養的研究。然而評價素養這個概念進入語言測試與評價領域卻是二十年以后的事情,因此教育學領域在評價素養方面的研究方法和研究成果對本研究都有重要的借鑒意義。
2.3.1“評價”及“素養”探源
根據Mousavi(2009:360),評價的英文單詞assess源自拉丁語assidere,意思為“坐在旁邊”。關注過程并積極參與的長者“坐在”學習者“旁邊”,將自己完全融入學生的生活和世界觀中,來了解他們的水平、背景、教育目標和預期的結果。Carroll(1968,轉引自Bachman,1990:20)給測試下的定義是:測試是一種為誘導出某種行為而設計的程序,通過這種程序人們可以推斷出一個人在某個方面的特征。這里要特別注意的是,通過測試只能收集到行為的某些樣本。
Clapham(2000)指出,“評價”這個詞通常有兩個含義。一個是作為上義詞,涵蓋測試與評價的所有方法。另一個是作為另類評價(alternative assessment)的代名詞,與測試進行區別。有些應用語言學家把測試等同于標準化測試,如雅思、托福、大學英語四六級等大型考試的命題與施測。這些測試有固定的時間、固定的場所,按照固定的程序進行。這些應用語言學家把檔案袋評價等比較不正式的另類評價歸入到評價的名稱之下。例如,Valette(1994)認為“測試”就是大規模的水平考試,而“評價”就是校內測試。Hill和Parry(1994)將他們主編的書命名為《從測試到評價》(From Testing to Assessment),提議從正式的考試和測試轉向連續性的評估。Fulcher和Davidson(2007:24)對大規模語言測試和課堂評價進行了剖析,認為“兩者之間最大的差別在于課堂環境。在課堂評價中,學習者是以正在學習的人來呈現的,教師以協助學生學習的地位處于學生的學習過程中”。Moss(2003:13)曾這樣寫道:“雖然時不時地,我會把‘評價’作為一種孤立的問題提出,但是要把在實際的學習環境中設計出來、然后將其付諸實踐的某些活動獨立出來,并將其稱作是‘評價’是人為的做法?!?/p>
在Clapham(2000)看來,雖然“評價者”和“測試者”有相同的目標,但他們之間的對話是遠遠不夠的,原因可能是兩者把“測試”和“評估”看做是截然不同之物。如Hill和Parry(1994)覺得“測試者”就是要提供經過仔細驗證的選擇題等,而“評價者”就是要為學生提供與生活接近的任務,至于任務表現如何卻不那么要緊。“評價者”似乎不太信任極端的“測試者”,因為前者認為后者過于注重數據分析,而對測試本身的內容關注不夠。這些“評價者”往往擔心這些“測試”不夠有交際性,可能會導致不良的反撥效應(Brown & Hudson,1998)。例如,Huerta-Macias(2002)指出另類評價由于其本身特性——直接性——就保證了其效度。其一致性通過程序的可審查性、運用多種任務、對評分員的標準進行培訓和通過多方驗證來實現。他認為,另類評價避免了傳統測試中建立常模、語言偏向和文化偏向等帶來的內在問題。
反過來,許多“測試者”擔憂的是,“評估者”的方法可能是新穎的,但是這些方法沒有經過試測,能否像“評估者們”所想象的那樣起作用就不得而知,同樣整個施測和評分過程的可靠性也值得商榷。換句話說,“測試者”對“評價者”的詬病就在于測試工具的信度和效度問題上。例如Brown和Hudson(1998)就認為Huerta-Macias(1995/2002)的觀點可能會導致不負責任的決策。把信度和效度直接考量于評估方法本身是不夠的,必須通過測驗來看這些方法是否是可靠和可信的。
實際上,教師編寫的試題一直是教育家們關注的問題。Gronlund(1985:267)討論了大規模測試與教師編寫的試題之間的顯著區別,指出只要試題設計良好,教師編寫的試題效度更高,更貼近學生們的學習目標。同時他也認為大規模考試的試題由于出自專家之手,經過試測與磨題,質量更高。相反,教師編寫的試題經常是粘貼、改編,一次性使用,試題質量相對較低,通常沒有考慮信度問題。許多教育者認為對于教師來講,編制出良好的試題是挑戰性很高的任務(Davidson & Lynch,2002)。選擇題雖然在大規模標準化測試中大量使用,并被認為對測試的信度有重要貢獻,但是專家們認為好的選擇題是極難編寫的(Hughes,2003:77;Alderson et al.,1995)。
Harlen(2007:27)指出,英文單詞literate的定義現在已經不僅僅局限于讀寫能力了。它的含義通常延伸為能夠有效地參與現代生活的方方面面。因此有了下面這些新詞,如“技術素養”“數學素養”“信息素養”“科學素養”,甚至還有“政治素養”和“社會素養”。在這些方面擁有素養,指的是每個普通人都必須擁有的知識和技能,而不是指這個領域的專家應該擁有的知識。因此,它的重點不在于掌握整個知識系統,而在于擁有并且能夠運用對某個領域的重點內容的理解來做出明智的決策,并參與其中?!八仞B”不再指讀寫“技術”“政治”“科學”等內容的能力,而是指能夠運用相關的知識和技能來參與關于技術、政治、科學等日常生活中的問題的討論,并做出相應的決策。
2.3.2 普通教育學領域評價素養
長期以來,測量方面的學者發現在實踐中,雖然教師花大量的時間進行測試或評價相關的事情,但是他們的評價素養卻很低。研究者們從評價素養的定義、評價培訓情況和方式等方面進行了研究。本部分將從評價素養的定義出發,轉向評價素養構念的探索,進而轉向關于評價素養的實證研究。
2.3.2.1 評價素養的定義
在界定什么是評價素養方面,Rick Stiggins做了重要的貢獻,成為評價素養概念的鼻祖。所以這里從他的定義出發開始討論。
1)Rick Stiggins的定義
最早提出評價素養(Assessment Literacy)概念的是Rick Stiggins。在1991年的文章中,他首先用否定式提出了該概念(Stiggins,1991a)。他指出,缺乏評估素養的人不了解怎樣產生高質量的學生學習成果數據,從而不能夠批判性地評價他們使用的數據。一句話,缺乏評價素養的人缺乏有效的工具來批判性地看待評價得出的數據。之后他構建了擁有評價素養的教師的特點:擁有評價素養的人基本上了解高質量的評價和低質量的評價的含義,能夠運用這些知識來測量學生的成果。他們詢問兩個關鍵問題:這些評價揭示了我們所重視的學生成果的哪些方面?這些評估對學生有可能產生怎樣的影響?他們追求并使用能夠傳達清晰的、準確的和豐富的評價方法來評價所關注的學生成果。他們知道什么才是高質量的評價,他們了解能夠準確反映成果目標的評估方法的重要性。他們了解完整地對學生表現進行取樣的重要性。他們了解外部的哪些因素可能會干擾測試結果,而且他們了解什么方式的成績報告易于理解并被加以應用。當測試目標不清晰時,或者評價方法沒有測到目標時,學生表現樣本不足時,外界因素混入測試數據時,以及當測試結果對他們毫無異議時,他們內置的警鐘就會敲響。
四年后,Stiggins(1995)再次勾畫了擁有評價素養的教師的形象:擁有評價素養的人們能夠區分什么是好的評價和不好的評價。他們不懼怕評價這個技術性很強的、令人捉摸不透的世界。他們知道怎樣達到特定的質量標準。這些標準認為好的評價如下:(1)源自并服務于清晰的目的;(2)源自并反映清晰的恰當的成果目標;(3)依靠合適的評價方法;(4)對學生的成果合理取樣;(5)控制所有偏頗與歪曲的相關源。換句話說,擁有評價素養的教育者在測試中知道該測什么、為什么這樣測、怎樣才能最好地測試關注的成果、怎樣誘導出良好的表現樣本、問題可能出在哪里以及怎樣在測試前避免這些問題。
2)Paterno的定義
Paterno(2001,轉引自Mertler,2004)將評價素養定義為:擁有關于良好的評價行為的基本原則的知識,包括對術語的理解、評價方法和技術的開發和運用以及對評價質量標準的理解……還有對傳統的測量方法之外的另類評價的熟悉程度。
3)Boise州立大學學校進步和政策研究中心的定義
Boise州立大學的學校進步和政策研究中心也對評價素養進行了界定。他們認為擁有評價素養的研究者能夠辨識出良好的評價、評估和結果傳達行為;明白應該采用哪些評價方法去收集關于學生學習成果的可靠的信息;能夠運用成績匯報單、測試分數、檔案袋或小組會議有效地傳達評價結果;能夠讓學生積極地參與到評價、成績記錄和傳達結果中來,運用評價來激發學生的學習動機,促進學習。
4)James Popham的定義
作為一名著名的教師教育者,加州大學洛杉磯分校的Popham教授在從事多年教師培訓后,將忽視教師評價素養訓練的教師培訓稱為一種“罪惡”的行為(2011)。他認為今天的教師要想把工作做好,無論如何也需要擁有評價素養。他把評價素養界定為:
評價素養包括教師對被認為可能對教育決策產生影響的評價基本概念和程序的理解。[原文強調]
對畫線部分,Popham做了詳細的闡述。首先,理解的意思是擁有評估素養的教師不需要實際計算難懂的測試信度系數等。而是要能夠理解測試信度的涵義,以及不同的信度系數怎樣以不同的方式表征測試的一致性。基本的理解就是評價素養的基本要素,并不是要掌握那些深奧的測量程序。評價基本概念和程序指的是那些最核心的評價內容。比如它應該要包括“效度”和“測試偏頗”等評價中最為基本的概念。可能對教育決策產生影響界定了教師需要了解的評價內容的范圍,就是在日常教學中幫助做決定的評價方面的內容。
2.3.2.2 評價素養的構念探索
Ebel(1962)提出了十個在教育測量方面對教師來說非常有用的原則。他認為:(1)教育成就測量對有效教育極其重要。(2)教育測試僅僅是輔助或延伸或修改教師對學生的進步進行觀察。(3)每種重要的教育成果都是可以測量的。(4)最重要的教育成果是對重要知識的掌握。(5)書面測試適合測量學生對重要的知識的掌握。(6)教師要編制用于測量教育成果的絕大多數測試。(7)為了有效地測量學習成果,教師要成為被測試內容方面的專家,也必須掌握測試中的實踐藝術。(8)課堂測試的質量依賴于測試任務的相關性,教學內容的取樣代表性和產出成績的信度。(9)成績分布愈廣,差別越大,成績的信度就越高。(10)測試的信度可以通過增加題目數量(或增加采分點)或者增加區分度來提高。
Stiggins(1993)在多年研究的基礎上,提出了教師在課堂評價方面應該擁有的六項能力:(1)課堂評價所有的可能的用途;(2)教師們期望學生能夠達到的成果目標以及這些目標怎樣被轉化成評價;(3)良好評價的質量問題;(4)所有可能被運用的評價手段;(5)課堂評價中的人際方面的內容;(6)評價結果該如何形成以及如何反饋。
1990年美國教師聯合會(American Federation of Teachers)、國家教育測量理事會(National Council on Measurement in Education)和全國教育協會(National Education Association)聯合頒布的《學生教育評價中的教師能力標準》(Standards for Teacher Competence in Educational Assessment of Students)(AFT,NCME,& NEA,1990)。該標準中列出了教師評價素養的7條標準。它們分別是:(1)教師應該能夠熟練地選擇恰當的評估方法用于教學決策。(2)教師應該能夠熟練地編寫恰當的評估方法用于教學決策。(3)教師應該能夠熟練地就外來測試和自己編寫的試題進行施考、評判和分數解釋。(4)教師應該能夠熟練地運用評估結果來對每個學生做判斷、規劃教學、發展課程和促進學校進步。(5)教師應該能夠熟練地編寫有效的評分標準用于學生評估。(6)教師應該能夠熟練地為學生、家長、其他外行人士及老師傳達評估結果。(7)教師應該能夠熟練地辨別不合道德、不合法和不合適的評估方法以及對評估信息的濫用。
美國北加利福尼亞大學的SERVE網絡上公布的教師評價素養包括:能夠界定清楚的學習目標,成為編制或選擇評價學生學習的基礎;能夠利用多種評價方法來收集學生學習的證據;能夠分析學生學習成果數據(包括定性和定量的數據),并根據數據作出恰當的推斷;能夠為學生提供恰當的反饋;能夠對教學進行恰當的調整以幫助學生進步;能夠讓學生參與評價過程(如自我評價和同伴評價)并有效地傳達結果;能夠創建有效的課堂評價環境,提高學生的學習動機(SERVE Center,University of North Carolina,2004)。
Sadler(1998)認為擁有評價素養的教師應該有如下特點:很好地掌握了教學內容,并有愿望幫助學生發展進步,做得更好;有選擇和編寫評價任務的技能;了解跟評價任務相對應的標準;在分析和使用評價信息時體現出評估技能和專業水平;善于給出恰當和準確的反饋。
McMillan(2000)提出了他認為能夠帶來有效的教育實踐并提高學生學習的最重要和根本的評價知識和技能的11條原則。分別是:評價本質上是一種專業判斷;評價基于獨立又相關的測量證據和評估之上;評價中的決策受到多種關系的影響(如測試的不同目的);評價會影響學生的學習動機和學習成果;評價會有誤差;良好的評價促進教學;良好的評價效度要高,因此要充分理解效度問題;良好的評價是公平和合乎倫理的;良好的評價運用多種方法收集數據;良好的評價是高效而可行的;良好的評價恰當地運用了科技手段。
2003年,美國教育評估標準聯合委員會(The Joint Committee on Standards for Educational Evaluation,JCSEE)出版了《學生評估標準》(The Student Evaluation Standards)一書。該書對教師在課堂評價中的知識和技能做了詳細的說明。2015年,美國教育評估標準聯合委員會對課堂評價標準進行了修訂。根據修訂稿第五稿,研究者發現新的課堂評價標準共分為三條主線,即六個基石標準、五個使用標準和六個質量標準。六個基石指的是課堂評價必須有清晰的目的并支持教學和學習;課堂評價行為要跟每個學生要學習的內容相匹配;課堂評價的類別和方法要允許學生展示他們的學習;學生必須要有意義地參與評價過程,運用評價結果來增進學習;在資源、時間和學習機會方面要給教師和學生充分的準備;課堂評價的目的和運用要傳達給學生,必要時傳達給家長。五個使用標準指的是:分析學生學習成果的方法要符合評價的目的和行為;課堂評價要給學生提供及時和有用的反饋來改進學生學習;對學生表現的分析要幫助教學規劃來支持不斷的學習;終結性課堂評價的分數和評語要反映學生的學習目標;學生評價匯報要基于充足的學習證據,能夠為學生學習提供清晰、及時、準確和有用的總結。六個質量標準指的是:課堂評價行為要對學生所處環境的文化和語言做出反應和尊重;課堂評價行為要有差別地滿足所有學生特定的教育需求;課堂評價行為和接下來的決定不能受到跟評價目的無關的因素的影響;課堂評價行為應該提供準確和恰當的信息來支持關于學生知識和技能的良好決定;課堂評價行為應該提供一致和可靠的信息來支持關于學生知識和技能的良好決定;課堂評價行為應該受到監控和修改以改進整體質量。最新版本請讀者參閱Klinger及同事(2015)。
Stiggins(2010)認為,對于教師來說,課堂評價的能力核心是圍繞著如何構建高質量的評價來獲取準確反映學生學習成績的信息和使用課堂評價程序和結果來不僅監控學習,而且要促進學習的能力。Stiggins及同事(2006)構建了高質量課堂評價的框架,包含五個要素。研究者在此將這五個要素用圖2.7來表示。

圖2.7 Stiggins高質量課堂評價框架(改編自Stiggins et al.,2006)
在圖2.7中,Stiggins及同事將教師的課堂評價行為分成兩大塊。一塊是準確的評價,另外一塊是高效地運用。在準確的評價中,又包含了三個要素,即清晰的目的、清晰的目標和良好的設計。高效地運用包含了有效的傳達和學生參與。做好這每一步,都要求教師在具體方面具備相應的能力。Stiggins(2010:244)針對高質量課堂評價的五個要素,列出了24個教師在高質量課堂評價中應該做到的行為指標觀察點,如表2.1所示。
表2.1 Stiggins(2010)高質量課堂評價中的教師行為指標

Brookhart(2011)針對當前形成性評價的興起和基于標準的評價改革和問責制,認為學生教育評價中的教師能力標準(AFT,NCME,& NEA,1990)應該得到升級。她結合當前的研究結果,列出了11項當前教師們需要擁有的評價素養。如表2.2所示。
表2.2 Brookhart(2011)教師教育評價知識和技能框架

Sadler(1989)的反饋模式也涉及教師應該有的知識。首先,教師要充分了解教學中的知識基礎。其次,教師要帶著自己的一系列態度和情感進入教學,比如對反饋的效度的關注。第三,教師要具備設計和編制測試、設計任務的技能,并用這些方式來從學生那里獲取相應的信息。第四,教師對評估任務的標準有很深的了解。第五,教師擁有根據學生在以往任務中的表現來推斷學生努力程度的能力。最后,教師具備為學生撰寫反饋評語的能力。同時,由于教師和學習者對評估的了解和關注角度不同,教師傳達評估重點的能力也非常重要。鑒于此,Sadler進一步提出,教師在職前和在職階段應該有專業的培訓來掌握形成性評價的具體要求。
2.3.2.3 國外評價素養的實證研究
關于評價素養的實證研究可以追溯到20世紀50年代。研究者通過對文獻的查閱發現,國外研究者們對評價素養的研究大體上分為以下幾個方面:1)對全國范圍內教師教育項目是否提供評價與測量課程的調查,以及教師對評價與測量課程感知的調查。2)研究者們對教師評價素養的能力的測試。3)研究者們對目前教師缺乏評價素養,以及對測量與評價課程沒有得到足夠重視的一些思考。4)評價與測量課程與教師實際工作中的評價行為的銜接問題,以及如何考量評價與測量課程的質量的問題。
1)評價與測量課程開設調查與教師的感知
Noll(1955)在他的研究樣本中發現,只有21%的教師教育項目要求教師修習測量學。因此他的結論是職前教師在測試和測量學方面的準備“絕對不足以讓他們能夠有效地在應對測試,而測試又是決定教師成敗的最重要方面之一。這種情況應當引起所有教師培訓相關人士的注意”。
但是,現實并沒有響應Noll(1955)的呼吁。Schafer和Lissitz(1987)運用文獻法和調查法探討了學校從業人員在測量學方面接受的培訓現實。他們的研究問題為:關于教育評價,教師們應該知道什么?教師已經知道什么?教師培訓提供了什么?怎樣才能提高培訓的質量?他們向美國707個學院發放了問卷,438個學院做了回復,調查的學科涉及教育管理、學校咨詢、社會學、數學、英語、科學、基礎教育和特殊教育。他們發現,在這438個學院中,不到一半的學院要求學生在測量學方面上完一門課程。
教師們如何看待測量培訓的缺乏和實際工作對測量知識的需求之間的矛盾呢?僅有的少數研究結論是教師認為他們已經有了足夠的測量技能。Gullickson(1984)調查了391名教師關于測量相關的問題的態度。他的結論是:教師認為他們的測試和測量知識是足夠的。大多數教師都認為他們是通過課堂經驗來獲取對測試和測量的了解的。Gullickson(1984)認為這樣的結果表明“教師們可能過高地估計了他們對測試的了解”。相反,教師大量使用測試、預設的測試效力、對測試的評價功能的局限性的認識、教師可能對測試知識缺乏細致了解、教師“自詡”的其對測試知識的了解,這些因素都促使我們要充分考慮對教師進行能夠滿足他們實際需求的教育測量方面的正式培訓。
在另外一項研究中,Gullickson(1986)比較了大學測量和評價學教授和初高中教師對職前教育評價課程的看法。通過郵件問卷,Gullickson采集到了美國中西部7個州24名教授和360名教師的數據。教授們被要求告知他們認為在職前教育評價課程中,哪些內容是他們所強調的。而一線教師被問及的是他們認為教育評價課程中的哪些內容是重要的。問卷各包含67個話題,可以被歸結為八類。這些類別包括:為學生備考(13題)、為測試施測和評分(7題)、測試選擇和使用中涉及的基本評價信息(11題)、運用另類的評估手段(8題)、統計和解釋數據(7題)、運用測試結果來規劃教學(7題)、運用測試結果為終結性的評估服務(8題)和測試與法律(6題)。運用多變量變異數分析教師和教授對8個類別內容的判斷,發現兩組人存在顯著差異,而隨后的單變量變異數分析顯示8個類別中有5個存在顯著差異。教師和教授持較為統一意見的是為學生備考、為測試施測和評分以及測試選擇和使用中涉及的基本評價信息。尤其是在為學生備考方面兩者都給了極大的重視。兩組人對數據的重視程度存在顯著差異。一線教師認為學習數據處理是不重要的,而他們重視運用另類的評估手段、運用測試結果為終結性的評估服務這兩個方面,并期待在這些方面獲得更多的指導。在討論中,Gullickson特別指出關于數據處理的學習問題。他認為教師認為數據處理不重要的原因有二:其一,其他研究者對教師在測量學方面的能力進行評估,發現一線教師對數據的概念理解很差。這也就證明雖然職前評價測量課程中對數據分析給予了相對重要的重視,但是這并沒有讓職前教師準備好將來能夠自如地運用數據分析來處理他們的評估需求。而對數據的難以把握促使他們不重視數據分析。其二,教師可能覺得數據分析耗時耗力,而效果卻不那么顯著,避免了數據分析也絲毫不會產生明顯的后果。作者認為就這點來說,主要也是缺乏研究證明數據分析對教學帶來的正面效應。關于研究中發現的一線教師和教授們對另類的評估手段的重視程度不同,Gullickson也列舉了背后的原因:其一,教授們不了解教師在何種程度上運用的另類評估手段;其二,教授們可能會認為這些評價手段是教學法課程而不是測量課程所應該重視的;其三,教授們可能會認為這些評價手段沒有測試手段的信度和效度高,因此不受重視。
Stiggins和Conklin(1988,1989)調查了西北太平洋地區教師教育中評價培訓的現狀。他們調查了教師獲得資格證書的規定,看是否有要求教師接受評價方面的培訓。同時,他們分析六個州的教師培訓項目中的評估課程情況。在這些州里,有14所教師教育學院,共計27個本科和研究生教師教育項目,培養該地區75%的學生。他們關注的問題包括這些項目是否開設評價課程,是否為必修,課程包含哪些內容。結果顯示,6個州中只有俄勒岡州明確要求教師獲取資格證書要有評價方面的培訓。許多教師候選人被要求達到美國教師資格考試的一定分數才有入選資格。但是兩名研究者對美國資格考試的試題進行分析后發現339個題目中只有11個跟評價問題相關,而其中只有4個問題是跟課堂評價緊密相關的。在這27個教師教育項目中,只有13個項目提供了評價課程,只有6個項目中的評價課程是必修的。他們得出的結論是,該地區大多數教師職前未有任何形式的評價培訓。而已有的評價培訓內容分析結果顯示,這些培訓未能滿足教師日常教學中使用的評價培訓需求。
Wise和Lukin(1993)在美國中西部的內布拉斯加州調查了15個提供教師教育的大學和學院。他們通過電話訪談和課程調查等方式獲取了關于測量課程的信息,包括課程名稱、課程時長、學分數、教學時間比例和教授的內容。結果發現,這15個項目都在一定程度上討論了與測量相關的話題。教學內容普遍包括數據、信度、效度、測試構建(包括題項類別和題項分析)、標準化測試的運用、標準化測試分數的解釋、標準化測試常模和怎樣在標準化測試中運用標準分。但是,這個地區73%的教師教育項目要求職前教師接受少于一門完整的測量課程。其中包括這個州中最大的兩個教師教育項目,他們培養的學生占這個州培養的教師的49%。Wise和Lukin(1993)在同一個研究中還調查了教師對測量課程的看法和態度,問卷共13道題,包括詢問教師的基本信息,在職前、在職和研究生階段接受的測試和測量的培訓,課程或培訓對他們測量知識的作用,以及他們在測量方面對自己能力的自我評價。329名教師做了回復,其中小學教師占41%,初中教師占34%,高中教師占25%,與該地區的教師分布情況相當?;卮鹫咂骄?5.35年的教學經驗。他們當中,15%沒有上過測量學課程,51%在其他課程中涉及測量學內容,25%上過完整的測量學課程,9%上過不只一門測量學相關課程。47%的教師認為他們的測量學培訓是不夠的。但是奇怪的是,上過至少一門測量學課程的教師中有18%的人認為他們在測量學方面的培訓是不夠的,但是基本上沒有上過測量學課程的教師卻有64%的人認為他們在測量學方面的培訓是足夠的。而在他們研究生階段是否接受測量學課程培訓的情況中,本科階段上過一門測量學課程的學生在接受研究生測量學課程和在職培訓時更加積極。因此可以說在本科階段沒有上過測量學課程的教師在研究生階段和在職培訓中接受測量培訓的機會更少。在如何獲取測量學知識方面,大部分教師采用的是自我嘗試(trial and error)的方式。在被問及對“為了使教師被看作是專業人士,擁有例如測試和測量方面的技能是很重要的”的認同度時,約75%的教師表示認同上述論斷。大多數教師認為他們的測量知識和技能好或者很好。作者指出,這里可能有多個原因:首先,教師可能不希望承認他們的不足。其次,傳統上對測量學的不夠重視,而教師相信他們的測試是可靠有效的,又沒有人對它們的質量進行反饋。再次,測量學的培訓可能會引起教師的焦慮,數據公式是其中之一,而教師作為學生時代的不良測試經歷也會加劇這種情況。最后,目前的測量課程與教師的實際需求有距離。
Stiggins(1998)對美國全國教師教育項目進行了調查,旨在了解各個教師教育項目是否要求職前教師接受評價與測量課程,結果發現,美國50個州中,有15個州在教師資格認證標準中要求教師在評價方面具備能力,10個州明確地要求在職前培訓中提供評價方面的課程,25個州沒在評價方面沒有任何要求。Stiggins指出這個變化是可喜的,因為1983年12個州對教師評價能力有要求,1988年10個州有要求,1991年15個州有要求(Wolmut,1988;O’Sullivan & Chalnick,1991,均轉引自Stiggins,1998)。
2)對教師評價素養的測試研究
Plake及同事(1993)、Plake和Impara(1997)調查了美國教師的評價素養。他們運用了美國教師聯合會(American Federation of Teachers)、國家教育測量理事會(National Council on Measurement in Education)和全國教育協會(National Education Association)研制的教師課堂評價能力標準中的7條標準為基礎,編制了35個題目來測試教師。555名教師參與了此項測試,結果發現平均每位老師的答對率是23.2道題。在七條標準中,教師們在施測方面的能力最強,在傳達評價結果方面的能力最弱。但是在傳達評價結果方面,教師們的表現呈現出很大差異,也就是說整體上教師在此條標準上表現欠佳,但是部分教師在此條標準上表現良好。在測試之后,教師同時回答了他們在評價培訓方面的經歷,以及對評價的看法,特別是他們對教師自編試題和標準化測驗對教學決策方面的有用性表達了看法,以及他們感覺是否有能力解釋標準化考試的結果。他們還被問到是否對評價知識和技能感興趣,以及評價課程該如何開展的問題。之后作者們對教師在七條標準上的得分與他們的培訓經歷和感知進行比較。研究發現,教師對教師自編試題和標準化測驗對教學決策方面的有用性方面的感知與得分沒有顯著關系。但是在是否有能力解讀標準化測驗分數這點的感知與得分有顯著差異,能夠解釋分數的教師在傳達評價結果和認識不合倫理的評價兩條標準上得分顯著較高。參加過評價與測量課程的教師的總分明顯高于沒有參加過評價與測量課程的教師。認為應該在大學接受評價與測量課程的教師比覺得任何形式的評價與測量課程都無所謂的教師在為學生評分這條標準上顯著較高。在不同的教學經驗方面,教師們在編制評價方法這條標準上存在顯著差異。19~24年教齡的教師得分最高,5年及以下的教齡的教師第二高,25年及以上教齡的教師得分最低。認為自己在教育測量方面水平高的教師跟不那么認為的教師在得分上沒有顯著差異。
Zhang和Burry-Stock(1997)運用評價實踐調查表對測量培訓和教師教學經歷對教師評價能力自評的影響做了研究。他們對評價實踐調查表的心理測量品質進行了研究,因子分析提取了7個因子。根據因子結構,研究者們進一步對教師從測量培訓經歷和教齡上分別進行了比較,發現了顯著差異。參加過評價培訓并擁有四年以上教學經歷的教師相信他們在解釋標準化測驗成績、計算測試數據和運用評價結果來做決定方面比擁有四年以上經歷但是沒有參加培訓的教師在這些方面上強。同樣擁有四年以上教學經歷的教師覺得能夠更加熟練地使用表現性評價和非正式的觀察。因此,Zhang和Burry-Stock認為不管是大學課程形式的評價培訓還是在職培訓,都是非常有益的。
Mertler(2003)也運用評價素養試題對在職和職前的教師進行了測試,試圖發現教齡對評價素養有何關系。在職的教師在施測、評分和解釋分數上得分最高,而在研發效度高的評分程序上得分最低;職前教師在選擇合適的評價方法上得分最高,在傳達評價結果上得分最低。在五個方面,在職教師都顯著地高于職前教師。
Volante和Fazio(2007)對職前教師教育項目中的中學教師進行了四年跟蹤,每年調查這些職前教師評價素養的自我評價情況,發現這些教師的評價素養自我評價一直很低,大多數仍然堅持終結性評價思路。
3)評價素養缺失原因分析
Schafer(1991)認為,雖然不太確定,但是教師評價素養培訓缺乏的原因可能有:(1)沒有有效的手段來說明評價概念和方法對有效教學的重要性。(2)測量專業機構沒有明確表達哪些內容應該被包含在評價培訓中。
Stiggins(1993)分析了評價課程受忽視的五個原因。其一是,高等教育注重過程而非結果的傾向,使得學校急于關注學生的學分,而非效果。其二是,評價課程通常被認為比其他的教育課程具有更高的“學術挑戰”,令人望而卻步。其三是,學校管理人員認為系統性的評價結果“有風險”。如果目標結果很清晰,很有可能會招致人們對目標或者評價手段的不贊同。所有教育學家們就會盡量躲避系統性的評估課程,以免帶來公眾對自己工作的檢閱和可能面臨的變化。其四是,部分教育學家們認為,課堂中的評價能夠因為課堂外部的評價而得到質量保證,畢竟市面上有那么多的配套材料,還有大規模高質量的考試來保證評價的質量。第五點,也是Stiggins在本文中認為最重要的一點是,一直以來評價培訓脫離課堂實際。評價培訓中的概念、策略以及評價中的質量監控等問題都與真實的課堂情況相差甚遠。
4)評價課程與教師實際評價行為的銜接問題
Stiggins(1991)認為,對教師進行的評價培訓跟教師實際進行的課堂評價行為相去甚遠。通過多年的課堂任務分析,Stiggins和Conklin(1992)勾畫出了“課堂評價環境”,發現了教師在評價方面應該擁有的六種能力:做決策、評價作為人際活動、提供清晰的目標、評價方法:成績考試、評價方法:其他特征、其他話題,基于此,他們提出了新的評價課程內容框架。Stiggins(1991)設計了一個三小時的課程框架,如讓教師明白高質量評價的含義,按照課程目標設計評價的重要性,如何設計和運用紙筆測驗等。Schafer(1991)設計了八項評價課程的內容,分別是:評價的基本概念和術語;評價的運用;評價規劃和研發;評價結果的解讀;評價結果的描述;評價的評估和改進;反饋與評分;評價的倫理問題。
2.3.2.4 國外評價素養的培訓探索
林敦來、高淼(2011)對評價素養相關的訓練機構和項目進行了綜述。研究者在此簡要地歸納如下:Stiggins于1992年創立了美國評價培訓學院,2006年—2010年隸屬于美國教育考試服務中心(ETS),2011年起隸屬培生教育集團。該學院旨在讓教育者在課堂中開發和使用高質量的評價,將標準轉換成課堂學習目標,將評價融入教學中以使學習效果最大化,高效地傳達學生成績,通過讓學生在評價過程中承擔責任來激發他們的興趣。培訓工具包括書籍、DVD、程序包和工作坊。
美國加州圣巴巴拉分校教育學院的Rebecca Zwick教授主持了名為“面向學校職員的教育測量與數據教學工具”,簡稱ITEMS項目,包含對測試分數和分數分布、個人分數與平均分數的誤差、測試分數差異和趨勢的解釋。美國堪薩斯州的評估素養項目由W.James Popham主講,內容包括年度進步目標、測試信度、效度和分數解釋等。
Mertler(2009)檢驗了兩周的課堂評價工作坊對在職教師評價素養發展的影響?;谠u價素養問卷的前測與后測顯示了培訓的高效性。Koh(2011)比較了兩組接受不同形式的評價素養培訓教師的培訓效果。其中一組參加了持續的專業發展來設計真實性的課堂評價和評分標準,另外一組只是參加了短暫的一次性的真實性評價訓練。結果發現第一組教師評價素養在一年后遠遠超過第二組教師,他們對真實性評價有很好的理解。證實了在評價素養方面進行長期的專業發展的必要性。
在中國臺灣,Wang及同事(2004)運用現代網絡技術設計了“運用網絡評價和試后分析系統(WATA)”來練習、反思和改進,從而提高評價素養的模式。該模式采用的3A模型,即組題、施考和評價。Wang及同事(2008)將該模式應用于生物學科職前教師評價素養的培養中,發現該模式對職前教師的評價基礎知識和對評價的看法都有良好的效果。Fan及同事(2011)將該模式運用于57名在職的數學和科學教師,發現該模式同樣提高了教師評價基礎知識和對評價的看法。
2.3.2.5 國內對評價素養的關注
2008年11月,《基礎教育課程》在評價考試欄目中專門探討了教師評價素養問題。崔允漷(2008)認為當前的現實中,我們過多地關注了教師要學會“如何上課”的問題,而忽視了教師應該學會“如何評價”的問題。他呼吁道“教師應像關注上課一樣關注評價,教師應先學會評價再學習上課!讓評價引領自己的教學!”。由此可見評價素養在教師專業素養中的重要地位。崔允漷及其團隊是國內較早關注教師評價素養的研究者。
王少非(2008)對我國中小學教師評價素養現狀進行了描述并對現狀進行了歸因分析。在現狀中,他指出目前教師評價理念存在嚴重偏差,為考而評、以評代教和為管而評的現象突出。教師的評價知識嚴重缺失,對教育評價領域基本概念,如信度和效度都不甚了解,對課程標準也了解甚少。教師評價技能水平相當低下。且不說新型的評價,就是傳統的試卷編制,教師們也不在行。而在結果反饋方面,教師們也缺少正確解釋考試結果的能力。在很多情況下,教師簡單地將考試結果視為學生個體學習狀況甚至智力水平的反映。
鄭東輝(2009)的博士論文探討了中國基礎教育課程改革背景下的三個基本問題,即教師為什么需要評價素養、需要怎樣的評價素養以及如何發展教師評價素養。他利用改編的教師評價素養問卷(Plake et al.,1993;Plake et al.,1997)在浙江省調查發現教師的評價素養得分低,教師的評價經歷對評價素養得分影響不顯著,教師的評價態度與評價素養得分呈正相關?;谶@點認識,他構建了一種融評價態度、知識和技能為一體的素養結構。他認為,評價素養的培養要靠政府、學校和教師共同協作。
楊國海(2011)從理解評價、使用評價、管理評價和評價評價四個維度的12個表現視角厘清和建構教師評價素養的內涵和框架。理解評價層面包括評價信念、評價意識、評價知識;使用評價包括方法選擇、發展評價、實施測評;管理評價包括成績評定、結果運用和結果交流;評價評價包括評價道德、評價反思和評價改善。
孔凡哲(2011)對評價素養做了一個界定,他認為教師的評價素養具體表現為:試題命制(既指學科考試命題,又包括課堂練習題、課后復習題的編擬等)、試卷編制(包括中小學各種測試卷的方案擬訂、試題選編、題量控制、試卷形式、試卷的試測與調試等)、教育教學評價的基本途徑和方法(包括即時性評價、表現性評價、檔案袋評價、日常測試、口試和表現性任務、期末試卷的編制、會考升學考試的試卷命制等)??追舱埽?011)認為,要將教師的評價素養納入中小學教師專業標準的內容范圍,并將其作為教師業績考核的必要內容。
2.3.3 語言教育領域評價素養
早在1985年,Jones(1985,轉引自Bailey & Brown,1996:237)就指出“在語言教學中有一個分支,它致力于語言水平測量的科學,其發展已經精密到語言測試專家和語言教學其他領域的人員之間出現了理解鴻溝”。而Bailey和Brown(1996:237)則認為這種鴻溝可以通過語言教師更多了解語言測試來縮小。
Brown和Hudson(1998)指出,語言測試實踐和其他學科的評價實踐有著根本上的差異。這不僅是因為所測試的內容本身——語言——是非常復雜的,而且在于語言教師能夠用和正在用的測試類型不同。從20世紀50到60年代所推崇的分立式考試,如選擇題和判斷正誤,到70年代和80年代早期的綜合測試,如完形填空和聽寫,再到八九十年代運用的交際測試,如任務型測試,語言測試者們嘗試、研究和討論過多種類型的測試。哪種測試更加有效?哪種測試更加可靠?哪種測試最容易評分?哪種測試測試哪種能力?這些都是研究者們關注的問題。但歸結起來,所有的這些測試都在特定的目的下,特定的場所和特定的時間中合適。也就是說,這些所有類型的測試都有其本身的優缺點,應該都值得語言教師們掌握和使用。
但是,語言評價素養這個概念的提出經歷了近20年的時間。Rick Stiggins(1991a)提出評價素養的概念后,語言測試領域對這個概念沒有非常及時的反應。體現在ALTE(1998),Davies及同事(1999),Mousavi(2009)等重要的語言測試詞典均未收錄評價素養這一詞條。據研究者所了解到,語言測試文獻中也極少提到這個術語。直到2009年,語言測試專家Lynda Taylor才首次使用評價素養這個詞。此后,關于語言評價素養的研究如雨后春筍般涌現,如Fulcher (2012)、Coombe及同事(2012)、Inbar-Lourie(2013a,b)等。2011年“第33屆語言測試研究學術研討會(Language Testing Research Colloquium,簡稱LTRC)”專門以“評價素養”為題。2013年《語言測試》國際期刊發表專刊探討語言評價素養。
但是,我們不能以此便推斷語言評價素養是全新的概念。因為從Lado (1961)開始,語言測試專家們就不斷致力于讓人們,尤其是語言教師了解語言測試。例如Lado(1961:vii-viii)在前言中就指出本書的讀者對象是外語教師、測試研發者、語言學家、語言專業的研究生等,以便使他們能夠“用真知說話,而不是僅僅依靠想法和假設來說話”。1984年,語言測試專業性期刊《語言測試》創刊。在創刊號上,Arthur Hughes和Don Porter(1984)發表評論員文章。他們寫道“這本新的雜志將聚焦于跟語言能力評價相關的話題,服務于參與、或者是僅僅對某種形式的語言評價感興趣的人士(研究者添加強調)”,并承諾《語言測試》期刊將涉及語言測試廣泛的話題。這在創刊號的內容就能體現出來,如語言測試的信度效度問題、關于被試者的研究、英語作為第二語言或者外語的測試等。而自Lado(1961)之后源源不斷地出現了語言測試教材,它們也為提高評價素養做出了巨大貢獻。如Heaton(1988)就是一本向廣大語言教師系統介紹如何出題的書。Hughes(1989/2003)在前言中開篇就說明該書的目的是幫助語言教師編寫更好的試題。
然而,使語言評價素養概念化,并針對此進行研究是近年來剛剛開始的。正如Fulcher(2012)指出的,關于語言評價素養的研究還處于萌芽階段。Inbar-Lourie(2013b)認為目前對語言評價素養的探討主要分為下面三個相互關聯的話題。首先,在跟語言相關的測試和評價中是否存在達成共識的理論的、實踐的和經驗的知識庫。其次,語言測試的專業人士是否要“看緊門”,只讓擁有評價素養的人士參與決策,還是要根據不同的需求傳授不同水平的評價素養給更大范圍的應用語言學家、教師、家長、官員和政治家呢?緊接著的問題是,如果傳授評價素養,那么是否有可能建立普遍認可的評價素養分級知識,把一些話題設定為基礎而重要的。所有的利益相關者,不管他們的評價角色是什么,都必須掌握這些內容。
林敦來、武尊民(2014)在綜述了國外語言評價素養最新進展研究中看到語言評價素養研究現狀可以分為以下兩個方面去討論:首先是與語言工作緊密相關的人員的語言評價知識庫及其傳授的研究。這些人員包含語言測試專業人員、應用語言學家和在職/職前語言教師等。其次是關于語言評價素養是否需要分層次、有區別性地向更廣大的利益相關者傳播的研究。
根據本研究的目的,研究者將關于語言評價素養研究做如下綜述:首先,研究者將綜述語言評價素養的定義;此后,研究者將討論研究者們對語言評價素養構念的討論;最后,研究者將重點綜述關于語言評價素養的實證研究,特別是關于語言教師評價素養的研究。
2.3.3.1 語言評價素養的定義
Boyles(2005)把語言評價素養定義為外語教師要培養的對測試與評價原則和實踐的理解。她認為外語教師需要用工具來分析和反思測試數據,以便對教學做出明智的決策。培養出語言評價素養后,外語教師不僅能夠為特定的目的找到合適的評價手段,而且能夠分析測試數據來改進教學,而不至于讓超出教師預期的測試結果產生負面影響。
Taylor(2009)對語言評價素養的界定為:評價素養應該兼顧評價技術手段、實際技能、理論知識和對原則的理解,并且良好地理解教學環境中評價的角色和功能。
Fulcher(2012)基于網絡調查結果,把語言評價素養定義為:設計、命制、保持和評價大規模標準化考試和課堂測驗的知識、技能和能力。對測試過程的熟悉度。對指導和支撐實踐的原則和概念(包括倫理問題和行為準則)的意識。將知識、技能、過程、原則和概念放置在更廣泛的歷史、社會、政治和哲學框架中去理解實踐產生的原因和評價測試在社會、機構和個人中起的作用和帶來的影響的能力。整個定義框架如圖2.8所示。

圖2.8 擴展意義的語言評價素養定義框架(改編自Fulcher,2012)
Inbar-Lourie(2013a:2923)認為,語言評價素養不僅包含對評價學生語言能力的工具和程序熟悉,而且還有其他成分,特別是做出恰當的反饋來有效地讓學習者設定并達到學習目標。此外,擁有評價素養的人還應該意識到評價過程中涉及的倫理問題,以及基于評價的決策對學生可能產生的影響。
2.3.3.2 語言評價素養的構念探索
Bachman和Palmer(1996:9)列出了語言教師在語言測試方面應該擁有的五項能力,包括:(1)不管是從零開始設計新的測試還是選用現有的測試,在任何語言測試進行之前,教師都應該對語言測試的基本概念有了解;(2)教師要了解恰當地運用語言測試可能涉及的基本問題和關注點;(3)教師要了解測量和評估中的基本問題、路徑和方法;(4)教師要能夠根據具體的目的、環境和考生特點,設計、研發、評價和使用語言測試;(5)教師應該能夠批判性地閱讀語言測試方面的研究和已經出版的測試試題,以此來做出客觀的決定。
Brindley首次提出了語言評價與教師的職業發展問題。他圈定了教師在評價方面需要接受的五個方面的培訓。第一,評價的社會環境;第二,界定和描述語言水平;第三,命制和評價語言測試試題;第四,語言課程中的評價;第五,將評價付諸實踐。其中他認為第一點和第二點是核心單元(Brindley,2001:129-130)。
美國外語教育協會(ACTFL)編寫的《中小學外語教師教育培訓標準》(Program Standards for the Preparation of Foreign Language Teachers)(Foreign Language Teacher Standards Writing Team,2002)對外語教師教育提出了六條標準,其中第五條就是關于教師的評價能力。關于評價能力,標準從三個方面進行了描述:(5a)了解評價模型,并恰當運用。教師要相信評價是連續的,他們應該能夠針對不同的年齡和語言水平的學生制定多種評價方法來達到目的性強的評價目標。(5b)對評價進行反思。教師要對學生的評價結果進行反思,并相應地調整教學,分析評價結果,并運用評價結果所反映出來的學生學習的優勢和不足來決定未來的教學方向。(5c)匯報評價結果。教師應該能夠向利益相關者解讀和匯報學生的表現,并能夠針對結果進行討論。
劍橋大學考試委員會推出的教師知識考試(Teaching Knowledge Test)(參閱http://www.cambridgeenglish.org/exams-and-qualifications/tkt/)第一模塊第三部分語言教學的背景就包括了對語言評價的了解,包括對評價目的的區分、評價的不同方法和一系列評價任務的設計和目的。
Boyles(2005)以美國外語教育為例,描述了語言教師要培養評價素養需要的一系列能力。這些能力包括:理解測試實踐、運用評價手段、解釋和分析評價結果、正確地解讀評價結果及其意義、在教學中運用結果。Weigle(2007)認為教師應該了解一系列可能的方法來評價學生,要了解好的評價工具的重要特征,以及怎樣在時間和資源都有限的情況下最大限度地提高評價質量。她從測試研發過程(確定可測量的目標、決定如何測量這些目標、課堂內外的寫作如何結合、任務設置和評分)、檔案袋評價和教師要了解的外部評價等角度論述了語言寫作教師應該要了解的評價知識。
Davies(2008)對過去五十年的語言測試教程進行了分析。他發現,語言測試教材發展的重要趨勢是從原來的“技能+知識”轉變到了今天的“技能+知識+原則”。他對這幾個方面的解釋如下:技能指的是必要的方法,如編寫題目、數據處理、測試施行、試題分析和報告。知識指的是測量學知識、語言知識和教學環境,包括語言學習模式、教學模式、交際語言測試、社會文化理論等。原則指的是語言測試的恰當運用、測試的公平性和影響,包括測試中的倫理問題和專業化問題。Davies在此文中也指出,目前我們對原則的關注度還是不高。
McNamara和Roever(2006:255)提醒人們警惕在語言測試培訓中遵循狹義的培訓內容,他們認為“在培訓中,我們強調語言測試培訓的全面性,也就是不僅僅關注應用心理測量學……而應該包括關于測試和社會影響的批評性視角”。這點與Davies(2008)和Spolsky(2008)的觀點是一致的。他們都認為,如果僅從專業或技術角度去看語言測試,我們就很可能因為教育和社會賦予測試與評價的地位而帶來風險。Inbar-Lourie(2008a)也對語言評價素養進行了廣義的定義。她認為通過測試培訓,主要獲得的能力“要反映廣泛意義上的評價的作用,尤其要反映語言評價的作用,也要反映當代學者對語言知識性質的觀點,還得足夠重視課堂和課堂外的評價實踐”。Taylor(2009)認為,Inbar-Lourie的觀點創新之處就在于她的觀點源自測試文化和圈子之外,受到社會建構主義的影響,鼓勵對語言評價全局的、整合的和動態的理解。
Scarino(2013)指出評價因其教育功能和評價功能在教師職業生涯中占據重要地位。而教師也被要求在進行課堂評價的同時接受外部問責制的考驗。她認為我們要擴大對語言評價素養的理解,將語言評價素養知識庫跟復雜的教師教育過程聯系起來,使得教師改變他們的評價行為,理解評價現象和理解他們作為評價者的身份?;谧髡叩捻椖?,他發現在培養在職教師評價素養過程中,首先要讓他們了解自己已有的知識框架,反思自己的原有認識,這樣才能發展自己作為評價者的自我意識,對自己的知識框架進行相應的調整。
2.3.3.3語言評價素養的實證研究
關于語言評價素養的實證研究,可以從語言評價培訓需求調查、語言測試與評價課程和培訓研究、語言評價培訓手段和材料研究、語言評價培訓缺失帶來影響的研究以及不同程度的語言評價素養幾個方面去討論。國內也有少數學者進行了研究,研究者在本節最后對其進行綜述。
1)語言評價培訓需求調查
Hasselgreen,Carlsen和Helness(2004)以及Huhta,Hirval?和Banerjee
(2005)通過調查的方式描述了歐洲語言教師在評價培訓方面的需求。研究表明,下面這些需求最為明顯:檔案袋評價、課堂測試、自我評價和同伴互評、測試分數解釋、連續性評價(continuous assessment)、作業反饋、效度、信度、數據、題目編寫和題項分析、訪談以及評分。
Guerin(2010)在意大利對100名語言教師的評價素養和培訓需求進行了調查,研究發現教師對語言評價素養確實存在需求。Tsagari(2011)對希臘353名教師進行了關于課堂評價相關問題的問卷調查。其中有專門對評價培訓需求的調查。調查結果顯示,教師們強烈需要評價方面的培訓,特別是跟課堂評價緊密相關的話題,如檔案袋的使用、自我評價/同伴互評、反饋等。
Fulcher(2012)運用調查的研究方法來獲取語言教師在語言評估和測試方面的培訓需求,以期根據獲取的信息輔助語言教師培訓項目材料的編寫。調查問卷包含封閉式選擇題和開放式問答題。278名語言教師回答了問卷。作者對封閉式選擇題做了因子分析,最終提取了四個因子,即測試設計和開發、大規模考試、課堂測試與反撥效應以及信度和效度,并基于此框架對第二部分開放式問答題進行了質性分析,發現語言教師們認為目前的培訓材料還不能完全滿足教師的需求。
2)語言測試與評價課程與培訓研究
Bailey和Brown(1996)通過問卷調查的方式來調查教師教育項目中基礎語言測試課程中的課程結構、內容和學生對課程的態度。他們設計的調查問卷包含了語言測試課程教師背景、學生背景、學生在課前和課后對課程的態度。問卷主要采用5級李克特形式,也包含了開放性問題。84位語言測試課程教師作為受訪者回答了問卷。研究表明課程教師有博士學位的占76.2%,教育背景差異大。課程內容中,測試評論(Test Critiquing)最受關注。大多數學生認為這門課程有趣??偨Y起來,作者認為語言測試課程在諸多方面都呈現出巨大的多樣性。運用類似的研究工具,Brown和Bailey(2008)的研究顯示,十年間語言測試教材內容幾乎沒有什么變化,而測試課程也相應地沒有發生什么變化。教材和課程都把焦點放在以下這些話題上:分析和評判試題、如何測試四種技能、效度(按傳統意義分類)、題項分析(如難度、區分度和內容分析)以及最基本的測試數據分析,如描述性數據和信度等。
Kleinsasser(2005)運用敘事法研究了研究生層面的語言評價課程。參與課程的學生共同協商評價課程內容和材料,學生們進行了評價實踐,命制了相應的題目并通過共同討論的方式對題目進行了反思。學習共同體的構建、在做中學和檔案袋方法等的實施給這門課程帶來了良好的效果。O’Loughlin(2006)以研究生語言評價課程的輔助教學手段——網絡論壇為研究內容,通過對這些論壇內容分析發現,學生的接受程度與他們作為學習者和教師的經歷以及課堂上接觸的內容有極大的關系。
Jeong(2011,2013)研究了語言評價課程教師的不同背景對課程特征(內容和結構)產生的影響。研究發現,教師背景對課程內容的六個方面影響很大,包括測試大綱、測試理論、基本數據、課堂評價、評分量表研發和測試折衷辦法(test accommodation)。非專業語言測試出身的教師更多地關注課堂評價,沒有足夠的信心講授測試中的技術。作者認為要推廣統一的語言評價素養標準,以保證語言評價課程的質量。
Coniam(2009)研究了香港地區的外語教師編制的題目是否能夠達到可以接受的質量,以及培訓在何種程度上會提高這些教師在教育評價方面的意識,從而提高他們命題的質量。Coniam選取的研究對象是31位在職攻讀碩士學位的一線教師。他們參與了每周3個學時、時長14周的語言測試課程。課程中有6周時間所有教師都參與三人一組的試題命制整個過程,包括設計、施測、分析和修改試題。研究發現,即便經歷了試題設計和分析的輪回,只有一半的測試能夠達到好的信度值。從經典的測量理論的題目難易度和區分度角度看,絕大多數的題目都不能被看作是“好的”題目。但是從參與的老師們的體會來看,他們在測試原則和命題與分析的過程方面的意識得到了很大提高。
3)語言評價培訓手段和材料研究
Boyles(2005)認為教師的評價素養發展應該是持續的,形式可以是面授的或基于網絡的。Malone(2008)認為語言評價培訓不僅可以通過文字渠道,如教材,來傳播,而且可以通過其他渠道。她強調面對面的語言測試工作坊和自學都會有良好的效果,因為這樣能運用到新技術,并且能獲取更多最新的材料。
Malone(2013)運用“理解評價:外語教師指南”(www.cal.org/flad/tutorial)這項針對教師評價素養發展的網絡資源構建為依托,探討了語言教師和語言測試專家在對網絡資源內容的看法上存在的相同點和差異性。研究發現語言測試專家專注于定義的準確性和對測試運用的適切性,而語言教師關注的是網站內容使用是否方便以及定義是否清晰。Stoynoff和Chapelle(2005)介紹了語言教師應該了解的測試“基本知識”,并對現有的英語測試進行了綜述,針對每個測試進行評論,為讀者提供了在選擇測試時應注意的使用環境,是幫助語言教師選擇和使用測試的非常實用的材料。
4)語言評價培訓缺失帶來影響的研究
López Mendoza和Bernal Arandia(2009)探討了在哥倫比亞評價培訓的缺失如何影響外語教師對他們學生的評價。他們的發現如下:首先,評價往往是終結性的,而不是形成性的,并且缺乏連續性。其次,他們發現評價經常沒有被恰當運用,甚至經常被濫用。兩位作者特別指出,測試分數的運用往往與測試的初衷相去甚遠,并不能夠“輔助學習”。作者將這些不好的做法歸因于語言評價素養訓練的缺失。作者將缺失的內容總結如下:缺乏對與測試不同的評價的理解,缺乏對形成性評價和對終結性評價的理解,缺乏對語言評價和每種評價方式能夠提供的信息的了解,缺乏對怎樣給學生更加有效的反饋的了解,缺乏讓學生能夠自己掌控學習方法的能力,缺乏對測試和評價使用中的倫理問題和結果運用的了解,缺乏對語言測試者角色的了解,缺乏對效度、信度和公平性的了解。Tsagari(2011)也發現,由于評價知識的缺失,教師在實際操作中多使用終結性評價。
5)不同程度的語言評價素養
Brindley(2001:128)認為,根據評價的性質和評價人員的參與程度,不同的群體應該掌握不同程度的評價知識。Taylor(2009)提出了評價素養的培養目標人群不僅僅限于測試的研發者,應該向更廣泛的利益相關者傳播。Taylor(2013)認為,很明顯,不同的利益相關者由于對評價參與程度不同,應該擁有不同程度的語言評價素養。她提出了一個區分不同利益相關者對語言評價應有的熟悉程度的模式(如圖2.9)。從核心到周邊到外圍,不同利益相關者對語言評價的了解可以呈現遞減趨勢。

圖2.9 不同利益相關者對語言評價素養不同程度的需求(改編自Taylor,2013)
借鑒Bybee(1997)關于科學素養的討論,Pill和Harding(2013)勾畫出了語言評價素養連續體。如表2.3所示,將語言評價素養分為五個等級。
表2.3 語言評價素養連續體(改編自Pill & Harding,2013)

Taylor(2013)根據此連續體,并基于她主張的不同的利益相關者應該擁有不同程度的評價素養的想法,勾畫出了四種不同利益相關者在具體某個維度上應該達到的熟悉程度。如圖2.10所示。

圖2.10 不同利益相關者對語言評價素養掌握程度的示意圖(改編自Taylor,2013)
從圖2.10我們可以看出,與其他職業的人員相比,教師的語言評價素養有其獨特性,比如教師在語言評價素養中應該融入很高水平的教學法知識。此外,教師要對所處的教學環境有比較深刻的認識,對語言測試與評價的技術有較好的掌握。但是在分數與決策以及語言測試的原則和概念方面無需太深刻的認識。
6)國內學者對語言評價素養進行的研究
Jin(2010)從高校職前外語教師教育層面探討了語言測試與評價課程的開設情況。調查內容包括課程教師背景、教學內容、教學方法、學生對該課程的感知以及教學材料。全國范圍內86位該課程的教師回答了問卷。結果顯示,課程涵蓋了語言測試理論與實踐的基本內容,但是教育與心理測量知識和學生在課程中的實際操練受到的關注很少。Xu和Liu(2009)運用敘事學方式研究了一名大學外語教師的評價知識和實踐,發現教師在評價方面的先有經歷會影響他們在教學中的評價實踐和評價規劃;工作環境中的權力關系會影響教師的評價決策;評價發生的特定環境會影響教師的安全感,進而影響評價的效用。