書名：如何解決課堂上最關鍵的9個問題
作者名： (英)羅斯·莫里森·麥吉爾
本章字數： 17805字
更新時間： 2020-11-21 18:50:30

第一章　評分與評估

在我與英國乃至更遠地區的學校合作的過程中，有一點非常明顯：無論背景如何，教師們都承受著巨大的評分負擔。 2017年9月以來，我調查了15 000余名教師，研究了“教師最大的工作負擔是什么？”這一問題。不出所料，日常課堂評分工作加劇了英國教師心理健康與幸福感方面的問題。

當然，評分只是評估的一種形式。它的過度使用究竟是源于人們對其有效性的認知，還是來自外界對教師和學校的要求，目前尚未可知。然而，我相信，即使學校實行無評分或無家庭作業政策，這種好意依然可能會向外部力量妥協，比如父母的期望、考試委員會的規定以及國家統一評估。雖然學校每年都會進行正式的評估，雖然學校仍有權決定自己的日常工作，但即便如此，還是經常會有第三方來學校評估教學工作。如果評估者發現學校工作缺乏監管，諸如“拿出證據來”或“究竟有什么影響”等質疑就會讓學校陷入困境。

然而，評估——無論是評分、提問還是測試——確實是課堂上的重要工具。那么，我們可以做些什么來幫助學校和教師，確保評估對學生進步有直接影響呢？在本章中，我將分享一些來自學校方面的想法和建議，這些學校正盡其所能地減少評分，改進評估，以減少教師工作量和提高課堂效率。我還會考察教師們正在有效運用的日常課堂理念——以及那些對學習毫無幫助或幾乎沒有幫助的教學理念。

為什么這是一個問題

評估，包括在一節課中完成的標準化測試，是教師監控學生日常學習的一種安全方法。然而，在復雜的教育環境下，“學生如何學習”已經被縮簡為一組組數據。現行評估制度出了問題的地方主要有兩點，一是基于學校問責制和跟蹤學生進度的測試和報告量不斷增加，二是衡量兩個時間點之間的成績變化正成為公立學校教育中非常流行的衡量標準。熱衷于衡量學生是否在關鍵階段學到了知識的學校領導和政客們應該明白，這種一次性、低風險的測試只能提供有限的參考。

貝基·艾倫教授認為，“在一節45分鐘或1小時的課上進行時間相對較短的標準化測試，來判斷學生的個人進步是不夠可靠的”。基于她與英國教育捐助基金會（EEF）對商用標準化測試的研究，特別是對商業評估對關鍵階段2學術能力評估測試（SAT）成績的預測能力進行的衡量，艾倫得出結論：“沒有一項測試可以精確地衡量學生的成績。短期測試的可靠度要遠低于長期測試。”

艾倫的研究提出了測試的兩個主要問題。第一，我們需要保證考試的標準化，讓學生和教師對考試的重要性有統一認識。例如，我們是否有信心確保在不同地區參加國際學術評估項目測試的學生在相同的條件下參加測試？如果做不到這一點，那么這些參數必定是有問題的。第二，雖然在一節課內完成的簡短評估可以幫助教師檢測學生的能力，但它們很少能夠告訴我們，學生在上一年取得了怎樣的進步。作為教師，我們可能認為——而且也希望——我們可以滿足孩子們更長期的學習訴求，但如果認為在一節課內就可以衡量學生的進步，那就太荒謬了，而且這也是根本無法實現的！

測試（考試）對學生的影響

不僅我們目前跟蹤學生進步的方法無效，而且我們對數據集和測試的癡迷也可能限制或損害學生的發展。在《平均的終結：如何在崇尚標準化的世界中勝出》（The End of Average）一書中，哈佛畢業生兼作家托德·羅斯提及了美國心理學家愛德華·桑代克的著作。桑代克定義了我們今天所了解的教育。他認為學校和教育的目的是，根據學生的才能對其進行分類，并預測學生的表現。羅斯對此評論道：“極為諷刺的是，教育史上最具影響力的人物之一認為，教育幾乎無法改變學生的能力，因此教育的作用僅限于識別擁有更高智商的學生。”桑代克支持使用量化信息（如分數）作為評估學生表現和決定學生是否能在大學和職業生活中取得成功的便捷指標。這種“最有可能成功的人”和“最有可能失敗的人”的觀念如今依然普遍存在。

我想知道我們中有多少人接受了這種觀念。比如，我們可能在數學考試中名落孫山或名列前茅。再比如，我們被分數定義，分數意味著我們沒有達到我們的首選大學或學院的標準。桑代克的教育迷宮不僅把每一個學生，而且把每一個人都限制在了它的圍墻之中。每個學年結束時，（學校或相關部門）都會對教師進行評估。評估的結果決定了他們的職稱晉升、排名、加薪和任期。整個國家的教育體系都根據它們在國際標準化測試（如PISA1或PIRLS2）中的表現來排名。綜觀全球，我們的教育體系正如桑代克所期望的那樣：

● 高于平均水平相當于你得到獎勵。
● 低于平均水平相當于你將會失敗。

在過去的一個世紀里，我們已經完善了桑代克的教育體系。正如羅斯所言，它就像一臺運轉良好的機器，排除了所有別的可能性。羅斯深刻地證實了我們當前教育體系中存在的問題，并影響了我的看法：成千上萬的孩子認為自己是失敗者，僅僅是因為這個評價體系不夠成熟，無法評估出他們的個體成功。

學校排名

在體制層面，我們的一些教育領導對彼此的學校進行排名。有時為了提升學校名次，還會在法定評估的基礎上進行額外的評估。這無疑將加劇現有危機并危害教師心理健康，以此為代價換取學校在排行榜上的樂觀表現。

在更極端的例子中，多學院信托基金（MATs）對加入它的學校進行排名，以提高部門、團隊和學科的教學水平。你能想像以下情況帶來的感受嗎：你是一所中學的理科負責人，你排名倒數第一 ——雖然每個學校的情況根本不具可比性！你所在的學科可能比你所在學校的其他核心學科表現得更好，但與整個名單中另外20至40所學校相比，按學科表現進行排名，它排在了較低的五分之一中。高風險問責制導致了學校的各種問題，包括“掉隊”和“比賽”現象。可悲的是，這種情況在一些小學確有發生——這些學校中的六年級學生在評估中“被排練”或“被過度幫助”。我們明白學校評估有其重要性，但合理的問責制度更加重要。

對學校而言，排名的提高吸引了更多的學生和資金——如此循環往復。但這種衡量“附加值”的方法給人一種錯覺，即排名靠前意味著教師能力優秀，學生自然會取得進步。之所以說是錯覺，是因為還有許多復雜的因素也會影響學生成績，比如社會經濟地位。如果我們不依賴學校排名，政策制定者和多學院信托基金的領導們可能會覺得他們失去了對全局的控制權。但實際情況是，這種負擔和相關費用將會減少，學校評估體系將會進入更本地化的水平。學校將會為自己設計自我評估框架，以繼續為當地社區提供有價值的服務。

有效利用數據

在全國各地的學校里，存在一種“密集數據”的風氣。例如在北愛爾蘭，這種現象在關鍵階段3和43尤為普遍。但教師們認為，數據并不總是可靠有用的，也不總是有助于學習的。在某些情況下，教師每學年要進行9萬次以上的數據計算：

那么，我們該如何處理這些信息呢？羅伯特·科教授曾在其作品中寫道：“‘密集數據’已成為一種毫無意義的工作的縮影，即收集無意義的數字，再將其轉換成對學習者毫無益處的體系。”他提醒我們，評估必須包含可能會讓我們感到意外的信息，并告訴我們一些不知道的事情。因為如果報告只包含我們已經知道的東西，它對我們下一步的工作并沒有任何指導意義。科教授還談到了“準確性”，他說：“所有的評估都是不準確的，而且有可能是錯誤的”，因此必須根據數據的重要性來判斷數據——即數據的可靠性以及它傳遞了多少信息。例如，對單個問題的解答并不是可靠且有效的評估。如果不能報告數據的重要性和準確性，那么僅僅將其輸入管理信息系統的行為并不是一種評估！

學校必須減少冗余的數據工作。少收集一些數據，數據將變得更準確、更有意義。 2018年，英國教育部發布了一份關于“讓數據發揮作用”的學校報告。該報告由教師工作量咨詢小組撰寫，貝基·艾倫教授擔任主席。她在前言中說道，考慮到技術變革的影響，“是時候跳出圈子看問題了，評估一下花在管理學生成績和教學數據上的時間，是否與其教育效益成正比”。

在數據收集方面，該報告為學校和信托機構的領導們提供了一些非常有用的建議：

1. 建立簡單的體系。只要有可能，允許在正常工作日，而不只是在休息時間和午餐時間記錄行為事件、課后情況和其他教務信息。

2. 盡量減少或消除教師需要收集的信息。

3. 確保你了解學校評估的質量和目的，包括與課程相關的信度和效度的詳細信息。

4. 以你可掌握的方式審查報告和家長參與的方法，讓家長了解子女在學校的表現和行為，并考慮如何以最佳方式向家長提出期望。

5. 使用上述數據原則，確定對學生的干預計劃，盡量減少準確定位學生所帶來的數據負擔。

6. 每年不要超過兩個或三個成績數據收集點。數據收集點是用來了解明確的操作步驟的。

7. 避免讓教師的薪酬增長依賴于定量評估指標，如考試結果。

根據這些建議，中高層領導應就評估和數據收集政策思考以下問題。如果你還不屬于領導層，向你的上級提出你的想法。改變不一定只能自上而下地進行。

● 評估的目的和用途是否明確，是否符合學校的價值觀？
● 從評估中能夠推斷出什么，結果是眾所周知的嗎？
● 收集數據的數量和頻率是否成正比？
● 你的學校上次審核數據收集和使用評估流程是什么時候？
● 是否所有的數據收集窗口都需要與教師或團隊領導進行對話？
● 重要考試年級組每學年收集的數據是否超過三次？
● 收集的數據是否易于教師、家長和學生理解？
● 是否有明顯的證據表明你收集的數據可以增加價值？

評分呢

我們知道評分是教師日常工作的一部分，但我經常問的問題是：“你知道什么是有效評分嗎？”如果擁有25年教學經驗的我仍在努力尋找這個問題的答案，那么對于沒有經驗的教師來說，還有什么希望呢？

考慮到評分，學校的日常課堂政策會使情況變得更糟，這些政策要求教師要在每Y段時間評分X次并保持一致，并堅持要求每位教師使用特定顏色的筆評分。這一切都是為了避免外部監督帶來的壓力，但一旦出現這種情況，教師的工作量就會從反饋的有效性轉移到“我應該用什么顏色的筆？”以及“我應該多久打一次分？”

此外，學校領導們的工作審查加劇了這一問題，他們千方百計地監督教學的一致性和質量——這是一個不可能完成的任務，因為我們經常在沒有收集到所有必要信息的情況下，就開始觀察教學過程，并“躍躍欲試”了。

如果我們仍然在試圖理解什么是有效反饋，如何獲得反饋以及什么會對學習產生最大影響，那么父母呢？家長可能仍然會認為“評價框里打打鉤”是一種認可方式，并以此來評價教師，盡管我們知道它對學習沒有任何影響，更糟糕的是，它簡直完全是在浪費時間。相反，我們需要大幅度減少每所學校評分的任務量。我希望本章的建議能幫助教師和學校減少打分量，找到更有效的方法來評估學生的進步，并提供對學習有真正影響的反饋。

我們該如何解決這個問題

布置家庭作業會產生影響嗎？家庭作業對學習有意義嗎？它能否使學生獲益更多，并讓學生掌握學習技巧和培養責任感？

這些都是關于家庭作業目的的重要問題。一些學校把它作為學校存在的“必需品”，而另一些學校實際上完全淘汰了它，走上了“無作業政策”路線，“不評分”，甚至“不穿校服”！有許多家長說他們希望教師給孩子布置家庭作業，盡管它會給一些家庭（包括我的家庭）帶來無盡的悲傷和頻繁的爭吵。還有很多孩子不希望教師留家庭作業，但終究還是逃不掉！有的孩子不做作業，有的把作業丟了，有的直接在谷歌上找答案，還有的不在家做作業，也有孩子信誓旦旦要認真寫作業，但由于花費過多時間而沒有得到充足的睡眠。

如果你問一些人，他們會告訴你，家庭作業是一個破壞家庭生活的黑洞；它阻礙學習，也拉大了差距。如果你再問其他人，他們會不經意地回答“好教師布置好作業”，而且家庭作業對學習過程也有很大的影響。判斷作業是否有用遠非易事，但這在很大程度上取決于你的關注點以及所教的年齡段。

研究表明了什么

沒有任何證據表明，家庭作業對小學階段的孩子有任何學術上的好處。教育領域的領軍人物約翰·哈蒂說，在小學階段，“家庭作業的影響幾乎為零”。阿爾菲·科恩在《家庭作業迷思》（The Homework Myth）中表示，學校需要將其默認值設置為“無家庭作業”模式。然而，哈蒂還認為不應該完全取消家庭作業，而應該有側重點。他說，中學的家庭作業會有更大的影響，主要是因為它給學生另一個機會，來鞏固練習他們在課堂上學到的東西。我完全同意。

我很清楚，我們確實需要重新思考家庭作業的布置，尤其是家庭作業的影響，因為在確定家庭作業與學習成績之間的積極關系時，大多數元分析都未能挖掘出影響結果的重要變量。時至今日，激烈的爭論依舊亟待定論，很少有研究涉及作業質量、反饋性和作業量與空閑時間比例關系的問題。如果不對這些條件進行評估，將家庭作業與成績聯系起來的證據仍然無效。

哈蒂認為如果布置作業不是專門為了練習，那它就毫無存在意義。教師必須把已教授過的、學生已掌握的并且在需要時易于想起的內容布置成作業。本質上，任何家庭作業都必須是相關的，而且是高度相關的。盡管哈蒂在2014年也曾說，用5到10分鐘練習當天在學校所學內容，和布置需要1到2個小時來完成的家庭作業的效果是一樣的，但經合組織2014年的一份關于國際學生評估項目的數據報告，研究了15歲學生的家庭作業，發現社會經濟條件較好的學生和就讀于社會經濟條件較好的學校的學生，常常比其他學生花更多的時間做家庭作業，這可能會使教育不平等現象長期存在。需要注意的是，布置家庭作業可能會增加劣勢差距，尤其是在學生更依賴父母的小學時期，但對我來說，家庭作業在學校和孩子成長過程中都占有一席之地，關鍵在于我們如何利用它并使其成為一種重要的教學工具。

布置有意義的家庭作業

匈牙利裔美國心理學家米哈里·契克森米哈創造了“心流”一詞來描述一種快樂的狀態。這個詞讓我想起了一名教師收到的表明一切安好的非正式反饋，包括富有成效的工作氛圍，或者學生的簡短評論：“哇！麥吉爾先生，這節課這么快就結束了！”契克森米哈的研究得出結論，當幸福或“心流”產生時，會發生五件事：

1. 學習者高度專注于一項活動。

2. 這通常是學習者自發選擇的活動。

3. 活動既不是挑戰不足（乏味）的，也并非挑戰過度（倦怠）的。

4. 活動有明確的目標。

5. 學習者可以收到即時反饋。

契克森米哈總結說，產生“心流”感應的人不僅會感到滿足，還會忘記時間，沉浸在學習中。你的學生上一次在你的課堂上沉浸于課堂活動或話題中是什么時候？

我們可以用這個理論來指導如何布置家庭作業。如果我們布置有意義的家庭作業，讓學生在有明確目標的情況下做出選擇，那么學生更有可能在挑戰過度和挑戰不足之間做出選擇，他們會從漠不關心走向“心流”。他們會沉浸于學習中。我們可以將此與布置不需要評分的作業相結合，比如可以布置自我評估或搭檔互評的作業。這可以節省教師的時間以給學生即時的口頭反饋。教學背景很關鍵，因此英國各地正在采用一系列方法，以確保家庭作業符合以下標準：

1. 試著在小學階段不布置常規作業，而是為家庭定期提供他們“可能”想嘗試的想法，比如項目或郊游。這能保證教師評分工作量為零，學生也有更多的學習機會，并且增加親子活動時間。

2. 在數學、閱讀和拼寫方面使用簡單的在線測試。沒有了評分環節，相應會減少收集和核對的壓力。確保測試內容是近期所學。

3. 嘗試使用Seneca、 HegartyMaths、 ClassCharts、 ShowMyHomework、 CENTURY、 Google Classrooms或Microsoft Teams等軟件來布置作業。學生可以通過電子方式提交作業，并在網上收到反饋。

4. 你也可以使用傳統的方法：年級小組或部門，整理一份定期任務手冊，這樣不必每個教師都花時間去尋找合適的方法。手冊最好包括可以直接在課堂上檢查其正確性的作業，這樣教師只需查看結果即可。

5. 最后，小學教師應該考慮重新開展“我的活動護照”（My Activity Passport）活動。英國教育部于2018年12月推出“我的活動護照”活動，旨在“讓孩子們有機會嘗試新事物，體驗周圍世界”。“我的活動護照”列出了適合1到6年級學生參加的豐富多彩的活動，從秋季散步到戲劇表演、寫日記等。你可以在www.gov.uk/government/publications/my-activity-passport中找到這些內容。

埃利奧特等人在一份受教育捐助基金會（EEF）委托的書面評分證據綜述中指出：“我們迫切需要進行更多的研究，以便教師更好地了解最有效的評分方法。”很多教師花了大量的時間去評分，然而有關所提供的反饋類型和產生反饋所花的時間這兩者的影響的證據卻有限。用復雜的評分方案對測試和考試進行評分，會讓你埋頭于小細節中，不僅浪費時間，也是有缺陷的。必須有一種比“傳統”評分更快、更清晰、更可靠的學生評估方法。如果有一種方法，使我們可以在15秒內進行評估，可靠性為0.91就好了。的確有這樣的方法……了解一下比較判斷吧！

心理學家路易斯·瑟斯頓在1927年發表了一篇關于比較判斷法的論文。他的方法要求評委（或教師）只對質量做出有效的決定，因此“提供了一個徹底的替代方案，使教師不必再通過詳細的評分方案來追求可靠性”。近些年，由于教師這個職業當前的宿敵是工作量，比較判斷在很大程度上已重新回到了教師的學習對話中。

與形成性評價一樣，比較判斷法既不廣泛，也不根深蒂固。然而，“取消評分”正逐漸獲得人們的青睞，并象征著對傳統評估方法的“徹底背離”，這可能“在相當深遠的意義上解放了教學”。盡管比較判斷可能不是最前沿的，但在教師壓力空前的時代，它的重新流行和知名度提高是深受人們歡迎的，因為在這個時代，評估毫不費力地歪曲了課程，評估必須是克里斯·惠登所說的“效率和可靠性之間的微妙平衡”。

所以它是什么

如果我們把比較判斷簡化到最基本的層面，就是從兩位學生的作業中選出更好的一個。你可以通過以下幾種方式做到這一點：

● 簡單、低技術含量的方法是把作業平鋪在一張桌子上，像滑動拼圖一樣移動它們，直到它們以你喜歡的順序排列。我們通常會看到，當需要對課程作業進行適當展示時，各學科的老師會把作業以這樣的方式進行排列。
● 或者，你也可以使用高科技算法，該算法使用多個教師評估來得出排名，并為每個學生提供分數。正如史蒂夫·德雷珀博士所解釋的那樣，“軟件將這些成對的判斷組合成一個定量的區間尺度（基于瑟斯頓的‘比較判斷法則’） ……最后，如果不僅將其用于排名，而且還用于評估，則需要把這一課程的相關評分標準同樣運用于排名中（而不單是多個教師的評估）”。

比較判斷，也被稱為適應性比較判斷（ACJ）或兩兩比較評價（APR），是“不再評分”運動的一部分，這也是軟件專家No More Marking （不再評分）（www.nomoremarking.com）的名稱。黛西·赫里斯托祖盧是該軟件的教育主管。 No More Marking表示我們應該停止評分并開始對我們的評估進行比較判斷：“（比較判斷）的基本原則很簡單，那就是我們比較不同事物的能力要比我們做出整體判斷的能力更強。”

在一項對199所學校的1 600多名教師進行的No More Marking研究中，教師對8 500多名6年級學生的作文作品集進行審閱，結果發現教師在評分上表現出高度一致性；這些判斷的信度大于0.84 （滿分為1.0）。赫里斯托祖盧指出，使用No More Marking軟件進行評估時評分者間的信度可高達0.9。與絕對判斷相比，相對比較判斷的可靠性很高，因為相對判斷涉及更多的評委（教師）。傳統評分通常需要一到兩個評分者，而比較判斷則需要兩個以上。你可以參加下顏色測試（Colours Test， www.nomoremarking.com/demo1）來發現更多關于為什么比較判斷有效而評分無效的內容。

但是需要注意的是，蒂內·萬·達爾等人曾說：“在設置（比較判斷）評估和開發表示成對分布的算法時，應考慮評判員在鑒別能力方面的差異。”盡管如此，新技術依然能夠改變我們對評估的看法，正如塔里科內和紐豪斯所說，“在線技術提供的比較判斷是一種可行的、有效的、高度可靠的方法，可以替代傳統的分析評分”。

它在實踐中是什么樣子的

比較判斷首次應用于對學生的直接評估是在2005年的一個由倫敦大學金史密斯學院技術研究教育部的理查德·金貝爾教授領導的名為e-scape的項目中。

劍橋大學的阿拉斯泰爾·波利特以他與金貝爾教授在電子檔案評估方面的研究為例，說明通過數字評估和比較判斷法可以獲得高信度系數。波利特認為，在金貝爾的研究中， 28名評委評估了352個電子檔案，產生有3 067個判斷結果，得出了0.96的高信度系數，比任何分析評分系統都要高。我是評委之一。當時，我是倫敦北部亞歷山德拉公園學校數據處理技術（DT）和信息與通訊技術（ICT）的負責人，這所學校是世界上在這兩方面表現最好的學校（根據2015年PISA排名）。

金史密斯學院的研究人員擔心，目前的數字評估并不完善，因此他們希望能夠探索出利用電子檔案來獲取學生作業的方式，并將其與更公平、更一致的評估方法結合起來。

他們設計了一種方法，使學生能夠在個人數字助理（PDA）上起草最初的設計想法，記錄設計進度，為他們完成的作品拍攝照片，然后將其上傳到一個中心網站上，由版主進行評估。在該項目的第一階段中，在教育和技能部（當時是該部門）以及資格與課程管理局（QCA）的資助下，金史密斯教授為這一方法開發了概念驗證（POC）機制。

每位評審員在屏幕上看到兩個示例項目組合，并判斷哪一個更好。選定一個項目，然后軟件隨機選擇另一個進行比較。最終，評審員將這些項目從上到下進行排序，而在這個國家其他地方的另一個人會看到同樣的樣本，同樣是完全隨機的。

一旦所有評估人員都對項目進行了排序，就會出現項目的整體排序。在試驗中，每個電子檔案至少由7個不同的評委審閱17次，結果非常可靠。金史密斯團隊在預測比較判斷可以擴展到其他學科方面“領先于時代”，因為自那時起比較評估開始得到了廣泛的傳播。正如丹·桑德胡所言：

“比較判斷通過在全球范圍內的頒獎機構和機構中的使用展示了其巨大的潛力。到目前為止，澳大利亞、瑞典、新加坡和美國均進行了比較判斷的試驗，評估信度均得到了顯著提高。這個過程意味著英國普通中等教育證書考試和A-level測試的申請復核人數可能會大幅減少。”

比較判斷還可以用來評估能力，如數學理解、地理、設計技術和寫作。

對于學校而言，年級組和部門可以通過審閱和抽樣來核對傳統意義上的工作。只要它有章可循，并及時建立培訓、對話和評估，那么對任何一所學校而言，它都是一個可以使用的很好的習慣性過程。然而，這種方法很耗時，而且隨著技術的發展，有很多你自己就能應付得來的方法。 Google Classroom和Microsoft Teams讓教師能夠在線評估學生作業，并與同事共享資料，以便進行比較判斷。至于更精細的評估和比較的方法，不再評分（No More Marking）和世紀科技（CENTURY）是大有裨益的替代選擇。那么，為什么不看看哪種選擇對你和你的同事有用，以節省時間并確保評估更準確呢？

評估有多種形式。它不僅僅是將數據輸入電子表格。評估是指教師對學生概況進行整體把握。這對每周教300多名學生的中學教師以及教30名學生不同科目的小學教師來說都絕非易事。在我的走訪中，我曾與一位英國教師一起工作，她所教班級的學生人數甚至高達44人——這可真不容易！

了解你的學生

格雷厄姆·納托爾《學習者的隱秘生活》一書于其去世后出版，該書涵蓋了他40年來對于學習和教學的研究，以一線教師和人們腦海中的教師為對象撰寫。在20世紀60年代，納托爾說服了一群經驗豐富的教師，允許他將錄音機帶到他們上課的教室，并把麥克風掛在燈具的線繩上。納托爾在他的整個職業生涯中持續錄制課程長達40年。他發現，教學是一種文化儀式；并且研究結果的相關詳盡數據表明，教師們對教室里發生的事情知之甚少。納托爾發現，即使是對學生行為進行連續書面記錄的現場聽課者，也會漏掉學生個人麥克風上高達40%的記錄信息。他開始意識到，在教室里，學生們其實是生活在自己的個人和社交世界中的。他們竊竊私語、互相傳遞小紙條；他們散布有關同伴關系的謠言；他們組織課后社交生活并繼續從操場上開始的爭吵；他們更關心同齡人如何評價他們的行為，而不是教師。

納托爾不僅使用精心設計的書面測試，而且還對學生進行了廣泛的個人訪談，以更深入地探究他們的學習經歷、知識面和理解力。盡管考試表面上很客觀，但它和面試一樣，也沒有多少客觀之處。只是在測試者和學生之間有一種不同的關系。

納托爾發現，即使是在非常傳統的課堂上，每個學生的重要學習經歷中，有很大一部分，要么是自我選擇的，要么是自我產生的。能力越強的學生對相關內容的討論越多。他們提出更多問題，對問題討論的時間也會更長。不同之處在于他們參與課堂活動的方式。那些有相關文化知識和技能背景的學生能夠將課堂和課堂活動為己所用，與那些對教師唯命是從，但不希望或不知道如何為自己創造機會的學生相比，這些學生學到的東西更多。智力的差異更可能是課堂經歷差異的產物，而不是反過來。

在20世紀80年代末，納托爾還采訪了其他教師，以了解他們如何判斷自己的教學進展順利。幾乎所有教師都是從學生參與課堂的表現中知道他們教學進展良好的，比如學生們的眼神、提問的問題，以及他們離開教室時不停地討論的話題或問題。簡言之，就是感受到了或聽到了學生對內容感興趣，以及學生因專注而產生的忙碌。

在大多數教師的心目中，成功學習的標準與成功管理的標準是一致的。這一點顯而易見，因為教師們不跟學生談論學習或思考。他們談論要集中注意力不要打擾別人。納托爾從研究教學轉向研究學習，他說：“如果我們要理解教與學的關系，那么必須從最接近學習的地方開始，那就是學生的體驗。”

教師遵循只與學生的學習間接相關的可預測的模式。這是因為教師在很大程度上不能完全掌握有關學生學習情況的信息。鑒于納托爾的發現4，我很清楚教師需要對學生的學習情況擁有準確的總體把握。我們必須找到一種方法，來不斷評估所有學生的學習進度，以及最好地幫助他們進入下一階段。在一個25到35人的班級里，每個學生都有不同的知識、技能、興趣和動機，最有效的方法是全班評價，比如提問和班會。

提問

評估學生的一個簡單而有效的方法是通過提問來檢查他們的學習情況。正如迪倫·威廉教授所說的那樣，傳統方法是：“開始—回應—評估”（I-R-E）。當然，教師只是簡單地對學生講話就會產生影響，但他們做了什么以及如何去做也同樣會產生影響。威廉對“開始—回應—評估”（I-R-E）方法提出了批評，稱其“沒有提供足夠的信息，讓大多數學生在課堂上明白需要去學習什么內容”。為了讓提問更有效，我主張首先采取“不舉手”的方式，隨機挑選學生回答問題，而不是要求他們自愿回答以檢查理解情況。另一種方法是讓所有學生通過電子投票系統、迷你白板或簡單的舉手方式立即回答問題。這兩種方式都將有助于實時評估學生所學知識，并幫助教師決定課程下一步的方向。

班會

另一種更好地了解學生學習情況的方法是，把有效的班會作為全班評估的一種形式。很多教師在被聽課時常常在課堂接近尾聲時安排班會。這絕不應該是“打鉤”一樣的例行公事，也不該只為迎合聽課者的喜好，而應當融入課堂中并能夠真正鞏固所學。

2003年，英國教育標準局表示：

● 班會往往是課堂最薄弱的環節。
● 留給班會的時候往往不夠充裕。
● 班會通常是課程中最不活躍的部分。

菲爾·比德爾在《完美結束一堂課的35個好創意》（The Book of Plenary）中指出，在考慮班會時要謹記三件重要的事情：

1. 必須計劃好班會。

2. 必須給班會留出充足的時間。

3. 必須讓學生參與其中。

所以，不要再對學生說“告訴我你從中學到了什么”，以一個對你和學生都更有意義的任務取而代之。

有效班會

有效的班會有以下五個關鍵特征：

1. 班會應該能使教師立刻評估全班學生的理解力。這應該是它的主要目的。

2. 應在適當的時候舉辦班會以總結學習情況，而且不一定非安排在學期末。小型班會可以在課程過渡階段作為進行評估的一種有效形式，但要確保學生學到新知或得到鞏固是小型班會的核心，而不僅僅只是一次打鉤操作。

3. 班會應因班級所需而有所不同。這很麻煩！允許學生參加班會至關重要，但同時也需要一些挑戰以便于你評估他們不知道的東西。

4. 有效班會應該暴露學生的錯誤觀念；一旦確定有錯誤觀念，就需要當場解決或在隨后的課程中得到解決。

5. 班會應該給學生提供機會，讓他們反思自己學到了什么、怎么學的，并引導他們走向成功。

以下是一些我認為實用的班會策略實例，以及這樣做的原因。

1. RAG123

這是凱文·里斯特提供的一個有用的自我評估工具。學生從1到3評估他們對內容的理解程度（3代表“不理解”，而1代表“理解得最透徹”）。然后，他們用紅色、琥珀色和綠色的顏色編碼來反思自己的行為（紅色表示“學習分心”，而綠色表示“學習態度積極”）。這是一個很有用的練習，可以讓學生在課程或話題結束時進行反思，也可以讓教師從他們的RAG123分數中看出全班學生的自信程度。小心過猶不及，但是作為一名教師，你也有機會給你的班級評分，并為班會設定任務，推動他們進入下一學習階段。

2. 課堂反饋條

課堂反饋條、表情反饋、網絡反饋：這種類型的班會已經在很多方面進行了調整。從本質上來講，這是學生向教師反饋所學知識的一種方式。教室應用程序Socrative上的反饋功能很受歡迎；它節省紙張并且很容易看到反饋。設置只需幾秒鐘，并且學生總是會被問到一系列相同的問題：

● 你對今天的材料了解多少？
● 你在今天的課上學到了什么？
● 請回答教師的問題。

教師的問題是一個重要的評估機會，用以評估學生是否可以運用自己所學知識——記得讓問題有區分度，以查看是否所有學生都可以將知識應用到新情況中。

3. 擊掌

學生們在一張廢紙上或書上畫出他們的手，并在每個手指上寫下以下文字：

● 豎起大拇指：你學到了什么？你了解什么？
● 食指：你今天使用了什么技能？
● 中指：你覺得今天哪些技能比較難？
● 無名指：你如何投入到今天的學習中？你今天幫助了誰？
● 小拇指允諾：你會保證從今天的課程中記住什么？

這是一種構建學生反思時間的方法。它允許程度最差者慶祝他們的成就，并鼓勵最優者思考下一步的學習。你還可以將手用作規劃工具，查看手部的關鍵部位，以查看下一節課需要重點關注的內容。

4. 關鍵詞bingo游戲

關鍵詞bingo游戲是班會的一個經典想法，如果使用得當，它會是很好的鞏固和評估工具。認真設計線索并提問班上學生，可以幫助你評估他們對學習內容的理解程度，可以讓你鞏固整個話題中的關鍵詞，以評估他們記住了多少之前學習的內容。

5. 小測驗

玩“誰想成為百萬富翁？”或“震撼大片”可以真正吸引學生并評估他們所學內容。菲爾·比德爾建議在課堂上使用復雜的測驗來獲得最大的效果。讓學生自己制作測驗卡片可以讓他們鞏固更深層次的知識，也可以讓你更有效地評估他們對知識的理解。告訴他們需要制作難度逐漸增加的卡片，以區分任務，然后用它們來測試其他同學。

書面評分通常是為外來聽課者提供的。多年來，這個問題一直影響著教師的工作量和心理健康。我認為口頭反饋應該是所有學校的默認方法，因為它提供即時、有針對性的反饋來幫助學生學習，而不是在幾周后——這時學生早已忘記了作業或已經學習了新內容。

2017年9月，我啟動了一項有關口頭反饋的研究項目，該項目有可能覆蓋到99 500名學生；全球6個國家的119所學校報名參加。值得慶幸的是，倫敦大學學院教育學院領導力研究中心已經開始了該項研究，以提高教師口頭反饋能力，并嘗試回答“在七年級或八年級，口頭反饋能在多大程度上改善弱勢學生的參與度？”截至2019年7月，早期研究發現鼓舞人心。一名教師報告，口頭反饋使她能夠花更多的時間在課程計劃上；而其他人則注意到他們與學生關系的變化，因為他們有更多的時間進行一對一的對話。

然而，在仍然期望教師保留口頭反饋的書面記錄的學校中，這些效果并不明顯。教師向學生口頭反饋他們應如何改進作業，然后讓學生在練習本上記下教師的要求，這仍然很常見！目的是什么？用來展示證據和進展；用來表明教師給學生的反饋是有意義的，學生正在根據這些反饋采取行動。例如，麥吉爾先生對你的工作進行詳細審查，或突然出現在你的教室里聽課，并希望看到學生按照教師的指示行事的確鑿證據時，這基本上就是證據。由于反饋卡片和貼紙的使用，這塊蛋糕已經完全烤焦了。雖然這有助于減少教師們需要反復提供的書面陳述（因為貼紙可以讓學生記錄他們需要做什么），但有必要自問，學生是在為自己記備忘錄，還是在為聽課者記錄。

學生希望從口頭反饋中得到什么

考慮學生對口頭反饋的看法也很重要。凱蒂·克爾對此進行了研究。她的發現表明，“學生將口頭反饋視為焦點對話的一種形式，它不同于正常的課堂對話，可以通過諸如個人目標和任務目標等信號來識別”。克爾還發現，學生們希望通過與教師的對話獲得清晰的答案，并認為情緒、氛圍和期望會影響他們對反饋過程的體驗。

鑒于此，給所有教師的一個最重要的建議是，創造一種能夠提供快速、有意義的反饋的方法，并讓學生知道這是為他們量身定制的，讓他們感到自己很特別。我多年來使用的方法是，在教室的一個區域布置一個“反饋區”，學生可以在那里向我詢問有關其作業的反饋。在準備結束與這個學生的談話之前，堅決不要讓別的學生打斷你們的談話。當你再抬頭看時，三四個學生正安靜而禮貌地排隊等著問你問題，這就是它起作用的跡象。

實時評分

彼得伯勒的一所小學已經取消了評分，并引入了一種稱為“會議”的口頭反饋方法。教師每兩周與每個學生至少進行一次一對一的“會談”，以開放和坦誠的方式討論他們的作業，并一起修改作業。這種形式的口頭反饋減少了教師的工作量，使教師有更多的時間來進行課程規劃。一名學生說：“這更輕松，因為我不喜歡用紅筆批改的作業。”教師們發現，口頭反饋能鼓勵學生以更批判性的方式思考作業。這是個好主意！

我的理解是，這個過程就是實時評分：教師在課堂上挑選一小群學生見面，并為他們提供某種形式的針對性評估。這個來自小學的概念之所以如此特別，是因為該小學校長決定，她的教師在進行評估時，不應該帶任何練習本回家。這絕對是好事一樁。你的學校不要嘗試一下嗎？

2018年，英國教育部公布了從2020年秋季起，英國所有小學生（最早4歲）在小學開學前將參加新的摸底考試（又叫基線評估），該考試將用于衡量學生在小學所取得的進步。

評估和考試？是的。會增加教師和學校的工作量嗎？在短期內，可能會。更重要的是，這將對學生的學習和心理健康產生怎樣的影響？它將如何告知家長他們孩子的進步情況？

世界上沒有任何測試能夠成功地預測一個4歲大的孩子11年后的結果。相反，我認為更好的方法是使用低風險、形成性的方法定期對學生進行評估，以便我們能夠不斷適應學習過程，確保學生得到最大的支持，幫助他們取得進步。在不影響學生心理健康或教師工作量的情況下，有一種方法可以定期對學生進行評估，只需輕點鼠標就能提供實時、準確的信息，并可嵌入日常的課堂實踐：它就是人工智能。

什么是人工智能

人工智能是計算機系統的發展，可以在策略和推理的基礎上，執行人類通常使用算法和數據完成的任務。對一些人來說，開發一種能像人類一樣思考和行動的機器可能聽起來很可怕，但正如全球教師獎提名者、《第四次工業革命中的系統與教學變革》（Flip the System and Teaching in the Fourth Industrial Revolution）的作者耶爾默·埃弗斯所寫，人工智能的真相似乎更加微妙：

“（人工智能）確實會對我們的教學、生活、工作和學習產生重大影響，但這不會是世界末日。因此，它將從學生的角度——作為學習者——以及從教師的角度——作為專業人員——對教育產生影響。”

人工智能在課堂上用處有多大

在評估學生和個性化學習方面，人工智能可能是一種非常有用的工具，有很多公司使用這種技術為教室開發應用程序和軟件。世紀科技（CENTURY）就是這樣一家公司。它的人工智能平臺為教師們提供了對學生學習的詳細見解，使他們能夠做出明智決策，從而在課堂上產生最大影響，同時減少在評分、數據錄入和報告上花費的時間。

該平臺提供了一個有趣的多媒體學習資料庫，這些資料由教師搜集，并與國家課程相對應；學生可以學習多媒體內容和考試入門課程。教師也可以輕松地創建自己的課程和評估。學生可以訪問學習內容，而人工智能則為學習者提供了一個適應性的、個性化的學習過程，并提供連續的形成性評估和反饋。

世紀科技收集每個學生的成就、技能和知識的有關數據。這些洞察通過實時指示盤反饋給教師，使他們能夠基于證據對學生實施干預措施。最機智的部分是人工智能，它為學生創造了個性化的學習體驗。在后臺，“機器學習”（人工智能的一個分支）根據算法數據確定下一個要學習的最佳主題，對屏幕上學生的細微行為進行分析。學生還會收到基于個人努力和成就的個性化信息，這一功能基于認知神經科學。人工智能為減少教師工作量提供了絕佳的解決方案，也為學生提供了獲得即時反饋和個性化學習的途徑。

作為一名教師， 25年來，我一直努力讓每個班的30名學生都能享受到這種個性化的教學方式，通過了解知識和技能、優勢和需要改進的領域，這些數據為教師提供了可靠的證據基礎，以跟蹤學生的努力和動機。還有什么更好的方法可以根據需要促進有針對性的干預？

學校案例分析

學校名稱：雷頓小學

位置：布萊克浦，蘭開夏郡

背景：雷頓小學位于布萊克浦市市中心，離著名的愛爾蘭海沿岸區和158米高的布萊克浦塔有一段距離。附近還有其他五所當地學校，雷頓小學是一所混合型、無教派的公立小學，主要招收4到11歲的學生。這是一所每年級3個班的學校，目前有604名學生在冊，其中絕大多數是英國白人。貧困學生比例高于全國平均水平；50%的孩子都需要教育補助。

在全盛時期，布萊克浦因20世紀初至50年代的旅游業而聞名，但自2001年以來，布萊克浦的當地人口一直在下降。現在，這個小鎮的抗抑郁藥物處方率在英國排名第四，教育部發現它是英國最貧困的海濱小鎮。盡管在布萊克浦生活和教學存在挑戰，但它仍然是英國最受歡迎的海濱度假勝地之一，而其西北地區仍然是深受教師歡迎的地區。

為什么這個領域是你們學校的強項

學習評估，或響應式教學，是教學內容和教學方式的基石。評估以實時、每日的形式對教師的提問和決策產生影響，以便教師在教學時對課程進行調整，通過前前后后、層層理解，解構并重建概念，以讓孩子們對所學的概念有更深刻的理解。

通過觀察教師對學生日常的反應，我們可以了解教師在這方面的能力有多強。教師通過對話式教學，引導學生探索自己的理解，并了解彼此的理解，能夠運用口頭和書面解釋展現自己對學習原則的深刻理解。任務的焦點是學習而不是完成任務，孩子們必須表現出已經理解，并開始探索糾正這些錯誤的方法。

應將錯誤當作學習機會，孩子們在克服障礙中已經開始進行自我批評和反思以促進更好的理解。教師們應認識到這一點，并探索如何將其融入到為孩子們提供的機會中。

你們學校是如何做到的

在全體員工中培養理解力是確保教師理解學習方式和學習內容的關鍵。如果你問學校的教職工學習到底是什么，很可能每位教師都會給出不同的答案；教師們常常忙于設計課程以及思考要做什么，往往沒有時間去關注為什么要做。

我們的重點一直是學習，其次是了解如何使孩子們學得最好，以及我們作為教師如何在整個課程中通過課堂輸入做出反應，以促進理解。為了做到這一點，我們最初專注于如何提出正確的問題，以便理解孩子們在哪些方面存在誤解，以及誤解存在于學習理念建構中的哪些地方。這在我們學校取得了很大的發展。幾年來，以計劃為導向的課程工作導致教師們把重點放在授課上，而不是培養嵌入式深度學習的技巧。

表面的理解和信息范圍被優先考慮，調整實踐以適應學習者的需求卻不被重視，完成作業更是優先于培養理解能力。建立對響應式教學的深刻理解花費了三年多的時間；可學校仍然過于注重完成任務和改進工作，而不注重學生。于是，我們進一步把注意力轉移到獨立性上——如果孩子們能夠提出自己的問題，并培養識別自己和他人的誤解的能力，用口頭和書面的方式來證明概念，并解釋和擴展想法和概念，那會怎么樣？

為此，我們開發了對話教學法。由于教師可以在課堂上采用多種方法，為確保成功，我們專注于培養教師的決策能力，該決策能力基于課堂上任何特定時間學習的證據和分析。為了實現這一目標，教師們需要在低風險、不斷發展完善的文化中進行合作。團隊教學在我們學校很常見，他們作為團隊一起規劃，有一名高層領導參與其中；有一個開放性政策。全體教職工，包括學校領導和校長，都參與教學，并邀請他人參與觀察、提供反饋。教學是一個不斷學習的過程——無人例外；我們每個人每天都在犯錯。這種協作方式培養出的是在瞬間成功做出反應的教師，而不是在課后、評估后或一周后才做出反應。

其他教師和學校領導如何將此應用于他們自己的實踐和學校環境

大多數教師，包括我自己，都是從作為一位新入行的合格教師（NQT）開始進行課程規劃的，并下定決心要開發一系列的課程，以在30名學生中建立對概念的理解。工作計劃、出版資源和國家戰略都是根據這一教學理念擬訂的；課程內容的信息的覆蓋范圍將影響理解——只要我們能以正確的方式涵蓋正確的事情，孩子們就會形成良好的理解力。所有計劃都側重于教師應該教什么，從而讓教師成為授課的主人。在這樣做的過程中，我們發現教師變得不熟練，并在理解和處理學習問題方面缺乏信心。國家戰略于1997年和1998年相繼出臺，這意味著這種課程開發方法已經提倡了大約20年。

我們發現，通過專注于發展對學習的理解、評估學習和對話式教學，提高對教師為何應采用不同方法的理解，培養教師發現孩子們的誤解以及解決該問題的能力，教學課程變得不言而喻。教師知道孩子能做什么，不能做什么；反過來，孩子們知道哪些概念是穩固可靠的，哪些是需要擔憂的。這樣一來，課程本身就顯現出來了。教師不需要計劃，因為任何工作計劃都不能解決他們自己和班級內部所發現的問題——他們自身理解的差距。

結果一直很好。孩子們成績非常好；學生群體之間沒有明顯的差距，而且已經六年沒有差距了。結果并不取決于教師；在過去的六年中，六年級和二年級都沒有相同的教師。受補助學生的成績通常與沒有免費校餐的學生一樣好，甚至更好，而且所有學生的“附加值”都很高。

學校文化對提高和保持這樣的高教學水平至關重要。隨著時間的推移，觀察成了學習走訪，任何評價都成了發展的指導課程。與教師一起規劃課程發展成團隊教學、團隊評估和一種我們互相觀察和批評的文化。視頻短片被拿來共享，關于學習的對話不僅在教師中，而且在學生中都變得司空見慣。蓋伊·克拉克斯頓提出的成功學習者的兩個關鍵特征：適應能力和反思能力，不需要分別給予關注；這是孩子們學習方式的關鍵部分。

為什么這會起作用

——普利亞·拉克哈尼，大英帝國官佐勛章獲得者

通過在世紀科技（CENTURY）工作，我有幸遇到了數千名勤奮工作的教師，他們所有人都懷著真誠的熱情去改變世界，以求更好。然而，這種想做好事的愿望卻受到了工作量危機的阻礙，這個危機使得教師隊伍在以驚人的速度減少。造成這一危機的最大因素之一是，世界各地的學校普遍采用的傳統評分和評估方法。羅斯將這些領域確定為積極改革的最緊迫目標，這樣做是正確的，如果這些問題得到解決，最終將充分發揮優秀教育工作者的才能。

某種形式的進步衡量是可取的，很少有人會不贊同這種觀點，但很大程度上出于外部壓力，太多學校一年里很少進行數據分析。這不是世界上任何高效行業對待數據的方式；數據分析應該是持續的幕后過程。以這種方式分析數據，可以使教師更精準地實施有針對性的干預措施，因為他們可以用更準確的數據做出決策。

現在，技術可以為教師提供每個學生的詳細情況，使他們能夠根據學生的個人需求進行及時、有針對性的干預。在世紀科技我們一直與教師合作開發技術，通過該技術，教師可以詳細了解每個學生的表現和進步，而部門主管和高層領導可以對每個班級和科目進行比較，從而提供一個更廣泛的學校成績數據導向視圖。任何人都不必再填寫另一個Excel電子表格——這些表格全部是自動收集和分析數據的，并直接提供給教師，賦予他們作為教育者的權力。

當與神經科學和學習科學觀點相結合時，人工智能是解決評估困境的關鍵。人工智能可以跟蹤每個學生對學習材料的反應——不僅可以跟蹤他們是對還是錯，還可以跟蹤他們的每一次互動或動作，包括他們是否在猜測、分神或猶豫。隨著系統自行學習，基于人工智能的評估可以比傳統評估考慮更多的變量，從而考慮到每個學生的個體差異。我們知道，掌握正確的數據可以對結果產生重大影響——與人工智能結合使用，可以完全改善教育水平。如果醫生和工程師使用成熟的技術改善他們的工作表現是可接受的，那么教師又何樂而不為呢？

普利亞·拉克哈尼是世紀科技的創始人兼首席執行官。世紀科技是一家屢獲殊榮的面向中小學校和大學的人工智能教學平臺。

1　PISA：Program for International Student Assessment，國際學生評估項目。——編者注

2　PIRLS：Progress in International Reading Literacy Study，國際閱讀素養進展研究項目。——編者注

3　從階段來說，英國的義務教育體系分為四個關鍵階段（key stage），關鍵階段1 （key stage 1）為1-2年級（5-7歲），幼兒學校；關鍵階段2為3-6年級（7-11歲），小學；關鍵階段3為7-9年級（11-14歲）；關鍵階段4為10-11年級（14-16歲）。其中，關鍵階段3和4為中學第一階段。一旦學生完成義務教育，可以選擇進一步接受教育，即所謂的中學第二階段“第六學級”。——編者注

4　教師對教室里發生的事情知之甚少。教師從學生的課堂表現來判斷自己的教學進展如何。能力越強的學生對學習內容的討論越多，也因此越活躍。教師判斷教學效果的證據多來自這一部分學生。——編者注

官术网_书友最值得收藏!

如何解決課堂上最關鍵的9個問題

第一章 評分與評估

第一章　評分與評估