當前位置:首頁圣陶資訊

圣陶資訊

圣陶教育|張民選:基礎教育評價改革的六大趨勢



2020年,國務院印發(fā)的《深化新時代教育評價改革總體方案》明確提出,到2035年,基本形成富有時代特征、彰顯中國特色、體現世界水平的教育評價體系。黨的二十大報告也強調,“完善學校治理和教育評價體系”。


在評價改革過程中,遇到“改革高原”的時候,怎么辦?有一個思路是,堅持“教育要面向現代化、面向世界、面向未來”,“堅持對外開放的基本國策”,堅持“高水平對外開放”,“拓展世界眼光,深刻洞察人類發(fā)展進步的潮流……以海納百川的寬闊胸襟,借鑒吸收人類一切優(yōu)秀文明成果”,在此基礎上形成中國式現代化,實現中華民族偉大復興,推動建設更加美好的世界。


在這樣的思想指引下,我研究了全球關于基礎教育評價的前沿研究,包括來自聯合國、世界銀行、經濟合作發(fā)展組織以及歐盟、東盟等發(fā)達國家的文獻報告。


這些報告呈現了基礎教育評價改革的六大趨勢,我們可以從中汲取營養(yǎng),以促進中國式教育評價體系的建立,牽引基礎教育的高質量發(fā)展。


從一次性、單向性的評價
轉變?yōu)槌掷m(xù)性、綜合性的監(jiān)測

過去,我們對學生、教師和學校的評價,往往是單項評價?,F在,迎來了大的轉向。轉向的標志性成果是,2002年聯合國教科文組織開始聘請第三方監(jiān)測各國教育發(fā)展概況,每年發(fā)布監(jiān)測評價報告。而且,檢測與評價不是分開的兩個詞,而是合成的一個新詞叫M&E(monitor & evaluation)。

評價具有滯后性,總是事后去檢查。但對教育來說,滯后性往往是致命的。生命只有一次,滯后不僅意味著浪費金錢和人力,也可能導致浪費孩子們的生命;對國家和社會來說,也可能導致浪費潛在的人才。比如,一個玩沙子的孩子組織能力很強,將來可能當將軍,結果老師說孩子太皮了,也許就抹殺了孩子的天性,未來也少了一位將軍。因此,人們開始考慮另外一種方向。

那么,什么是監(jiān)測呢?有學者在2001年指出,監(jiān)測是一種具有內在動機且精心設計的評價活動,旨在對一個項目持續(xù)提供多側面的信息反饋,從而發(fā)現實施過程中的問題和實施的效率效益。

什么又是教育監(jiān)測?它是一種教育評估,但監(jiān)測的是教育事業(yè)或教育項目,在其實施過程中進行。它通過在第一時間向決策者和實施者提供早期、具體、多維的操作和信息,不斷修正偏差,以完善教育目標與方案、調整過程與配置、選擇適恰的教學方法技術,從而確保既定教育目標的實現。我覺得,這是教育評價應該有的方向。


正因如此,聯合國教科文組織從2002年起,每年既有總體性的評價,又有重點項的監(jiān)測內容。比如2003年,基于數字化盛行的時代背景,將“數字化轉型監(jiān)測”定為報告主題,并監(jiān)測各個國家的實施情況。OECD的PISA三年一次,可以監(jiān)測每個國家在完成義務教育階段時的學生發(fā)展水平和政策導向。

英國教育質量標準局對學校的評估和監(jiān)測,分為“優(yōu)秀、比較好、一般、需改進”四個層次。越優(yōu)秀的學校,監(jiān)測的間隔時間越長,可能四年到校監(jiān)測一次,每年學校僅提供自評報告給質量標準局;有問題、需改善的學校,則每年參與兩次評審,不斷監(jiān)控學校發(fā)展過程。

因為上海參加了PISA,同時結合本地需求,我們設計了《上海市義務教育階段學生學業(yè)質量綠色指標體系》。評估每兩三年舉行一次,包含學業(yè)成績、學習動力、學生負擔、教學方式、體質健康、師生關系等。

下圖是一所學校2014年和2015年的兩次評估結果,呈現了10個向度的指數情況。評估結果反饋給校長,就能幫助學校不斷調整發(fā)展方向,越辦越好。2018年,我們對方案進行了修改,讓評估更完善。


從對學校和教師的評價
轉向同時關注對地方政府的評價

我們當然希望一個好校長帶出一所好學校,但公立教育,特別是義務教育的均衡與質量水平,不但有賴于教師和校長,更取決于地方政府的教育政策、經費資源、人力資源和生源配置。

OECD的PISA測評中,上海成績第一。成績背后,與學生認知發(fā)展、投入方法、投入多少有關,也與學校差異有關。那么,學校間的差異由什么造成?學校內部哪些是更重要的因素?高水平家庭的孩子進了好學校,農民工子女進了差的學校,原因是什么……于是,政策和資源配置的問題就出來了。

綜合來看,政府的四大配置決定了學校發(fā)展水平——

  • 管理資源配置:包括校長配備、財政經費、自主空間,比如,財政經費好的學??赡茏杂蓹啻?,差一點的學校反而錢不足;

  • 物質資源配置:包括校舍場地、信息資源、實驗設施;

  • 環(huán)境資源配置:包括學生來源、專業(yè)合作、社會支持,比如優(yōu)秀學??梢匀≌猩胀▽W??赡苤辉诒窘值勒猩?;

  • 人力資源配置:包括師生比例、優(yōu)秀師資、進修機會。

沒有種種資源,一個好校長有時候也辦不了一所好學校。所以,教育評價包含對政府的督導,是好的轉向。

聯合國教科文組織2017和2018全球教育監(jiān)測報告的主題是“教育問責”,指向“政府到底怎么做”。中國的《評價改革方案》也強調“各級黨委和政府要堅持正確政績觀”,符合國際趨勢;同時,以學生評價、政府評價、學校評價、用人評價、教師評價構成系統,與OECD的評價系統完全一樣??梢姡覀円呀涀叩绞澜绲那傲?。

但是,實際辦學過程當中,我們還是可以看到學校間的差異。關于學校差異對學生成績的影響力水平,OECD統計顯示,學校與學生數學成績之間的方差占比平均值是37%。芬蘭的學校高度均衡,只有8%;上海的初中是29%,高中是58%,折算后上海整體變成47%,差異驚人。過去幾年上海為什么堅持“均衡優(yōu)質”,原因就在這里。


從“對教師的評價”
到“為教師的評價”和“教師自己的評價”

在教育評價中,對教師的評價起步較晚。美國從1957年開始做教師評價,由于當時主要評價是課程評價,但直到80年代評價工作仍未完成,教育質量仍然不好。于是,美國開始把教師單拎出來進行評價,但那時主要是問責式評價,“看看老師在哪些地方還沒做好,以提高教育質量”。

因此,目前對教師的評價,是以行政管理的方式推進,按照績效獎懲教師,對教師教育質量的推動作用非常有限。學者們認為,教師評價更應該轉變?yōu)椤盀榱私處煂I(yè)發(fā)展的評價”,因為教師專業(yè)水平提升,教育質量就會隨之而提升。

此外,沒有兩個教育情景完全相同,忽視了教師個體差異而進行評價,一定會引起內卷,讓老師身心疲勞;反過來,“躺平”也會降低教師的幸福感。

那教師評價到底怎么評?

  • 對教師的評價

以教師為對象,檢驗他們的履職程度當然很重要。它本質上是一個由外向內的問責,包含遵紀守法、履約敬業(yè)、達成目標、檢驗績效高低等方面,以此獎優(yōu)懲懶,提升教師效率。但是,它容易進入精致主義層面,而且是無意義的精致。

當然,對教師的評價還要兼顧多層次、多工具的評價,其核心是保障公平。但它的弱點是有“反駁效應”。比如設立“五唯”指標,那就可能出現只圍繞指標做事而忽略其他事項的情況,同樣會影響孩子的健康成長。本來目的是監(jiān)測,結果變成“你評什么我就干什么”。久而久之,它會產生競爭內卷和躺平。因此,要追求“去反駁效應”。

  • 為教師的評價

促進教師專業(yè)發(fā)展的評價,則是一種協作互信、講究反饋和改進、內外結合的專業(yè)指導。它重視教師的發(fā)展過程,重視發(fā)現教師間的差異,并據此完善教師的行動,提供反饋建議。

這種評價的條件是要看輕利害,不以獎懲為主,力求真實,分析教師的行為,進行建議指導。

  • 教師自己的評價

所謂教師自己的評價,強調內在主體需求的升華。教師愿意自己測評,愿意參與評價的設定,進行反思研究,凸顯教師自己的專業(yè)特色,提升能力。

這種評價的條件是提供參照,提供最佳案例,以及通過技術支持進行自診自評,發(fā)現優(yōu)勢弱點,提高自我效能。

上海奉賢中學,在教師評價中專門設立了“教師自設性挑戰(zhàn)項目評估”。教師自己提出來明年想做的兩件事,個人申報,立項審核,過程中學校給予指導,最后總結評價,實現了教師自主立項、學校評估。


上海一師附小搭建“教師發(fā)展評價系統”,讓教師個人和集體都明白:自己在哪里(起點);可以到哪里去(方向);如何達到(措施);如何知曉有沒有到達(評價)。由此,形成了這樣的教師成長框架:我現在的狀況是什么?(自我分析、自我定位)→ 我努力的方向(鎖定目標、細化步驟)→我采取的措施(投入研修、學習實踐)→ 我的目標達成(互評總結、持續(xù)發(fā)展)。這一過程可以通過自我評價、合作評價、發(fā)展評價來推動實施。

上海閔行實驗小學將“基礎性評價”和“發(fā)展性評價”并舉(70%-30%),努力保障教師有自己選擇的權利和發(fā)展空間。學校在設計評價方案時適度“留白”,邀請教師參與、鼓勵教師首創(chuàng);建立個性發(fā)展平臺,提供專業(yè)成長的選擇性路徑;激活教師的內在發(fā)展自覺,揚其長、成其能,讓每個人的優(yōu)勢真正表現出來。


從“基礎知識測評”
轉向“基礎知識”與“核心素養(yǎng)”并舉


以PISA為例,上海從2009年開始一直領先于全世界,大家都覺得上海是最好的了,其實不然。將所學的基礎學科知識和技能運用到不同場景中去,主要是基礎素養(yǎng)。而完整的素養(yǎng)框架,還包含計算機問題解決、財經素養(yǎng)、協作問題解決、全球勝任力、創(chuàng)新能力,這些才是核心素養(yǎng)勝任力。在這些勝任力中,我們一個第一也沒有。

在PISA2012以計算機為工具進行的一項學生評價中,中國的成績是全世界第六(536分),看上去還不錯。但當我假設“閱讀、數學、科學知識學習越好,成績越高,就越能夠解決問題”這樣一個命題,重新排名,上海就墊底了。


可以看到,韓國(561分)、美國(508分)、新加坡(562分)等地分數是正相關的,即“閱讀、數學、科學學得越好,解決問題的能力也越強”,但中國是負相關的,而且是全世界最厲害的。我們原來閱讀、數學、科學是全世界第一,但是負相關50分,問題解決的能力就排到18位了,真的成了“高分低能”。

問題在哪?PISA描述得很清楚——對老師培養(yǎng)學生解決問題的能力沒有進行深入研究。

什么叫提升學生解決問題的能力?首先,學生有沒有意愿參與這樣的認知過程,是不是有利于學生個人潛能的發(fā)揮?問題有沒有不同的情景?問題解決過程是什么樣的?配置與解決過程應該有哪些思維能力?……這些問題不搞清楚,怎么能提高學生解決問題的能力?我們目前的問題就在這里。


教學評價仍是核心,走向多維評價


教學仍是重要的評價方式,而且評價維度在不斷精細化。原來我們只講教學,但其實教學可以分成課堂管理、教學質量和情感支持三個維度。

我們參加了一項全球性的教學視頻研究,每個國家85位數學教師,每人上兩堂課(“一元二次方程”),錄制上課教學行為的視頻,進行同課異構,觀察其中差異。下圖是對比情況。


可以看到,我們的課堂管理(圖中灰色線段)是最強的,教師管理很厲害,高于日本、英國、德國三個典型國家。但是,我們的教學質量(圖中藍色線條)就差了,相當集中但是水平較低,在及格左右。看來,這么多國家都在搞教學改革,課堂卻還是比較傳統。在社情支持(圖中灰色虛線)中,我們也較差。


進一步細看,教學可以分成學科內容質量、學生認知參與、基于學生理解的評價與回應、課堂對話。我們只有教師的學科知識掌握第一,學生認知參與跌下來了,理解學生方面稍微好點,課堂對話較差。這些教學行為本身值得我們思考。


上圖是關于教學的情感支持,圖中越向右偏,說明對學生的支持越大。8個國家和地區(qū)中,情感支持我們最差。分析視頻發(fā)現,我們的課堂里,教師經常問大家“懂了沒有”??傻聡處煆膩聿粏枴岸藳]有”,而是經常問“哪幾位不懂”。學生回答“我不懂”,這時就是教學中的情感支持。所有的學生都愿意,也敢于在課堂上說“我不懂”。但是,我們的學生不敢說、不輕易說。

細分下來,對學生的情感支持又可分四個指標,我們的指標大部分都處于中間層次,有支持但不強烈。


信息技術運用
成為教育變革和教育評價的新杠桿


最后一個趨勢是運用信息技術,它正在成為一個新的杠桿。

首先,大家都把信息技術作為老師應該掌握的內容,但這方面我們不占優(yōu)勢。疫情之下,我們通過遠程教育,通過信息化,解決了所有同學不失學的情況。但是,數字化更應該是對每個學生因材施教,這個方面我們做得還不夠好。


目前,世界各國已經在向著上圖的方向發(fā)展,即學生有助學系統,教師有助教系統,這些系統都在大數據支持下不斷反饋。2021年,歐盟在“數字能力框架指南”的基礎上,研發(fā)了一套名為SELFIE的數字教育自我評價工具(分學校、職教、教師和學前版),可以供學校、教師和學生自測自評使用。

其中,對老師的評價分成“專業(yè)投入(9)、數字資源使用(5)、教與學(5)、學生測評(3)、賦能學習者(4)、提升學生數字素養(yǎng)(6)”等六個方面(括號中數字為指標數量),共設32項測評指標,每個指標又分成1~6的熟練水平。

比如,數字資源使用1指標,包含6個熟練度:水平1—我意識到;水平2—我試用過;水平3—我已使用;水平4—我可以在豐富的工具中挑選使用;水平5—我反思并重新設計與改進給孩子的東西;水平6—我可以自創(chuàng)并自設。

借助現代信息技術和數據分析,歐盟不僅給老師進行測評,還可以基于幾十萬教師數據提供指導:哪些方面你更強,哪些方面你還弱;并且給出提升的建議,幫助教師成長。



【版權聲明】文章來源:新校長傳媒、中小學校長論壇微信公眾號;

內容據作者在第二屆中國基礎教育論壇的報告整理。作者 | 張民選(聯合國教科文組織教師教育研究中心主任)。版權歸相關權利人所有,轉載此文是出于傳遞更多信息之目的。尊重原創(chuàng),如涉版權,請聯系刪除。




江蘇圣陶教育科技發(fā)展有限公司
地址:北京市中國人民大學匯賢大廈B座500室
郵箱:jsst@shengtaoedu.com
電話:4008072800
熱線:4008072800
關注我們: