Betyg som räddning: perspektiv från andra sidan Atlanten

För svensk del har betyg länge och av många setts som ett “otyg”. I synnerhet betyg till elever i grundskolans tidiga år. Jag har själv argumenterat för att undvika tidiga betyg, framför allt mot bakgrund av att betyg missgynnar de redan missgynnade. Vid mitt senaste besök i USA blev det dock tydligt att jag missat en viktig aspekt av betyg: betyg som ett ljus i testtunneln.

Jag har framför allt fokuserat på likheter mellan betygs- och testkritik, mot att reducera barn och skolans resultat till siffror och mot att få barn att dömas ut redan innan dom fått en ärlig chans i livet. Men saker och ting är sällan goda eller onda i sin egen rätt, utan allt är beroende användning och sammanhang: Betyg kan faktiskt framstå som en räddare i nöden.

Vid årets stora amerikanska pedagogkonferens AERA hölls en session på temat 100 år av betygsforskning: 100 years of grading research: Meaning and value in the most common educational measure. Seminariet anordnades av några av världens främsta betygsforskare: Susan Brookhart, Thomas Guskey, Alex Bowers, James McMillan, Megan Welsh, Jeffrey och Lisa Smith. Resultatet ska publiceras i en av AERAs topprankade tidskriften inom utbildningsområdet.

Det första som ska sägas är att det ingalunda var en homogen skara forskare som presenterade, även om de enas av sitt intresse för betyg. Det andra att betygsforskning sträcker sig längre tillbaka i tiden än 100 år. Avgränsningen gjordes för att anknyta till AERAs hundraårsfirande.

Anledningen till att USA tidigt övergav betyg till förmån för test var att forskare dömde ut betyg som ett opålitlidgt mått, som ett ”hodgepodge”, ett hopkok. Eller som Swineford uttryckte det 1947: det är uppenbart att betyg är ett tillförlitligt mått på något, vi vet bara inte vad.

Bild från Bowers föredrag. What is it that grades asses? ”In any event, the data [in this study] clearly show that marks assigned by teachers in this school are reliable measures of something but there is apparently a lack of agreement on just what that something should be. – Swineford (1947)

Brookhart gav i sin presentation exempel på forskning som pekade på otillförlitligheten i betyg redan från 1888 (se bild nedan). Troligtvis finns det ännu tidigare exempel på forskning på otillförlitlighet i lärarsatta betyg. I början av 1900-talet börjar forskare att försöka föreslå vägar framåt och det är då de första förslagen på standardbaserad/kriteriebaserad betygssättning kommer.

Edge worth (1888): Three sources of error in grades: chance; personal differences among graders; taking examinee answers as representative of proficiency (generalizing to domain)

Sources of variation in grades: Criteria; Scale; Task; Students’ work quality; Teacher error. Brookhart listar här tidiga studier som påpekat brister i lärares betygssättning.

Conclusion: Variability can be greatly reduced: clear criteria; agreement on the weights of each criterion; criteria about learning, not following directions.

Ovan, bilder från Brookharts presentation. Sist hennes slutsatser om vägen framåt mot att stärka betygens tillförlitlighet: tydligare kriterier, ökat samsyn kring viktning av olika kriterier samt att undvika att bedöma annat än sådant som har med lärande att göra.

Den väg som Brookhart pekar ut för att öka tillförlitlighet och likvärdighet i betyg drar mot mer standardbaserade principer för betygssättning. Det finns dock uppenbara risker i att gå denna väg, i att gå mot att allt mer spela på testernas bedömningsdomän där det är (hyfsat) tydligt vad som bedöms och hur. Betyg kommer alltid bli slagna av test – ”det kommer fortfarande finnas variation i betygssättningen”, som Brookhart konstaterade.

Det finns dock ett annat sätt att se på betyg kontra test som jag tycker tydligare pekar ut en möjlig väg framåt. De tyngsta och tydligaste argumenten för detta gav Bowers i sin presentation.

Bowers menade att oavsett de framsteg som gjorts när det gäller betygssättningens principer så talar 100 års betygsforskning sitt tydliga språk: korrelationen mellan lärarsatta betyg och test har varit och är fortsatt 0,5 (bild från Bowers presentation nedan. 0,5 = 25 procent gemensam varians).

Man kan dra olika slutsatser av detta menade Bowers: Ett är att man som betygsförespråkare kastar in handduken till förmån för test. Ett annat att ta fasta på just detta att betyg ger en kompletterande bild av elevers kunskaper och förmågor jämfört med test. Betyg verkar framför allt vara ett bra mått på socioemotionella kunskaper, vilka bättre än testresultat korrelerar med elevens förmåga att lyckas i skolarbete och på arbetsmarknaden. Både betyg och test behövs därför i ett utbildningssystem, menade han.

Both tests and grades are useful but orthogonal measures of what we want out of schooling as students learn cognitive and conative skills (engaged participation). (Bowers, AERA 2016)

Det kan ju som parentes sägas att det finns forskning som pekar på just det, att en kombination av lärarbetyg och test kan ge än bättre information om elevers förmåga att lyckas i sina fortsatta studier jämfört med dessa mått var för sig. Detta talar för att det bästa måttet vid antagning till högre studier skulle vara en kombination, vilket det finns exempel på länder som tillämpar.

Det blev också tydligt under sessionen att den forskning som framför allt intresserar mig och mina kollegor i Sverige, den om hur betyg påverkar undervisning och motivation, lyser med sin frånvaro i den amerikanska betygsdebatten. Och det kan man förstå när alternativet är flervalstest som i USA.

Sammanfattningsvis pekar allt mot att betyg och test båda kommer vara viktiga delar av resultat- och utvärderingssystem i skolan även framöver. Det vi måste lära oss mer om är relationen mellan betyg och test, vilka styrkor dessa båda har och vilken riktning de bör utvecklas för att deras respektive styrkor ska stärkas. Något som bör ske med hänsyn till betyg och test som kompletterande resultatpraktiker, inte uteslutande.

Jag tycker detta sänder en tydlig signal till den svenska betygsdiskussionen: det handlar inte nödvändigtvis om att söka ”tydliga kriterier”, snarare om att lyfta fram och vårda betygens styrkor och fördelar jämfört med test och snarare fokusera på hur man trots betygens brister kan skapa legitimitet i betygssystem. Allt tyder på att Björklunds tjat om ”tydliga kriterier” och den senaste revisionen av vårt betygssystem snarare lett till minskad legitimitet för betyg.

Slutligen, skillnaden mellan kontinenter och traditioner blev än mer uppenbar när forskarparet Smiths kort nämnde Europa och gjorde sig lustiga över det samelsurium av olika betygssystem som finns där. Det ser så olika ut att europerna tvingats införa ett byråkratiskt översättningssystem, ECTS, menade herr Smith och skrattade. För mig som betygsforskare blev det, för att citera förordet i en lärobok i naturvetenskap för barn från 1828, tydligt att “all möda oaktadt, mycket ligger för oss inswept i mörker.” Betygs- och testdebatten lär fortgå.

Skolöverstyrelsen.se

En forskarblogg om skola, utbildning och utbildningsvetenskap

Betyg som räddning: perspektiv från andra sidan Atlanten

Lämna ett svar Avbryt svar