Valet närmar sig och frågor om betyg och uppföljning av elevers kunskaper är som brukligt en viktig del av de skolpolitiska program som läggs fram. Ett antagande som ligger bakom betygens centrala roll är att de kan fungera som verktyg för att öka kvalitet och måluppfyllelse i ett skolsystem. Men vad vet vi egentligen om betygens effekter på undervisningen? På vilka grunder är det rimligt att anta att betyg förbättrar kvaliteten på arbetet i skolan och ökar chanserna att elever når målen? Vad säger forskningen?

Med anledning av att det utförts flera litteraturöversikter på området betyg och summativa bedömningar, varav ett par systematiska, så föll mitt val på att inte göra ytterligare en sådan översikt utan istället ta utgångspunkt i ett urval av dessa översikter i syfte att såväl fördjupa som problematisera de argument som framförs för och emot betyg (i avsnitt 2.1.1 behandlar jag studier som argumenterar för att betyg är bra, framför allt i relation till lärande och motivation). Jag har även undersökt betygens roll för tidig uppföljning och hur tydliga kunskapskrav fungerar i syfte att öka måluppfyllelse, men de kommer jag presentera vid senare tillfälle.

1 Urval av studier

I detta avsnitt listas samtliga studier som varit centrala i litteraturöversikten jämte argument för de urval som gjorts.

Den kanske mest omfattande och därtill mest systematiska litteraturöversikt som gjorts på området är gjord av Harlen och Deakin Crick (2002). Den är en självklar utgångspunkt, inte minst för att den även innehåller jämförelser med flera av de tidigare forskningsöversikterna på området.

Harlen, W., & Deakin Crick, R. (2002). A systematic review of the impact of summative assessment and tests on students´ motivation for learning. In: Research evidence in educational library. Issue 1. London: EPPI-Centre, Social Science Research Unit, Institute of Education.

Därtill har jag beaktat den senaste översikten som gjorts, vilket är:

Lundahl, C., Hultén, M., Klapp, A., & Mickwitz, L. (2015). Betygens geografi – forskning om betyg och summativa bedömningar i Sverige och internationellt. Vetenskapsrådet. Stockholm: Vetenskapsrådet. (se Betygens geografi)

Även den har använt sig av systematiska strategier, men inskränker sig enbart till forskning som publicerats 2002-2014, dvs. efter att Harlen och Deakin Crick (2002) publicerades och som därför inte täcks av den översikten. Tillsammans bildar dessa en heltäckande systematisk översikt över den forskning som gjorts inom engelskspråkig litteratur. Även i Lundahl et al. (2015) förs en jämförande diskussion med tidigare forskningsöversikter.

Så till en annan typ av studier som granskats i denna litteraturöversikt, de som tydligt argumenterar för att tidiga betyg är bra. För svensk del brukar det i betygsdebatten framför allt hänvisas till:

Sjögren, A. (2010). Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7. Uppsala: IFAU – Institutet för arbetsmarknads- och utbildningspolitisk utvärdering.

En mer djupgående analys av Sjögrens rapport ingår visserligen i Lundahl et al. (2015) studie, men Sjögrens rapport berättigar ytterligare beaktande då den kommit att väga tungt i den svenska betygsdebatten som argument för att tidiga betyg och för att högre krav är bra för annars missgynnade grupper i skolan. Inte minst spelar den en viktig roll för att understödja argumenten och förslagen i den promemoria som publicerades 2014 där tidiga betyg och tester föreslogs:

Promemoria 2014-08-20. U2014/4873/S En bättre skolstart för alla: bedömning och betyg för progression i lärandet. Utbildningsdepartementet.

När det gäller båda dessa rapporter har jag gjort en mer djupgående analys av den evidens och de argument som förs fram i dessa, bland annat genom att även gå tillbaka till de forskningsstudier som de båda rapporterna stödjer sina argument på.

För att kunna bidra till fördjupad diskussion kring betygens motiverande effekter har jag valt att komplettera med några nyare studier på området som inte täcks av forskningsöversikterna. Två av dessa studier är:

Brookhart, S. M. (2015). Graded Achievement, Tested Achievement, and Validity. Educational Assessment, 20(4), 268–296.
Grant, D., & Green, W. B. (2013). Grades as incentives. Empirical Economics, 44(3), 1563–1592.

Den förra är skriven av en av de ledande betygsforskarna internationellt sett och innehåller en kortare översikt av inriktningar inom betygsforskningen. Den senare ligger inom det tidsspann som täcktes av Lundahl et al. (2015), men ingick inte i deras urval då deras sökningar enbart använde sig av databaserna Libris, ERIC och ProQuest medan ovanstående nås via Business Source Premier och Google Scholar.

För att ytterligare belysa betygens effekter förs en teoretiskt förankrad diskussion kring detta. Några av de tidigare nämnda texterna inkluderar teoretiska resonemang (framför allt Grant & Green, 2013). Utöver dessa har jag valt att ta med följande två texter som sammanfattar mycket av de senaste insikterna på det teoretiska området:

Yeager, D. S., Henderson, M. D., Paunesku, D., Walton, G. M., D’Mello, S., Spitzer, B. J., & Duckworth, A. L. (2014). Boring But Important: A Self-transcendent Purpose for Learning Fosters Academic Self-regulation. Journal of Personality and Social Psychology, 107(4), 559-580.
Klapp, Alli (2015a). Bedömning, betyg och lärande. Lund: Studentlitteratur.

2 Betygens inverkan på motivation och lärande

När man ska belysa det vi i Sverige kallar betyg måste man fråga sig vilket mer generellt fenomen våra betyg är uttryck för (jfr “funktionell ekvivalent”, kapitel 1). Enligt Lundahl et al. (2015) kan betyg ses som en summativ bedömning:

Betyg […] en summering och sammanfattning av elevens lärande vid en viss tidpunkt. Ofta sker en summering i slutet av terminen eller i slutet av en kurs på gymnasiet. En summativ bedömning kan även innebära att kortare delmoment av en kurs summeras till exempel genom prov och att resultaten från ett antal prov senare ligger till grund för ett betyg. (s. 11)

Summativ bedömning är alltså det mer generella fenomenet till vilket betyg hör. Svenska betyg är därtill en summativ bedömning med så kallad ”high-stakes”, det vill säga de har stor betydelse för de elever som får betyg. Svenska betyg kan exempelvis avgöra om en elev kommer in på en gymnasie- eller högskoleutbildning eller ej. Inte alla summativa bedömningar är high-stakes, vilket är viktigt att beakta när man gör en forskningsöversikt på summativa bedömningar. Hur betydelsefulla betyg är i ett utbildningssystem har givetvis konsekvenser för hur elever påverkas av betyg.

Andra viktiga nyanser att beakta är att betyg ofta sätts på grundval av en mängd information som en lärare samlat in under en längre tid om en elevs prestationer inom det kunskapsområde som ska betygssättas. En elev kan ha dåliga dagar utan att det behöver påverka betyget nämnvärt. Detta till skillnad från exempelvis ett högskoleprov där en dålig dag för en elev kan ödelägga chanserna till bra resultat och därmed chanserna att komma in på den utbildning hen önskar. Det är rimligt att anta att ett prov som bara utgör ett av flera prov som en elev gör för att få ett betyg, påverkar eleven på ett annat sätt än ett prov där allt står på spel just med detta enda prov.

På samma sätt är det rimligt att anta att alla betyg en elev får under sin skolgång inte påverkar eleven på samma sätt. Att få betyg för första gången är troligtvis omgärdat av andra förväntningar och annan oro än att få betyg för femte gången, likaså är avgångsbetyget av en annan art än betyg som ges som avstämningar under en längre utbildning. Elevens eller studentens ålder påverkar rimligen också de effekter betyg har liksom andra kulturella och kontextuella faktorer.

De distinktioner som beskrivs ovan är viktiga att beakta när forskningsöversikter på summativa bedömningar tolkas i syfte att säga något om svenska förhållanden och svenska betyg. Det kan även finnas andra viktiga överväganden att göra för att rätt kunna uttolka hur svenska betyg kan påverka svenska elever. Mycket av den forskning som finns om bedömning bygger på betygssystem som är normrelaterade snarare än kriterierelaterade som i Sverige. Detta hindrar dock inte att en mängd viktiga slutsatser kan dras på grundval av den forskning som gjorts (se även Brookhart, 2015, s. 269).

2.1 Forskningsöversikter på området summativa bedömningars effekter på elevers motivation, lärande och prestation

Sedan millennieskiftet 2000 har, som tidigare nämnts, två större systematiska litteraturöversikter gjorts som berör frågan om betyg och summativa bedömningar: Harlen, Deakin och Crick (2002) och Lundahl et al. (2015). Den förra översikten innehåller utöver själva översikten en jämförelse med de resultat som erhålls med resultaten från åtta andra översikter inom området: McDonald (2001), Madaus och Clarke (2001), McNeil och Valenzuela (2000), Black och Wiliam (1998), Kellaghan, Madaus och Raczek (1996), Crooks (1988), Ames (1992) och Natriello (1987). Den senare översikten innehåller en jämförelse med fyra andra översikter: Harlen och Deakin Crick (2002), Black och Wiliam (1998), Crooks (1988), Kluger och DeNisi (1996). Som synes överlappar tre av de ovanstående vilket innebär att totalt elva forskningsöversikter beaktas direkt och indirekt via de båda översikter som valts ut. Sammantaget ger dessa elva översikter en entydig bild av betyg och summativa bedömningar: de har en huvudsakligen negativ inverkan på elevers lärande och motivation, i synnerhet svagpresterande elever och elever från minoritetsgrupper, dvs. betyg och summativa bedömningar bidrar till ökade klyftor i skolsystemet. Nedan går jag djupare in på resultaten från Harlen och Deakin Crick (2002) och Lundahl et al. (2015).

Huvudfrågeställningen för Harlen och Deakin Cricks översikt är: ”What is the evidence of the impact of summative assessment and testing on students’ motivation for learning?” (2002, s. 18). Översikten inriktas på studier av elever i åldrarna 4–18 år. Syftet med att undersöka just motivation för lärande (dvs. vilja att lära sig) och inte därtill inkludera effekt på kunskap var att författarna menade att det förra området inte var lika väl studerat som summativa bedömningars effekter på elevers kunskaper. Ett annat motiv var att motivation för lärande måste anses som en viktig aspekt av utbildning i åldrarna 4–18, bland annat för att det är i dessa åldrar som elevens vilja att fortsätta utbilda sig och grunden till livslångt lärande läggs och att motivation för lärande är en viktig komponent i detta. Harlen och Deakin Crick (2002, s. 1) skiljer mellan motivation i relation till lärandemål och motivation i relation till prestationsmål då det finns goda såväl empiriska som teoretiska skäl att anta att den senare typen av motivation innebär att fokus för eleven och undervisningen förskjuts mot andra aspekter än själva lärandet.

Förutom omfattande databassökningar gick författarna igenom ett drygt 50-tal tidskrifter manuellt, vidare nyttjade de sina breda kontaktnät inom området samt granskade referenslistor i för översikten intressanta studier, allt i syfte att finna relevanta studier för översikten.

Harlen och Deakin Crick (2002) fann 183 studier som baserat på titel och sammanfattning var relevanta för deras översikt. De hade inga begräsningar i när studierna skulle vara gjorda men fann att merparten av de relevanta studierna var publicerade efter 1990. Efter en analys av dessa studier kvarstod 19 som uppfyllde alla uppsatta kriterier för relevans och rigorositet. De fann i en djupgående analys av de 19 utvalda studierna att det fanns hög grad av evidens för att:

Nationella prov/liknande leder till att öka sambandet mellan låg självkänsla och prestation.
Nationella prov/liknande gör att lärare tenderar att i högre grad använda sig av en förmedlingspedagogik och starkt strukturerade aktiviteter, vilket gynnar den typ av elever som föredrar detta undervisningssätt men missgynnar och sänker självförtroendet för de grupper av elever som föredrar mer aktiva, varierande och öppna undervisningsformer.
Upprepade diagnotiska prov förstärker negativa effekter på självkänslan hos lågpresterande elever.
Tester (oavsett typ) bidrar till elevers uppfattning om vad bedömning är och kan bidra till att elever kan komma att uppfatta även formativ bedömning som rent summativt, oavsett lärarens intentioner.
Elever är medvetna om det prestationsfokus som uppstår i samband med nationella test, och att dessa bara ger en begränsad bild av vad de kan.
Elever som ogillar nationella prov, uppvisar höga stressnivåer (i synnerhet flickor) och föredrar andra typer av bedömningar.
Återkoppling på bedömningar är en viktig faktor i hur bedömningar påverkar framtida lärande för elever. Återkoppling som inriktar sig på individegenskaper snarare än att vara uppgiftsrelaterad tenderar att minska elevers fokus på lärandemålen.
Summativa bedömningar blir lätt ett mål i sig för det som görs i klassrummet och influerar bedömningsinteraktionen mellan lärare och elev.
Summativa bedömningar leder till att målen för lärandet i skolan i högre grad länkas till ansträngning och den egna förmågan (snarare än till att utveckla kunskaper).
Hur en test- och summativ bedömningskultur påverkar elever beror i hög grad på hur den implementeras av lärarna. Negativa effekter kan mildras i ett klimat som stödjer elevers känsla av att räcka till och prestera väl.
Skolsystem som har ett starkt fokus på utvärdering producerar studenter med stark yttre orientering mot betyg och social status (snarare än mot att utveckla kunskaper). (Harlen & Deakin Crick, 2002, s. 61-62).

Harlen och Deakin Crick gör en jämförelse av de resultat de fått med åtta andra litteraturöversikter inom detta område gjorda åren 1987-2001, vilka listades tidigare i detta avsnitt, och finner att deras slutsatser ligger i linje med dessa översikter (2002, s. 68-69). Ett av deras mest tydliga resultat är att summativa bedömningar differentierar och att det i synnerhet påverkar lågpresterande elever negativt. Även flickor påverkas negativt av en summativ bedömningskultur på grund av ökad stress. I relation till ålder och idén att vänja elever vid en testkultur, så menar Harlen och Deakin Crick att det mesta snarare pekar på risker med att tidigt introducera elever i en sådan kultur: ”Instead of motivation and test familiarity increasing with age, older students feel more resentment, anxiety, cynicism and mistrust of standardised achievement tests” (2002, s. 5). Att tidigt utsättas för high-stakes bedömningar leder alltså snarare till att man känner ökad oro och cynism.

Lundahl et al. (2015) använder databaserna ERIC, ProQuest och Libris tillsammans med en manuell genomgång av fyra tidskrifter på området. Genomgången täcker åren 2002-2014. Inga åldersbegräsningar användes, varför även studier på enbart universitetsstudenter inkluderades. Totalt uppfyllde 22 studier kvalitetskraven och valdes ut för fördjupad granskning. Lundahl et al. (2015, s. 30-32) fann att studierna som hade varit föremål för fördjupad granskning till stora delar var samstämmiga och att:

Summativa bedömningar har en generell differentierande effekt: betyg påverkar olika elevgrupper på olika sätt beroende på prestationsförmåga och kön. Lågpresterande elever och pojkar får en negativ utveckling i sitt lärande och sämre prestationer med summativa bedömningar jämfört med högpresterande elever och flickor.
Summativa bedömningar som betyg påverkar elevers prestationer negativt jämfört med formativ bedömning, över åldrar.
Negativ feedback påverkar elever negativt: feedback som är summativ och som visar på elevers bristande kunskaper och svaga resultat verkar inte hjälpa elever att ”skärpa sig” utan elever presterar sämre med negativ feedback och de presterar bättre om de får feedback med mycket och kontinuerlig ”positiv” information om hur de kan förbättra sitt arbete.
Ett fåtal studier undersöker betygens effekter på yngre elevers lärande och prestationer (före årskurs 6) och dessa visar att feedback som ger mycket information om hur eleverna kan förbättra sina prestationer är bättre för deras lärande och prestationer jämfört med summativa bedömningar.

Lundahl et al. (2015) menar även att ålder, erfarenheter av bedömning och om eleven är resurssvag/resursstark tycks spela en stor roll för hur elevers lärande, motivation för lärande och prestationer påverkas av summativ bedömning. Som vi ser innehåller några av slutsatserna ett jämförande perspektiv mellan formativa och summativa bedömningar. Det finns också andra aspekter som lyfts för att förklara skillnader resultat mellan olika studiers. Exempelvis menar Lundahl et al. (2015) att det finns en skiljelinje mellan studier gjorda av å ena sidan psykologer och utbildningsforskare och å andra sidan ekonomer. Jag ska granska detta påstående senare, när jag mer ingående diskuterar skiljelinjer i betygsforskningen. Det finns skäl att nyansera detta påstående dels på basis av en re-analys av tidigare studier gjorda av ekonomer, dels i ljuset av en ny studie som genomförts av ett par ekonomer som inte hade beaktats av Lundahl et al. (2015).

Som framgått av denna sammanfattning av tidigare översikter så är evidensen stark för att betyg och summativa bedömningar huvudsakligen har en negativ inverkan på elevers motivation för lärande och för undervisningens inriktning, i synnerhet gäller detta i relation till lågpresterande elever. Flickor påverkas mer negativt i termer av ökad stress och oro av en test- och prestationskultur än pojkar. Betyg och summativa bedömningar differentierar, det är ett mycket tydligt resultat i forskningen.

När det gäller betyg specifikt så är evidensen inte lika utvecklad när det gäller hur dessa påverkar motivation för lärande, stress, prestations- och undervisningsfokus. Medel- och högpresterande elevers resultat verkar inte påverkas negativt av betyg. Huvudsakligen är det en fråga om i vilken grad betyg leder till ökat fokus på summativa bedömningspraktiker i skolan.

Trots att tidigare forskning uppvisar stor enighet och hög grad av evidens finns det ändå de som hävdar att betyg är ett viktigt verktyg i syfte att motivera elever till att anstränga sig hårdare och lyfta sina kunskapsresultat, i synnerhet i relation till lågpresterande elever. Det vill säga precis tvärt emot vad forskningen visar. Jag ska nu gå över till argument och studier som åberopas som grund för dylika argument för att se om det finns förbisedda aspekter som inte beaktats i de översikter som tidigare redovisats i detta avsnitt.

2.1.1 Belägg för att betyg kan vara bra

I detta avsnitt går jag djupare in på två rapporter som förts fram till stöd för tidiga betyg. Den första är promemorian En bättre skolstart för alla: bedömning och betyg för progression i lärandet(Promemoria 2014-08-20), vilket är den senaste statliga utredning som tar upp betygsfrågan. I den utarbetas förslag till att betyg ska införas i årskurs 4 samt att det ska införas ett flertal diagnostiska tester i år 1, som del av ett stärkt bedömningsstöd till skolor. Den andra är en studie av Sjögren (2010). Vilka belägg ges i dessa rapporter för betyg och summativa bedömningars effekter på lärande, motivation och prestation?

2.1.1.1 Promemorian En bättre skolstart för alla

För att börja med promemorian så hävdas det i den att det rent generellt finns få studier av betyg av tillräckligt hög kvalitet och att de som finns i hög grad saknar relevans för svenska förhållanden (Promemoria 2014-08-20, s. 83-84). Promemorian gör inte anspråk på att vara en forskningsöversikt, men likväl tas några studier upp i den som stöd för betyg och summativa bedömningars positiva effekter på elevers lärande.

När det gäller förslagen kring bedömningsstöd i årskurs 1 i svenska, svenska som andra språk och matematik så tas den så kallade proveffekten upp som stöd för dessa förslag, en effekt som sägs visa på vikten av prov för att etablera robusta långtidsminnen (Promemoria 2014-08-20, s. 39). I avsnittet om proveffekten åberopas en studie av McDaniel, Roediger och McDermott (2007). Det sägs vara en studie med direkt relevans för proveffekten i skolmiljö. Låt oss gå till den studien för att bättre förstå vad den ger evidens för. Artikeln presenterar en syntetiserande sammanställning av flera delprojekt där ett av dessa delprojekt handlar just om proveffekter i klassrumskontext, det är studien ”Testing the testing effect in the classroom” av McDaniel, Anderson, Derbish och Morrisette (2007). I artikeln redovisas resultaten av en studie på 35 medicinstudenters frivilliga deltagande i en kurs om ”Hjärna och beteende” som forskarna hade utformat i syfte att testa proveffekten. Kursen gavs under en period av sex veckor. Den typ av kunskap som fokuserades i studien var av faktakaraktär och utvärderades med hjälp av två delprov och ett slutprov, alla av arten flervalsfrågor (multiple choice). Upplägget på studien var så kallat 3*2, med tre olika typer av tester som studenterna utsattes för veckovis och två olika faktainnehåll som endera ingick i det som testades eller inte gjorde det.^[1]Studenterna tilldelades slumpvis olika behandlingar/exponeringar i det faktabaserade upplägget. Genom detta upplägg kunde man studera vilken av de tre behandlingarna: flervalstest, kortsvarstest eller lästester som gav bäst effekt på del- och slutprov (som alltså var av flervalstyp). Man kunde även avgöra hur studenterna presterade på det innehåll som tagits upp i testerna jämfört med sådant innehåll som inte tagits upp i testerna.

Resultaten visar att samtliga behandlingar ledde till bättre resultat på del- och slutprov för det innehåll som hade testats vid jämförelse med det som inte hade testats. Den behandling som gav minst effekt var den där studenterna fick lästester, det vill säga läste testerna med de färdiga svaren ifyllda men inte själva gjorde testen. Näst bäst effekt för lärande hade flervalstesterna och bäst effekt gav kortsvarsfrågorna. Detta var inte väntat menar forskarna då det förväntade var att flervalstesterna skulle ge högst effekt eftersom slutprovet var av flervalstyp. Att det inte blev så förklarar forskarna med att minnesforskningen visat att igenkänning (som flervalsuppgifter baseras på) är sämre för lärande av fakta jämfört med att plocka fram något ur minnet (”retrieval”), vilket kortsvarstesten krävde (kortsvarstesten innebar att studenten själv fyllde i den faktaterm som fattades i ett i övrigt givet faktapåstående).

I diskussionen problematiseras resultaten och författarna menar att en del av proveffekten kan ha att göra med den feedback som studenterna fick i samband med flervals- och korsvarstesterna. Direkt efter att de gjort dessa gavs automatisk feedback där de fick de rätta svaren samt fick se hur de själva svarat.

Promemorian En bättre skolstart för alla lyfter fram vikten av studier som kan säga något av relevans för skolan. Bland annat hävdas det att “[e]n del svenska debattörer använder internationella data förhållandevis liberalt, utan att överväga deras inferens i svenska förhållanden.” (Promemoria 2014-08-20, s. 80).

Vad säger studien av McDaniel et al. (2007) om vilken roll nationellt utformade bedömningsstöd och diagnostiska test kan spela i lågstadieelevers utveckling av grundläggande förmågor inom områdena läsning, skrivning och matematik? Ger studien av de 35 medicinstudenternas faktapluggande i en kurs om hjärnan evidens för att man ska jobba på ett visst sätt med tester i syfte att lära barn läsa, skriva och räkna? Det är inte helt uppenbart hur denna koppling ser ut. Vilken roll spelar inlärning av centrala fakta vid utvecklingen av förmågor som läsning, skrivning och räkning? Det får vi inte svar på. Det är därtill enbart tre behandlingar som testas: flervalstest, korsvarstest och färdigifyllda lästest. Det finns självfallet fler pedagogiska metoder för att utveckla förmågan att läsa, skriva och räkna. McDaniel et al. (2007) gör slutligen inte anspråk på att säga något om testandets effekter på studenternas motivation, eller om lärande av andra typer av kunskaper än fakta.

Studierna av McDaniel med kollegor var det forskningsstöd som fördes fram för att tidigt bedömningsstöd och diagnostiska test är bra. Den måste anses ha låg inferens avseende lågstadieelevers utveckling av grundläggande förmågor inom områdena läsning, skrivning och matematik. Detta betyder inte att det saknas studier inom dessa områden (se t.ex. Shepard et al., 1998).

Nu vänder jag mig till frågan om tidiga betyg, vilket forskningsstöd åberopas som stöd i promemorian för att detta är bra? Frågan behandlas i promemorians kapitel 7, mer specifikt kapitel 7.2 där argument för och emot betyg tas upp. Promemorian hävdar att forskningen på området är ringa och kan säga lite om svenska förhållanden (Promemoria 2014-08-20, s. 83-84). När det gäller argument för tidiga betyg hänvisas framför allt till Sjögrens (2010) studie Graded children – evidence of long-run consequences of school grades from a nationwide reform. Dessutom hävdas att ”[v]issa experimentella data understödjer fynden att skriftliga omdömen påverkar studieresultaten positivt med förvånansvärt starka siffror”, och i samband med detta påstående refereras nedanstående två studier (Promemoria 2014-08-20, s. 82):

Azmat och Iriberri, 2009 (se 2010), ”The Importance of Relative Performance Feedback Information”.
Bandiera, Larcinese och Rasul, 2009, “Blissful Ignorance? Evidence from a Natural Experiment on the Effect of Individual Feedback on Performance”.

Den första studien undersöker hur vetskapen om hur du ligger till kunskapsmässigt jämfört med andra klasskamrater påverkar din prestation jämfört med om du inte vet detta utan bara vet ditt betyg. Det är alltså inte en studie om betyg är bra eller ej, utan en studie av olika typer av betygssystem (på gymnasienivå). I korthet kan sägas att studien visar att det verkar vara gynnsamt för gymnasieelevers prestationer att de utöver betyg även få veta sin position i relation till andra studenter jämfört med att enbart få veta sitt betyg.

Bandiera et al. (2009), den andra studien, hämtar sina data från ett ledande universitet i Storbritannien. Upplägget av undervisningen ser likartat ut vid de 20 samhällsvetenskapliga institutioner vid universitetet som ingår i studien: studenten läser och tenterar normalt drygt fyra kurser under ett akademiskt år och avslutar varje år med ett självständigt arbete motsvarande ungefär en fjärdedel av de poäng studenten ska ta under året. Institutionerna har olika praxis när det gäller rapportering av betyg på de kurser som föregår uppsatsen. Vid vissa institutioner får studenterna betyg på de kurser man tenterar under året innan uppsatsen påbörjas och vid andra först efter det att uppsatsen har lämnats in. Detta skapar två typer av bedömningskulturer, en där studenter får veta betyg på sina kurser innan de börjar skriva uppsatsen och en där de inte vet betygen.

Den slutsats som dras är att studenterna som får veta betygen på kurserna innan de påbörjar uppsatsskrivandet presterar bättre uppsatser än de som inte får veta betyg på kurserna. Även om resultatet är som starkast för de mest högpresterande studenterna så finner Bandiera et al. (2009) att ingen studentgrupp missgynnas av att få veta sina betyg.

Naturliga experiment av den typ Bandiera et al. (2009) studerat är intressanta men som alltid måste man granska omständigheterna. En omständighet är att det handlar om studenter vid ett av de ledande universiteten i Storbritannien. Enligt Bandiera et al. (2009, s. 14) så är det bara i snitt tre procent av studenterna som underkänns på kurser under ett normalår. Och granskar man effekterna av att få information om sitt betyg så kan man notera att det för studenter som ligger under 55 i betygssnitt (50 är gränsen för godkänd prestation) inte finns någon noterbar skillnad mellan de som fått veta sitt betyg och de som inte fått veta betyget (Bandiera et al. 2009, figur 4). Om studien tolkas i detta perspektiv så ligger den ungefär i linje med forskningen om summativ bedömning där positiva effekter i vissa fall kunnat iakttas för just högpresterande elever, och i detta fall är det ju onekligen ett toppurval av högpresterande som varit föremål för undersökningen. Samtidigt visar studien att det för många studenter inte har någon effekt alls, och då framför allt för de som presterar sämst.

Ovanstående resultat motsägs delvis av andra studier, publicerade efter promemorian. Grant och Green (2013) finner inte att information om testresultat ger ökade incitament för högskolestuderande. Deras studie utgår också från naturliga experiment men bygger på en mer rigorös design. Jag återkommer till den senare i detta kapitel. Slutligen, det är tveksamt vilken relevans studien av Bandiera et al. (2009) har i relation till gruppen lågpresterande elever i grundskolan, de som ligger under gränsen för godkänd prestation. Om något så indikerar den att inte ens högpresterande studenter kan förvänta sig positiva effekter av att få kännedom om sina betyg i de fall de tillhör den lägst presterande delen av ett högpresterande urval. Detta är intressant, det finns studier som visar att det verkar vara bättre för en högpresterande elev att befinna sig i en klass där övriga elever presterar sämre än att befinna sig i en klass där övriga presterar bättre (se t.ex. Elsner & Isphording, 2015 eller Murphy & Weinhardt, 2014).

Det finns ett underliggande argument i promemorian där argument för betyg som fristående instrument tonas ned till förmån för betygens roll i en bedömningskultur där formativ och summativ bedömning samspelar på ett konstruktivt sätt. Det finns all anledning att inte underblåsa formativ och summativ bedömning som motsattsförhållanden, de bör i stället ses som ömsesidigt beroende av varandra (Taras 2007). Likväl, forskning om bedömning pekar mot att nationella prov, diagnostiska test och andra nationellt föreskrivna summativa bedömningspraktiker tenderar att tränga bort formativa bedömningspraktiker i klassrummen (se t.ex. Harlen & Deakin Crick, 2002).

För att summera: Efter att ett antal studier som åberopas i promemorian En bättre skolstart för alla granskats faller det empiriska stödet för att tidiga betyg är bra tillbaka på endast en studie, den av Sjögren (2010). Låt oss därför vända oss till den och granska den såväl som de studier den i sin tur hänvisar till som stöd för dess resultat.

2.1.1.2 Sjögren: Graded children

I samband med att Sjögren (2010) diskuterar betygens effekter nämns följande fem studier: Becker och Rosen, 1992; Costrell, 1994; Betts, 1998; Betts och Grogger, 2003; Figlio och Lucas, 2004; Dee och Jacob, 2006. Vi kan läsa att dessa studier visar att:

A general finding in this literature is that tough grading or graduation standards can have beneficial effects on student performance, but that good students benefit more than poor students, who may even suffer. The proposed mechanism is that tough standards and requirements are motivating for those who believe that working harder will pay off in higher grades or a higher likelihood of graduation. Weaker students may instead give up if tougher standards push success out of reach. With a fine enough scale, most students can, however, be on a margin where effort can pay off (Sjögren, 2010, s. 5).

Dessa studier ger alltså ingen tydlig evidens för betygens positiva effekter och några av dem visar att betyg till och med kan ha negativa effekter, i synnerhet för lågpresterande elever. Förklaringen som anförs är att för höga krav kan leda till att elever ger upp. Sjögren menar dock att fler betygssteg kan råda bot på det (vilket är tveksamt, se OECD, 2012 och avsnitt 2.1.4). Men sammantaget verkar det alltså inte som de anförda studierna ger något stöd för de resultat som Sjögren själv kommer fram till, nämligen att betyg är bra framför allt för just lågpresterande elever.

Lite senare i rapporten hänvisas till två andra studier: Azmat och Iriberri (2009, se 2010) och Bandiera et al. (2009). Sjögren (2010) menar att dessa båda studier ligger mer i linje med hennes resultat:

My results are therefore more in line with the recent findings on short run outcomes from smaller scale natural experiments that find positive effects of grades (s. 39–40).

Dessa båda studier var också refererade i promemorian En bättre skolstart för alla, som granskades tidigare. Som vi konstaterade vid genomgången av dessa så belyste endast en av dem mer direkt frågan om betyg och summativa bedömningar, den som gjordes vid ett elituniversitet i Storbritannien. Det konstaterades att det var tveksamt om den kan säga något om vilken effekt betyg har på lågpresterande elevers prestationer. Snarare verkar ett tydligt resultat av den studien vara att de positiva effekterna avtog ju sämre betyg studenterna fick.

Låt oss istället vända oss till de fem först nämnda studierna i Sjögrens rapport, för att se vilken typ av stöd för betygs positiva/negativa effekter som ges i dem.

Becker and Rosen, 1992, ”The Learning Effect of Assessment and Evaluation in High School”.

Ovanstående studie jämför norm- och kriterierelaterade betygssystem. Det konstateras att den relativa informationen leder till ökad akademisk prestation jämfört med när man bara får veta sin absoluta nivå/kompetens. Detta är en rent teoretisk studie, baserad på matematiska modeller, dvs. den bygger inte på empirisk evidens. Den är huvudsakligen relevant som inlägg kring vilken typ av betygssystem som kan vara bäst men då den saknar empiriskt underlag är det svårt att se hur den kan vara ett inlägg i frågan om betyg är bra eller ej.

Costrell, 1994, “A Simple Model of Educational Standards”.

I denna studie presenteras en teoretisk modell för hur kunskapsstandarder påverkar studenters prestationer. I artikeln undersöks olika sätt att utforma kunskapsstandarder och författaren drar slutsatsen att högre krav är bra för lärandet. På samma sätt som för föregående studie så är detta ingen studie som gör anspråk på att empiriskt undersöka frågan om betyg är bra eller ej.

Betts, 1998, “The Impact of Educational Standards on the Level and Distribution of Earnings”.

I denna studie presenteras en teoretisk modell för hur nivån på kunskapsstandarder påverkar olika studentgruppers framtida lön. Inte heller i denna studie framförs empiriska belägg i frågan om betyg är bra eller ej.

De två nästföljande studierna är empiriska studier som belyser fenomenet höga standarder: Betts och Grogger (2003) samt Figlio och Lucas (2004). Dessa studier anförs av Sjögren (2010) som stöd för att höga krav är bra. Båda dessa studier säger sig finna belägg för att höga kunskapskrav är bra. Men vad menar författarna med “höga kunskapskrav”? Syftar det på nationella betygsnivåer eller något annat? Eftersom båda har snarlika upplägg och drar liknande slutsatser redogörs endast mer noggrant för den förra studien.

Betts och Grogger, 2003, ”The impact of grading standards on student achievement, educational attainment, and entry-level earnings”.

Betts och Grogger (2003) konstaterar att det trots en mängd teoretiska studier av effekterna av höga krav (”higher grading standards”) finns få empiriska studier av detta. De använder data från en studie av gymnasister och hur det gick för dem, data från ”the High School and Beyond survey”. Detta i syfte att undersöka bedömningskravens effekter på studenternas akademiska resultat, deras utbildningsnivå samt ingångslöner. Förutom medeleffekter studerades även hur effekterna är beroende av faktorer som elevens förmåga och etnicitet. De fann att höga bedömningskrav korrelerade med relativt sett högre resultat på standardiserade tester för alla grupper men att de hade bäst effekt för högpresterande elever och menar att detta kan indikera att höga bedömningskrav har en positiv inverkan på elevers prestationer. Däremot hade de högre bedömningskraven inte någon effekt på utbildningsnivå och de hade negativ effekt på afroamerikaners och spansktalandes chanser att ta ut en gymnasieexamen.

En fråga man måste ställa sig är hur måttet ”höga bedömningskrav” konstrueras i studien av Betts och Grogger (2003). Detta är viktigt att söka svar på om resultatet ska kunna översättas till svenska förhållanden. Så här skriver Betts och Grogger (2003):

Constructing grading standards requires two pieces of information: each student’s standing relative to all students nationwide, as measured through test scores, and each student’s standing relative to other students in his/her school, as measured through grades (s. 345).

Måttet “krav” är med andra ord uppbyggt av två delmått, dels vad eleven presterar relativt andra elever på nationella och standardiserade test, dels vad eleven presterar relativt andra elever på sin skola givet de betyg läraren sätter. Genom dessa båda mått kan man konstruera en tes om att det, givet att alla lärare sätter betyg på samma sätt, måste finnas en identisk korrelation mellan testresultat och betyg (kontrollerat för en rad variabler så som antalet kurser i ämnet som eleven tagit). Betts och Grogger (2003) finner att denna tes inte håller, vilket de menar visar att lärares bedömningsnivåer skiljer sig åt. De definierar höga bedömningskrav som att eleven, givet det betyg läraren satt, får högre testresultat än förväntat. De ger följande exempel:

To see this, consider the case of two schools. If a1 a2, then students in school 1 receive higher standardized test scores, on average, than students in school 2 who earn the same grades. For example, students with a B average at school 1 score higher than students with a B average at school 2. Thus, school 1 has higher grading standards (Betts & Grogger, 2003, s. 346).

Grant och Green (2013) kommenterar i sin studie ”Grades as incentives” denna typ av studier av “höga krav”. De refererar bland annat till både Betts och Grogger (2003) och Figlio och Lucas (2004). De menar att dessa studier bygger på problematiska antaganden om vad som utgör ”höga krav” och egentligen inte kan uttala sig om vad det är som orsakar vad:

Thus, most studies of grades’ incentive effects have been done by economists. Most relate cross-instructor variation in grading standards to study time or learning outcomes […] More difficult instructors do have better learning outcomes, but this might have more to do with teaching methods, which are not controlled for, than incentives (Grant & Green, 2013, s. 1566).

Grant och Green (2013) menar alltså att det är oklart på vilket sätt dessa studier uttalar sig om “höga krav” och de menar att det kan finnas skäl att anta att de olika betygssättningspraktikerna som identifierats indikerar olika pedagogiska praktiker snarare än att indikera olika kravnivåer. Det innebär att de effekter som mäts snarare är effekter av olika typer av pedagogiska praktiker där den för testresultaten mer gynnsamma pedagogiska praktiken korrelerar med lärare som sätter relativt sett lägre betyg (dvs. har “höga krav”). Det är därtill högst oklart på vilket sätt denna typ av krav säger något relevant om det svenska betygssystemet och dess gräns för godkänd prestation. Snarare än “höga krav” verkar dessa studier, som Grant och Green (2013) är inne på, handla om lärar- och undervisningsspecifika egenskaper som korrelerar med dessa lärares interna krav på sina elever och alltså inte har med externa krav att göra (notera därtill att lärarsatta betyg i USA inte är high-stakes).

Sjögren (2010) anför ytterligare en empirisk studie kring vikten av höga kunskapsstandarder:

Dee och Jacob, 2006, ”Do High School Exit Exams Influence Educational Attainment or Labor Market Performance?”

Denna studie undersöker höga kunskapsstandarder på ett annat sätt än de båda nyss nämnda. Den undersöker nämligen vad som inträffat som följd av att många gymnasieskolor i USA infört så kallade slutexamina (”exit exams”) under senare decennier. Det hela började på 1970-talet i kölvattnet av en debatt kring att värdet av en gymnasieexamen hade urholkats. För att höja kvaliteten på examinerade studenter föreslogs att man skulle införa slutexamina, vilket också gjordes i stor utsträckning i USA. De slutsatser som dras i studien är att man kan se en tydlig effekt att dessa examina differentierar, dvs. minskat likvärdigheten i skolsystemet. Resultaten är inte helt entydiga utan det fanns indikationer på att det för spansktalande kvinnor och svarta fanns en korrelation mellan införande av slutexamina och ökad grad av universitetsutbildning samt positiva effekter på jobbrelaterade utfallsvariabler, vilket tycks indikera att systemet lett till ökad grad av prestationsfokus för dessa grupper även om inte andra faktorer kan uteslutas. Sammanfattningsvis menar Dee och Jacob (2006) att det behövs mer forskning på effekterna av slutexamina för att tydligare kunna uttala sig om vad dessa till synes olika utfall av slutexamina beror på. Denna studie har låg relevans för betygens effekter i skolans tidiga år. Studien behandlar olika typer av examenssystem och deras effekter på framtida utbildnings- och jobbframgång.

Ingen av de studier som Sjögren anför ger alltså belägg för att tidiga betyg ska vara bra. Låt oss därför gå närmare in på Sjögrens egen studie.

Sjögren undersöker registerdata från de betygsreformer som genomfördes i Sverige under 1970-talet då betyg i årskurs 3 och 6 försvann gradvis ända till dess att dessa betyg helt avskaffades med Lgr 80, vilket skedde från läsåret 1982/83. Efter det gavs betyg endast från vårterminen i årskurs 8. Under perioden från 1969 fram till läsåret 1982/83 fick kommunerna avskaffa betyg om de ville, vilket kommunerna gjorde i olika takt. Detta har skapat ett naturligt experiment med möjlighet att jämföra kommuner som avskaffat betyg med de som inte gjort det. Sjögren studerar data från elevkullar födda mellan 1954 och 1974.

De utfallsvariabler Sjögren i första hand fokuserar på är antal år av utbildning (upp till och med gymnasienivå) samt framtida lön. Sjögren beaktar även två andra utfallsvariabler, sannolikheten att eleven tar en gymnasieexamen och sannolikheten att eleven studerar vidare på högskolan. Sjögren undersöker effekter utifrån faktorerna kön och föräldrars utbildningsnivå.

Sjögren finner bland annat en positiv korrelation mellan betyg och fullbordat gymnasium när det gäller flickor, dvs. betyg tycks leda till att flickor fullbordar skolan snabbare. Effekterna är inte stora, som mest motsvarande tre veckor i utbildningstid. För pojkar finner hon inga medeleffekter. När det gäller elever till lågutbildade föräldrar så minskar sannolikheten för dessa att ta gymnasie- eller högskoleexamen om de inte fått betyg. Betyg verkar med andra ord vara bra för elever till föräldrar med låg utbildningsnivå oavsett kön. För pojkar till högutbildade föräldrar finner Sjögren de största positiva effekterna av betygsfrihet, motsvarande upp till sju veckor i förkortad skolutbildning.

Den förklaring som Sjögren ger till sina resultat är att kvantitativ information i form av betyg är bra för barn till föräldrar med låg utbildningsnivå. Sjögren menar att dessa inte kan tillgodogöra sig mer kvalitativ information av den typ som fås på de kvartsamtal med läraren som ersatte betygen på låg- och mellanstadiet. Sjögren menar att den könseffekt hon noterat kan förklaras av att flickor i högre grad underskattar sin förmåga jämfört med pojkar och att betyget därför påverkar dem på ett annat sätt än pojkar.

Om vi jämför Sjögrens resultat med de elva forskningsöversikterna på området så kan vi notera att riktningen på de övergripande könsskillnaderna som Sjögren visar på ligger väl i linje med de som visats av övrig forskning. Men Sjögrens effekter ligger på en något högre nivå, då hon upptäcker en positiv effekt av betyg för flickor. Det ska i sammanhanget påpekas att Sjögrens effekt gäller mer långsiktiga effektmått än det normala. Normalt undersöks betyg och summativa effekters inverkan på motivation och lärande i mer närliggande mått än hur betyg på mellanstadiet påverkar utbildningslängd, utbildningsnivå, inkomst m.m.

När det gäller betygens effekter på lågpresterande elever tycks Sjögrens resultat i flera avseenden gå tvärs emot resultaten i de forskningsöversikter som behandlades tidigare i detta kapitel. Hur kan vi förstå detta? En förklaring till detta läggs fram i Klapp, Cliffordson och Gustafsson (2014) som undersökt samma reform som Sjögren, dock med tillgång till kompletterande information om elevers kognitiva förmågor och elevers bakgrund. Dessutom, medan Sjögren använder ett mått på elevers bakgrund baserat på föräldrarnas utbildningsnivå så använder Klapp et al. (2014) socioekonomisk bakgrund, baserat på en sammanvägning av föräldrars bakgrund, deras inkomst och yrken. De kompletterande data Klapp et al. haft tillgång till kommer från projektet “Utvärdering genom uppföljning” (UGU) som pågått sedan början av 1960-talet vid Göteborgs universitet i samarbete med Statistiska centralbyrån (SCB). I UGU-databasen finns anonymiserade uppgifter om riksrepresentativa stickprov av skolelever. Med hjälp av databasen kan man följa enskilda elever från årskurs 6 upp genom utbildningssystemet upp i vuxen ålder för ett urval årskullar födda från 1948. På så sätt har Klapp et al. (2014) kunnat koppla jämförbara elever som fått betyg med elever som inte fått betyg för ett urval kohorter under den aktuella period som även Sjögren studerade.

Klapp et al. (2014) konstaterar att Sjögren inte haft ett oberoende mått för lågpresterande elever och därför inte kan uttala sig om denna grupp. När Klapp et al. (2014) kontrollerar effekter avseende socioekonomisk bakgrund och kognitiv förmåga finner man i kontrast till Sjögren, men i linje med övrig forskning på betyg och summativa bedömningar, att betyg har en negativ effekt på lågpresterande. Man finner ingen effekt av betyg kopplad till socioekonomisk bakgrund, även det i kontrast till Sjögrens resultat.

En fråga som Klapp et al. (2014) ställer sig är om det kan vara så att kortsiktiga effekter som de själva studerar och långsiktiga som Sjögren studerar kan skilja sig åt. Denna tes avfärdar de eftersom de menar att samma mekanismer rimligen borde ligga bakom båda effekterna, dvs. om man finner kortsiktiga negativa kunskapseffekter av den typ Klapp et al. (2014) fann så borde detta även påverka långsiktiga effekter såsom utbildningslängd, utbildningsnivå och sannolikheten att ta ut en gymnasieexamen. Klapp et al. (2014) menar att saken måste utredas närmare innan man slutligt kan avgöra vad skillnaderna mellan de båda studierna beror på.

I en studie som genomförts efter Klapp et al. (2014) studie, har Klapp (2015b) undersökt mer långsiktiga effekter av samma reform. Förutom betyg i årskurs 7, 8 och 9 studeras även gymnasieexamen som utfallsmått. Klapp studerade endast en kohort elever, de födda 1967, och utgår precis som Klapp et al. (2014) från den databas som finns vid Göteborgs universitet. Totalt ingår 8558 elever i ett nationellt representativt urval i studien. Klapp konstaterar att ”graded low-ability students received lower subsequent grades through Grades 7–9 and had lower odds to finish upper secondary education, compared to ungraded low-ability students” samt att ” [t]he gender difference seems to increase over time: graded girls achieve higher grades throughout Grades 7–9 and had higher odds to finish upper secondary education, compared to ungraded girls and graded and ungraded boys” (Klapp, 2015b, s. 302). Dvs. resultat i linje med de som framkommit i forskningsöversikterna.

Vi finner alltså att det forskningsstöd som Sjögren åberopar huvudsakligen inte har relevans för frågan om tidiga betyg och att de studier som hade viss relevans ligger i linje med forskningen om betyg och summativa bedömningar. Vi finner även att Sjögrens studie tydligt motsäger vad som framkommit i forskningsöversikterna när det gäller betygens effekter på lågpresterande. En möjlig förklaring till detta är att Sjögren inte haft ett oberoende mått på elevers kognitiva förmågor varför det finns skäl att behandla just dessa resultat i Sjögrens studie med försiktighet.

2.1.2 Sammanfattande och utvecklande diskussion kring empiriska belägg av betygens effekter

Det kan vara av intresse att notera att idén om att betyg ska motivera elever till bättre prestationer inte har grund i betygens uppkomst och tidiga utveckling, utan att det verkar vara en idé som växer fram först under 1900-talet. Betygssystem har historiskt växt fram utifrån andra behov, som medel för certifiering och kvalitetssäkring. I studien ”Grades as incentives” hävdar Grant och Green (2013) att utvecklingen av nya betygssystem framför allt drivits av målet att betyg ska ge korrekt information om studenters kunskaper:

In summary, grading systems evolved with the educational system, partly in response to demands for better information about student performance, but were not explicitly designed to motivate students (s. 1565).

De menar vidare att detta i synnerhet gäller för de numera vitt spridda A–F-baserade betygsskalorna, uppbyggda kring kriteriebaserade och kvalitativt skilda betygssteg. Dessa växer fram mot slutet av 1800-talet som ett led i en modernisering och effektivisering av utbildningsinstitutionerna och för att råda bot på vad man ansåg vara godtycklig betygsättning bland lärare. Ett exempel på detta är när man vid Harvard under 1880-talet övergick från procent-betyg till en A–E-skala med motiveringen att studenterna genom denna typ av betyg i lägre grad skulle motiveras att tävla med varandra. Man hävdade även att de nya betygen skulle få studenterna mer fokuserade på genuint kunskapssökande. I en årsrapport från Harvard 1885 kan man läsa följande:

The Faculty last year did away with the minute percentage system of marking, and substituted a classification of the students in each course of study in five groups, the lowest of which includes those who have failed in the course. It is hoped that this grouping system will afford sufficient criteria for the judicious award of scholarships, honorable mention, and the grade of the Bachelor’s degree, while it diminishes the competition for marks and the importance attached by students to College rank in comparison with the remoter objects of faithful work. (Grant & Green, 2013, s. 1565)

A–E/F skalan och andra kriteriebaserade betygsskalor är också de som allmänt rekommenderas av betygsexperter, bland annat för att de leder till mindre prestationskonkurrens, mer korrekt värdering av kunskap samt större fokus på lärande och kunskap jämfört med relativa och mer gradrika system (OECD, 2012). Vi återkommer till detta. Här är dock en fördjupad diskussion kring betygens motiverande effekt på sin plats; den nyss nämnda studien av Grant och Green (2013).

Grant och Green (2013) har studerat vilka incitament som A–F skalan ger studenter. De finner att inte ens där information om betyg potentiellt har som störst motiverande effekt, dvs. för de studenter som ligger precis under gränsen för godkänd prestation, har diagnostisk information om betyg någon motiverande effekt. Låt oss närmare se till hur studien är upplagd.

Grant och Green (2013) använde tio års data från fyra olika kurser inom ekonomiområdet som getts av fem universitetslärare vid två universitet i USA. Varje lärare hade minst 650 studenter sammanlagt. En mängd data om dessa studenters prestationer samlades in, inklusive information om dessa studenters prestationer under kursernas gång: resultat på hemuppgifter, mittexamina (två till fyra stycken) samt slutexamina. Samtliga examinationer var av typen flervalsfrågor (multiple choice), men några kortsvarsfrågor kunde ingå. Samtliga lärare använde en kriteriebaserade A–F-skalan kopplad till en standardskala, vilket är den vanliga uttolkningen av kriteriebaserade betyg i USA. I denna går gränserna för A gick vid 90%, för B vid 80%, för C vid 70%, för D vid 60% och där resultat under 60% gav F, dvs underkänt betyg. För att inte få bias i studien från studenter som låg långt under att klara godkänt betyg valde forskarna att dra gränsen för inkluderade studenter vid 50% (baserat på vad de presterat inför slutexaminationen). Följande slutsats dras:

Though the threshold grade incentives studied here are economically meaningful, they do not inspire the students in our data to strategically raise their exam scores when their grades are most likely to benefit, even when it means the difference between passing and failing (Grant & Green, 2013, s. 1582).

Forskarna finner alltså ingen motiverande effekt av att studenter gavs information om betyg, inte ens för de studenter som har som mest att vinna på det, de som låg på gränsen till att klara sig. Jag återkommer till mer teoretiskt förankrade förklaringar av detta i nästa avsnitt.

2.1.3 Teoretiskt förankrade argument kring betygens effekter på elevers lärande och motivation

Trots att betygens roll för motivation och lärande visat sig huvudsakligen negativ i de senaste decenniernas forskning, och därtill tydligt negativ för lågpresterande, så fortsätter betyg att föras fram som viktiga för just elevers motivation och lärande. Hur kommer detta sig? En förklaring som lagts fram är att ekonomi- och psykologiforskning, de områden som dominerat betygsforskningen, dominerats av skinnerianska teorier och att dessa teorier ofta okritiskt applicerats även inom utbildningsområdet utan empiriskt stöd (Yeager et al., 2014; Grant & Green, 2013). Grant och Green (2013) menar därtill att betyg rimmar väl med allmänna föreställningar om hur incitament fungerar vilket gör att många kan ha svårt att acceptera resultat som pekar på andra effekter. En tredje förklaring är att forskningen kring incitament inte tydligt skiljt mellan proceduriell och heuristisk kunskap (t.ex. repetition vs problemlösning). Över huvud taget har forskningen kring elevers motivation för lärande utvecklats mot en ökad teoretisk medvetenhet det senaste decenniet.

Vad senare års forskning visat är att den typ av extern belöning som betyg hör till (hit hör även incitament som pengar) kan ha en viss effekt på proceduriella kunskaper men inte på heuristiska dito:

The general finding is that they improve performance in “algorithmic,” or repetitious, tasks but are less effective or even counterproductive at “heuristic” tasks that require creativity, concentration, or intuition. (Grant & Green, 2013, s. 5; jfr Yeager et al., 2014).

Liknande resultat har visats i andra studier kring hur incitament påverkar elevers prestationer. Gneezy, Meier och Rey-Biel (2011) diskuterar de resultat som framkommit i forskning kring incitament och behandlar bland annat en studie av Fryer (2011), som utfört randomiserade försök vid grundskolor i USA under två läsår 2007-2009. Fryer (2011) undersökte hur pengar mest effektivt kunde fungera som incitament till ökade resultat. Variabler som undersöktes var av mer direkt art såsom närvaro eller att en elev läser en bok, men även mer indirekta såsom betyg. Totalt 6,3 miljoner dollar distribuerades till 38 000 elever vid 261 skolor. Ett resultat var att incitament som riktar sig till mer indirekta utfall såsom betyg hade lägre effekt än de som riktade sig till mer direkta utfall såsom närvaro, gott uppförande, att bära uniform osv. Gneezy et al. (2011, s. 197) menar att en förklaring till detta kan vara att elever, “even if they are motivated by rewards, may not know how to turn their efforts into success”. Detta kan jämföras med den starka betoningen på bedömning för lärande inom pedagogisk forskning (Hattie & Timperley, 2007). Även om en elev vill ha högre betyg och är motiverad av de extra pengar hon eller han kan få som resultat av detta ger pengarna i sig inte eleven de verktyg som den skulle behövt för att förbättra sin prestation relativt de komplexa lärandemål betyg ska vara uttryck för (Yeager et al., 2014; jfr Harkin et al., 2016).

Även om yttre incitament som pengar kan ha betydelse för enklare förmågor så finns det flera skäl att fundera över om den vägen är den rätta, inte minst då det kan bli ganska dyrt. En forskargrupp som fördjupat sig i motivation relativt repetitiva och “tråkiga” skoluppgifter är Yeager et al. (2014). De menar att skolarbete aldrig fullt ut och hela tiden kan vara roligt utan att de flesta undersökningar pekar mot att fler och fler elever upplever skolarbete som just tråkigt och hellre prioriterar annat. En viktig fråga är därför vad som kan förklara att elever ägnar sig åt tråkiga skolmoment. Yeager et al. (2014) har under senare tid även intresserat sig för hur laboratorieförsök som syftar till att öka elevers motivation för studier kan skalas upp och implementeras i skolan.

Elevers uthållighet i studier av till synes enformiga och tråkiga skoluppgifter har visat sig mycket central för att förstå varför elever lyckas i sina studier. Yeager et al. (2014) testade tre olika typer av motiv till studier: transcenderande (omvärldsorienterade) motiv, självcentrerande inre motiv och självcentrerade yttre motiv. Den första typen av motiv handlade om studier som ett sätt att bidra till en bättre värld medan de senare handlade om studier för att man var intresserad av området ifråga (inre) eller att man ville studera för att få ett bättre jobb eller högre lön (yttre) (Yeager et al., 2014, s. 562). De kunde i sina försök visa att det enda som hade signifikant effekt på elevers förmåga att ta sig an tråkiga skoluppgifter var transcenderande motiv, medan elever som uppvisade den andra typen av motiv inte skilde sig signifikant från kontrollgrupperna. Yeager et al. (2014, s. 575) poängterar i diskussionen att dessa resultat gäller träning av enklare förmågor och därför kan anses ha störst effekt på lågpresterande elever. Hur mer altruistiska motiv till studier och hårt arbete i skolan påverkar toppresterares resultat är en fråga för framtida forskning. Sammantaget visar denna typ av forskning på tidigare förbisedda aspekter av pedagogiskt verksamhet och vad som får elever motiverade till hårt arbete. Det pekar inte mot betyg som en lösning av de utmaningar som finns med elever som inte når målen utan det handlar snarare om att arbeta med eleverna så att de utvecklar genuina motiv för sina studier.

Conservation of Resources Stress Theory (COR-teorin) är en teori som utvecklats och prövats i betygssammanhang (Klapp, 2015a, s. 50). Det är en motivations- och stressteori som utvecklats inom forskningsområdena medicin, psykologi och sociologi men som tillämpats även inom utbildningsområdet. Teorin avser att förklara hur människor utifrån olika förutsättningar reagerar på och hanterar stressfyllda situationer såsom prestationssituationer i skolan. COR-teorin utgår från att eleven vid en given tidpunkt har en viss tillgång till resurser i relation till ett visst skolämne. Det kan handla om attityd till ämnet, uppfattning av den egna kompetensen, självkänsla och förmåga att reglera sina egna känslor. Framtida händelser eleven upplever i skolämnet kan både hota eller skapa nya resurser för eleven. En utgångspunkt i teorin är att en negativ påverkan (såsom att misslyckas på ett prov) har proportionellt större inverkan på resurserna än en positiv påverkan (såsom att lyckas på ett prov). Det krävs därför mindre påverkan för att rasera resurser än det krävs för att bygga upp dem (Klapp, 2015a, s. 50-51). COR-teorin förklarar det som empiriskt visats i studier av betyg och summativa bedömningars effekter på elevers motivation för lärande, nämligen att svagpresterande elever samt elever som överskattar sin förmåga i skolarbete (vilket pojkar tenderar att göra) förlorar mycket på negativ feedback i form av betyg och summativa bedömningar medan högpresterande elever samt flickor inte påverkas i samma utsträckning. COR-teorin förklarar också varför starka positiva effekter inte noteras i relation till betyg och summativa bedömningar.

COR-teorin samt distinktioner kring proceduriella kontra heuristiska kunskaper tillsammans med nya motivationsteorier har det senaste decenniet gett nya insikter inom området betyg och summativa bedömningar som problematiserat och vederlagt teorier som tidigare dominerat området. Betyg och summativa bedömningar har och kommer fortsatt ha en viktig funktion att fylla i utbildning i syfte att generera resultat om elevers kunskapsnivåer, både som information men också för att hålla lärare, elever och skolor ansvariga för dessa resultat. I relation till motivation för lärande, självkänsla och andra viktiga egenskaper för elever så handlar det alltså framför allt om att utforma resultatsystem vars negativa effekter på dessa egenskaper minimeras.

2.1.4 Antal steg i betygsskalan

Det kan i sammanhanget vara intressant att nämna en undersökning av betygssättning i olika länder som gjordes som del av PISA 2009 och omfattar 21 länder (OECD, 2012). Den enkät som specifikt behandlade betyg distribuerades endast i 17 av dessa länder.^[2] En aspekt av ett betygssystem som OECD särskilt tryckte på är vikten av att betyg ska ge ett korrekt och likvärdigt mått på elevers kunskaper. Kriteriebaserade system med ett fåtal kvalitativt skilda godkända betygssteg som beskriver prestationsgrader såsom godkänd, väl godkänt, utmärkt och så vidare visar sig klart bättre jämfört med relativa och gradrika skalor. OECD (2012) menar därtill att den senare typen av skalor uppmuntrar till skadligt tävlande vilket i sin tur leder till fel fokus i verksamheten, det vill säga till att elevers fokus förskjuts från det väsentliga lärandet till andra mer strategiska överväganden. De menar att kvalitativa skalsteg skapar bättre överensstämmelse mellan betyg och prestation jämfört med mer kontinuerliga betygsskalor. När det gäller de senare skalorna finns en tendens att olika lärare lägger in olika betydelse i de olika skalstegen, något som tycks kunna hanteras bättre med de kvalitativt preciserade skalorna.

3 Avslutande ord

Betyg, tidig uppföljning av elevers kunskaper, tydliga kriterier för elevers kunskaper och ansvarssystem kopplade till detta ligger fortsatt högt upp på många partiers skolpolitiska agenda i syfte att åstadkomma en bättre skola. Men är det den bästa vägen att gå för svensk skola?

Det som förvånade mig i genomgången av forskningen var hur svagt stödet för betyg var. Av de fåtal studier som lyfter fram positiva effekter var huvuddelen baserade på rent teoretiska antaganden om betygens effekter, det vill säga utan grund i hur betyg faktiskt påverkar elevers kunskaper och motivation. Detta att jämföra med de otal forskningsöversikter som visar på ytterst problematiska effekter av betyg och summativa bedömningar på elevers lärande och motivation.

I skollagen står det att skolan ska vila på vetenskaplig grund. Vad menas med det i ljuset av all den forskning som finns på nationellt utformat ansvarssystem med gränser för godkända prestationer? Varför framhärdar politiker att systemet misslyckats för att kraven varit för låga och att det därför krävs mer av samma medicin som redan prövats i drygt två decennier: det krävs tidigare betyg och uppföljning, tydligare ansvar, tydligare kunskapskrav osv. Är det inte dags att inse att förlorarna i detta system varit de systemet i dess begynnelse var tänkt att hjälpa: lågpresterande elever (under godkändgränsen)? Det är dags att vi på allvar börja tala om det svaga stöd som finns för betyg och dylika uppföljningssystem, och de negativa effekter som otaliga översikter lyft fram. Vetenskaplig grund kallas det. Det behöver inte betyda att vi överger vare sig betyg, krav eller ansvarsutkrävande, de kan ha ett syfte att spela i skolan (exempelvis betyg som information till föräldrar, eller som grund för urval), men vi kan inte låtsas som att de har effekter på skolans kvalitet som de att döma av all tillgänglig forskning med största sannolikhet inte har.

(Ovanstående text är ett utdrag ur en längre underlagsrapport jag tog fram för något år sedan och som aldrig publicerats. I rapporten belystes även systemaspekter av betyg och betygens roll för tidig uppföljning. Dessa texter har jag besparat läsaren, men sammanfattningen gällande betygens roll för uppföljning lyder:

Sammanfattningsvis kan man se att det inte finns några enkla kopplingar mellan kunskapskrav, betyg och särskilt stöd. Det finns i denna genomgång av forskning på svenska förhållanden inga indikationer på att betyg skulle utgöra en central komponent i ett välfungerande stödsystem.

Även om inte relationen mellan särskilt stöd, måluppfyllelse och tidiga betyg finns tydligt belyst i forskningen så är den bild som framträder av en stödjande skolmiljö för barn relativt tydlig; betyg är ett för trubbigt och oprecist instrument för att kunna bidra till att styra kvalitet på och omfattning av en så komplex åtgärd som särskilt stöd till barn.)

Referenser

Ames C. (1992). Classrooms: goals, structures and student motivation. Journal of Educational Psychology, 84(3), 261–271.

Azmat, G. & Iriberri, N. (2010). The importance of relative performance feedback information: evidence from a natural experiment using high school students. Journal of Public Economics, 94(7–8), 435–452.

Bandiera, O., Larcinese, V. & Rasul, I. (2009). Blissful ignorance? Evidence from a natural experiment on the effect of individual feedback on performance. Working paper.

Becker, W. & Rosen, S. (1992). The learning effect of assessment and evaluation in high school. Economics of Education Review, 11(2), 107–118.

Betts, J. R. (1998). The impact of educational standards on the level and distribution of earnings. American Economic Review, 88(1), 266–275.

Betts J. R. & Grogger, J. T. (2003). The imapct of grading standards on student achievement, educational attainment, and entry-level earnings. Economics of Education Review, 22(4), 343–352.

Black, P. & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.

Brookhart, S. M. (2015). Graded achievement, tested achievement, and validity. Educational Assessment, 20(4), 268–296.

Costrell, R. M. (1994). A simple model of educational standards. American Economic Review, 84(4), 956–971.

Crooks, T. (1988). The impact of classroom evaluation practices on students. Review of Educational Research 58(4), 438–481.

Dee, T., & Jacob, B. (2006). Do high school exit exams influence educational attainment or labor market performance?NBER Working Paper No W12199.

Elsner, B. & Isphording, I. E. (2015). A big fish in a small pond: ability rank and human capital investment. IZA Discussion Papers 9121, Institute for the Study of Labor (IZA).

Figlio, D. & Lucas, M. E. (2004). Do high grading standards affect student performance. Journal of Public Economics, 88(9–10), 1815–1834.

Fryer, R. (2011). Financial incentives and student achievement: evidence from randomized trials.The Quarterly Journal of Economics,126(4), 1755–1798.

Gneezy, U., Meier, S. & Rey-Biel, P. (2011). When and why incentives (don’t) work to modify behavior. The Journal of Economic Perspectives, 25(4), 191–209.

Grant, D. & Green, W. B. (2013). Grades as incentives. Empirical Economics,44(3), 1563–1592.

Harkin, B., Webb, T. L., Chang, B. P. I., Prestwich, A., Conner, M., Kellar, I., Benn, Y. & Sheeran, P. (2016). Does Monitoring Goal Progress Promote Goal Attainment? A Meta-Analysis of the Experimental Evidence. Psychological Bulletin, 142(2), 198–229.

Harlen, W. & Deakin Crick, R. (2002). A systematic review of the impact of summative assessment and tests on students´ motivation for learning (EPPI-Centre Review, version 1.1). Research evidence in educational library. London: EPPI-Centre, Social Science Research Unit, Institute of Education.

Hattie, J. & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.

Kellaghan, T., Madaus, G. & Raczek, A. (1996). The use of external examinations to improve student motivation. Washington DC, US: AERA.

Klapp, A. (2015a). Bedömning, betyg och lärande. Lund: Studentlitteratur.

Klapp, A. (2015b). Does grading affect educational attainment? A longitudinal study. Assessment in Education: Principles, Policy and Practice, 22(3), 302–323.

Klapp, A., Cliffordson, C. & Gustafsson, J-E. (2014). The effect of being graded on later achievement: evidence from 13-year olds in Swedish compulsory school. Eductional Psychology: An international Journal of Experimental Educational Psychology.

Kluger, A. N. & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.

Lundahl, C., Hultén, M., Klapp, A. & Mickwitz, L. (2015). Betygens geografi: forskning om betyg och summativa bedömningar i Sverige och internationellt.Stockholm: Vetenskapsrådet.

Madaus G. F. & Clarke, M. (2001). The adverse impact of high stakes testing on minority students: evidence from 100 years of test data. I G. Orfield & M. L. Kornhaber (red.).Raising standards or raising barriers? Inequality and high stakes testing in public education. New York: The Century Foundation.

McDaniel, M. A., Anderson, J. L., Derbish, M. H. & Morrisette, N. (2007). Testing the testing effect in the classroom. European Journal of Cognitive Psychology, 19(4-5), 494–513.

McDaniel, M. A., Roediger, H. L. & McDermott, K. B. (2007). Generalizing test-enhanced learning from the laboratory to the classroom. Psychonomic Bulletin & Review, 14(2), 200−206.

McDonald, A. (2001). The prevalence and effects of test anxiety in school children. Educational Psychology 21(1), 89–101.

McNeil L. & Valenzuela, A. (2000). The harmful impact of the TAAS system of testing in Texas: beneath the accountability rhetoric. Houston, Texas, US: Rice University.

Murphy, R. & Weinhardt, F. (2014). Top of the Class: the Importance of Ordinal Rank. CESifo Working Paper Series No. 4815.

Natriello, G. (1987). The impact of evaluation processes on students. Educational Psychologist 22(2), 155–175.

OECD (2012). Grade expectations: how marks and education policies shape students’ ambitions. Paris: Organisation for Economic Co-operation and Development (OECD).

Promemoria 2014-08-20. U2014/4873/S En bättre skolstart för alla: bedömning och betyg för progression i lärandet. Utbildningsdepartementet.

Shepard, L., Kagan, S. L. & Wurtz, E. (red.) (1998). Principles and recommendations for early childhood assessments. Washington, DC: National Education Goals Panel.

Sjögren, A. (2010). Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7. Uppsala: IFAU – Institutet för arbetsmarknad och utbildningspolitisk utvärdering.

Taras, M. (2007). Assessment for learning: understanding theory to improve practice. Journal of Further and Higher Education, 31(4), 363–371.

Yeager, D. S., Henderson, M. D., Paunesku, D., Walton, G. M., D’Mello, S., Spitzer, B. J. & Duckworth, A. L. (2014). Boring but important: a self-transcendent purpose for learning fosters academic self-regulation. Journal of Personality and Social Psychology, 107(4), 559–580.

^[1]De tester som användes var: flervalstest, kortsvarstest samt läsuppgift, vi kan kalla den senare ”lästest” då den innebar studenterna med denna behandling fick i uppgift att läsa igenom tester med de rätta svar färdigifyllda

^[2]Rapporten bygger på en enkät som distribuerades till 21 av de deltagande länderna i PISA 2009. 14 OECD länder: Australien, Österrike, Belgien, Ungern, Island, Irland, Italien, Korea, Mexiko, Nya Zeeland, Polen, Portugal, Slovakien och Slovenien och sju partner länder/ekonomier: Kroatien, Hong-Kong, Lettland, Macao, Serbien, Singapore, Trinidad och Tobago. Australien, Hong-Kong, Korea och Slovenien distribuerade inte delenkäten gällande betyg och ingår inte i den delen av analysen i rapporten.

Skolöverstyrelsen.se

En forskarblogg om skola, utbildning och utbildningsvetenskap

Vad talar för och emot betyg?