Vad talar för och emot betyg?

Valet närmar sig och frågor om betyg och uppföljning av elevers kunskaper är som brukligt en viktig del av de skolpolitiska program som läggs fram. Men vad vet vi egentligen om betygens effekter på elevers lärande och motivation? Vad säger forskningen?

Med anledning av att det utförts flera litteraturöversikter på området betyg och summativa bedömningar, varav ett par systematiska, så föll mitt val på att inte göra ytterligare en sådan översikt utan istället ta utgångspunkt i ett urval av dessa översikter i syfte att såväl fördjupa som problematisera de argument som framförs för och emot betyg (i avsnitt 2.1.1 behandlar jag studier som argumenterar för att betyg är bra).

1    Urval av studier

I detta avsnitt listas samtliga studier som varit centrala i litteraturöversikten jämte argument för de urval som gjorts.

Den kanske mest omfattande och därtill mest systematiska litteraturöversikt som gjorts på området är gjord av Harlen och Deakin Crick (2002). Den är en självklar utgångspunkt, inte minst för att den även innehåller jämförelser med flera av de tidigare forskningsöversikterna på området.

  • Harlen, W., & Deakin Crick, R. (2002). A systematic review of the impact of summative assessment and tests on students´ motivation for learning. In: Research evidence in educational library. Issue 1. London: EPPI-Centre, Social Science Research Unit, Institute of Education.

Därtill har jag beaktat den senaste översikten som gjorts, vilket är:

  • Lundahl, C., Hultén, M., Klapp, A., & Mickwitz, L. (2015). Betygens geografi – forskning om betyg och summativa bedömningar i Sverige och internationellt. Vetenskapsrådet. Stockholm: Vetenskapsrådet. (se Betygens geografi)

Även den har använt sig av systematiska strategier, men inskränker sig enbart till forskning som publicerats 2002-2014, dvs. efter att Harlen och Deakin Crick (2002) publicerades och som därför inte täcks av den översikten. Tillsammans bildar dessa en heltäckande systematisk översikt över den forskning som gjorts inom engelskspråkig litteratur. Även i Lundahl et al. (2015) förs en jämförande diskussion med tidigare forskningsöversikter.

Så till en annan typ av studier som granskats i denna litteraturöversikt, de som tydligt argumenterar för att tidiga betyg är bra. För svensk del brukar det i betygsdebatten framför allt hänvisas till:

  • Sjögren, A. (2010). Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7. Uppsala: IFAU – Institutet för arbetsmarknads- och utbildningspolitisk utvärdering.

En mer djupgående analys av Sjögrens rapport ingår visserligen i Lundahl et al. (2015) studie, men Sjögrens rapport berättigar ytterligare beaktande då den kommit att väga tungt i den svenska betygsdebatten som argument för att tidiga betyg och för att högre krav är bra för annars missgynnade grupper i skolan. Inte minst spelar den en viktig roll för att understödja argumenten och förslagen i den promemoria som publicerades 2014 där tidiga betyg och tester föreslogs:

  • Promemoria 2014-08-20. U2014/4873/S En bättre skolstart för alla: bedömning och betyg för progression i lärandet. Utbildningsdepartementet.

När det gäller båda dessa rapporter har jag gjort en mer djupgående analys av den evidens och de argument som förs fram i dessa, bland annat genom att även gå tillbaka till de forskningsstudier som de båda rapporterna stödjer sina argument på.

För att kunna bidra till fördjupad diskussion kring betygens motiverande effekter har jag valt att komplettera med några nyare studier på området som inte täcks av forskningsöversikterna. Två av dessa studier är:

  • Brookhart, S. M. (2015). Graded Achievement, Tested Achievement, and Validity. Educational Assessment, 20(4), 268–296.
  • Grant, D., & Green, W. B. (2013). Grades as incentives. Empirical Economics, 44(3), 1563–1592.

Den förra är skriven av en av de ledande betygsforskarna internationellt sett och innehåller en kortare översikt av inriktningar inom betygsforskningen. Den senare ligger inom det tidsspann som täcktes av Lundahl et al. (2015), men ingick inte i deras urval då deras sökningar enbart använde sig av databaserna Libris, ERIC och ProQuest medan ovanstående nås via Business Source Premier och Google Scholar.

För att ytterligare belysa betygens effekter förs en teoretiskt förankrad diskussion kring detta. Några av de tidigare nämnda texterna inkluderar teoretiska resonemang (framför allt Grant & Green, 2013). Utöver dessa har jag valt att ta med följande två texter som sammanfattar mycket av de senaste insikterna på det teoretiska området:

  • Yeager, D. S., Henderson, M. D., Paunesku, D., Walton, G. M., D’Mello, S., Spitzer, B. J., & Duckworth, A. L. (2014). Boring But Important: A Self-transcendent Purpose for Learning Fosters Academic Self-regulation. Journal of Personality and Social Psychology, 107(4), 559-580.
  • Klapp, Alli (2015a). Bedömning, betyg och lärande. Lund: Studentlitteratur.

2    Betygens inverkan på motivation och lärande

När man ska belysa det vi i Sverige kallar betyg måste man fråga sig vilket mer generellt fenomen våra betyg är uttryck för (jfr “funktionell ekvivalent”, kapitel 1). Enligt Lundahl et al. (2015) kan betyg ses som en summativ bedömning:

Betyg […] en summering och sammanfattning av elevens lärande vid en viss tidpunkt. Ofta sker en summering i slutet av terminen eller i slutet av en kurs på gymnasiet. En summativ bedömning kan även innebära att kortare delmoment av en kurs summeras till exempel genom prov och att resultaten från ett antal prov senare ligger till grund för ett betyg. (s. 11)

Summativ bedömning är alltså det mer generella fenomenet till vilket betyg hör. Svenska betyg är därtill en summativ bedömning med så kallad ”high-stakes”, det vill säga de har stor betydelse för de elever som får betyg. Svenska betyg kan exempelvis avgöra om en elev kommer in på en gymnasie- eller högskoleutbildning eller ej. Inte alla summativa bedömningar är high-stakes, vilket är viktigt att beakta när man gör en forskningsöversikt på summativa bedömningar. Hur betydelsefulla betyg är i ett utbildningssystem har givetvis konsekvenser för hur elever påverkas av betyg.

Andra viktiga nyanser att beakta är att betyg ofta sätts på grundval av en mängd information som en lärare samlat in under en längre tid om en elevs prestationer inom det kunskapsområde som ska betygssättas. En elev kan ha dåliga dagar utan att det behöver påverka betyget nämnvärt. Detta till skillnad från exempelvis ett högskoleprov där en dålig dag för en elev kan ödelägga chanserna till bra resultat och därmed chanserna att komma in på den utbildning hen önskar. Det är rimligt att anta att ett prov som bara utgör ett av flera prov som en elev gör för att få ett betyg, påverkar eleven på ett annat sätt än ett prov där allt står på spel just med detta enda prov.

På samma sätt är det rimligt att anta att alla betyg en elev får under sin skolgång inte påverkar eleven på samma sätt. Att få betyg för första gången är troligtvis omgärdat av andra förväntningar och annan oro än att få betyg för femte gången, likaså är avgångsbetyget av en annan art än betyg som ges som avstämningar under en längre utbildning. Elevens eller studentens ålder påverkar rimligen också de effekter betyg har liksom andra kulturella och kontextuella faktorer.

De distinktioner som beskrivs ovan är viktiga att beakta när forskningsöversikter på summativa bedömningar tolkas i syfte att säga något om svenska förhållanden och svenska betyg. Det kan även finnas andra viktiga överväganden att göra för att rätt kunna uttolka hur svenska betyg kan påverka svenska elever. Mycket av den forskning som finns om bedömning bygger på betygssystem som är normrelaterade snarare än kriterierelaterade som i Sverige. Detta hindrar dock inte att en mängd viktiga slutsatser kan dras på grundval av den forskning som gjorts (se även Brookhart, 2015, s. 269).

2.1   Forskningsöversikter på området summativa bedömningars effekter på elevers motivation, lärande och prestation

Sedan millennieskiftet 2000 har, som tidigare nämnts, två större systematiska litteraturöversikter gjorts som berör frågan om betyg och summativa bedömningar: Harlen, Deakin och Crick (2002) och Lundahl et al. (2015). Den förra översikten innehåller utöver själva översikten en jämförelse med de resultat som erhålls med resultaten från åtta andra översikter inom området: McDonald (2001), Madaus och Clarke (2001), McNeil och Valenzuela (2000), Black och Wiliam (1998), Kellaghan, Madaus och Raczek (1996), Crooks (1988), Ames (1992) och Natriello (1987). Den senare översikten innehåller en jämförelse med fyra andra översikter: Harlen och Deakin Crick (2002), Black och Wiliam (1998), Crooks (1988), Kluger och DeNisi (1996). Som synes överlappar tre av de ovanstående vilket innebär att totalt elva forskningsöversikter beaktas direkt och indirekt via de båda översikter som valts ut. Sammantaget ger dessa elva översikter en entydig bild av betyg och summativa bedömningar: de har en huvudsakligen negativ inverkan på elevers lärande och motivation, i synnerhet svagpresterande elever och elever från minoritetsgrupper, dvs. betyg och summativa bedömningar bidrar till ökade klyftor i skolsystemet. Nedan går jag djupare in på resultaten från Harlen och Deakin Crick (2002) och Lundahl et al. (2015).

Huvudfrågeställningen för Harlen och Deakin Cricks översikt är: ”What is the evidence of the impact of summative assessment and testing on students’ motivation for learning?” (2002, s. 18). Översikten inriktas på studier av elever i åldrarna 4–18 år. Syftet med att undersöka just motivation för lärande (dvs. vilja att lära sig) och inte därtill inkludera effekt på kunskap var att författarna menade att det förra området inte var lika väl studerat som summativa bedömningars effekter på elevers kunskaper. Ett annat motiv var att motivation för lärande måste anses som en viktig aspekt av utbildning i åldrarna 4–18, bland annat för att det är i dessa åldrar som elevens vilja att fortsätta utbilda sig och grunden till livslångt lärande läggs och att motivation för lärande är en viktig komponent i detta. Harlen och Deakin Crick (2002, s. 1) skiljer mellan motivation i relation till lärandemål och motivation i relation till prestationsmål då det finns goda såväl empiriska som teoretiska skäl att anta att den senare typen av motivation innebär att fokus för eleven och undervisningen förskjuts mot andra aspekter än själva lärandet.

Förutom omfattande databassökningar gick författarna igenom ett drygt 50-tal tidskrifter manuellt, vidare nyttjade de sina breda kontaktnät inom området samt granskade referenslistor i för översikten intressanta studier, allt i syfte att finna relevanta studier för översikten.

Harlen och Deakin Crick (2002) fann 183 studier som baserat på titel och sammanfattning var relevanta för deras översikt. De hade inga begräsningar i när studierna skulle vara gjorda men fann att merparten av de relevanta studierna var publicerade efter 1990. Efter en analys av dessa studier kvarstod 19 som uppfyllde alla uppsatta kriterier för relevans och rigorositet. De fann i en djupgående analys av de 19 utvalda studierna att det fanns hög grad av evidens för att:

  • Nationella prov/liknande leder till att öka sambandet mellan låg självkänsla och prestation.
  • Nationella prov/liknande gör att lärare tenderar att i högre grad använda sig av en förmedlingspedagogik och starkt strukturerade aktiviteter, vilket gynnar den typ av elever som föredrar detta undervisningssätt men missgynnar och sänker självförtroendet för de grupper av elever som föredrar mer aktiva, varierande och öppna undervisningsformer.
  • Upprepade diagnotiska prov förstärker negativa effekter på självkänslan hos lågpresterande elever.
  • Tester (oavsett typ) bidrar till elevers uppfattning om vad bedömning är och kan bidra till att elever kan komma att uppfatta även formativ bedömning som rent summativt, oavsett lärarens intentioner.
  • Elever är medvetna om det prestationsfokus som uppstår i samband med nationella test, och att dessa bara ger en begränsad bild av vad de kan.
  • Elever som ogillar nationella prov, uppvisar höga stressnivåer (i synnerhet flickor) och föredrar andra typer av bedömningar.
  • Återkoppling på bedömningar är en viktig faktor i hur bedömningar påverkar framtida lärande för elever. Återkoppling som inriktar sig på individegenskaper snarare än att vara uppgiftsrelaterad tenderar att minska elevers fokus på lärandemålen.
  • Summativa bedömningar blir lätt ett mål i sig för det som görs i klassrummet och influerar bedömningsinteraktionen mellan lärare och elev.
  • Summativa bedömningar leder till att målen för lärandet i skolan i högre grad länkas till ansträngning och den egna förmågan (snarare än till att utveckla kunskaper).
  • Hur en test- och summativ bedömningskultur påverkar elever beror i hög grad på hur den implementeras av lärarna. Negativa effekter kan mildras i ett klimat som stödjer elevers känsla av att räcka till och prestera väl.
  • Skolsystem som har ett starkt fokus på utvärdering producerar studenter med stark yttre orientering mot betyg och social status (snarare än mot att utveckla kunskaper). (Harlen & Deakin Crick, 2002, s. 61-62).

Harlen och Deakin Crick gör en jämförelse av de resultat de fått med åtta andra litteraturöversikter inom detta område gjorda åren 1987-2001, vilka listades tidigare i detta avsnitt, och finner att deras slutsatser ligger i linje med dessa översikter (2002, s. 68-69). Ett av deras mest tydliga resultat är att summativa bedömningar differentierar och att det i synnerhet påverkar lågpresterande elever negativt. Även flickor påverkas negativt av en summativ bedömningskultur på grund av ökad stress. I relation till ålder och idén att vänja elever vid en testkultur, så menar Harlen och Deakin Crick att det mesta snarare pekar på risker med att tidigt introducera elever i en sådan kultur: ”Instead of motivation and test familiarity increasing with age, older students feel more resentment, anxiety, cynicism and mistrust of standardised achievement tests” (2002, s. 5). Att tidigt utsättas för high-stakes bedömningar leder alltså snarare till att man känner ökad oro och cynism.

Lundahl et al. (2015) använder databaserna ERIC, ProQuest och Libris tillsammans med en manuell genomgång av fyra tidskrifter på området. Genomgången täcker åren 2002-2014. Inga åldersbegräsningar användes, varför även studier på enbart universitetsstudenter inkluderades. Totalt uppfyllde 22 studier kvalitetskraven och valdes ut för fördjupad granskning. Lundahl et al. (2015, s. 30-32) fann att studierna som hade varit föremål för fördjupad granskning till stora delar var samstämmiga och att:

  • Summativa bedömningar har en generell differentierande effekt: betyg påverkar olika elevgrupper på olika sätt beroende på prestationsförmåga och kön. Lågpresterande elever och pojkar får en negativ utveckling i sitt lärande och sämre prestationer med summativa bedömningar jämfört med högpresterande elever och flickor.
  • Summativa bedömningar som betyg påverkar elevers prestationer negativt jämfört med formativ bedömning, över åldrar.
  • Negativ feedback påverkar elever negativt: feedback som är summativ och som visar på elevers bristande kunskaper och svaga resultat verkar inte hjälpa elever att ”skärpa sig” utan elever presterar sämre med negativ feedback och de presterar bättre om de får feedback med mycket och kontinuerlig ”positiv” information om hur de kan förbättra sitt arbete.
  • Ett fåtal studier undersöker betygens effekter på yngre elevers lärande och prestationer (före årskurs 6) och dessa visar att feedback som ger mycket information om hur eleverna kan förbättra sina prestationer är bättre för deras lärande och prestationer jämfört med summativa bedömningar.

Lundahl et al. (2015) menar även att ålder, erfarenheter av bedömning och om eleven är resurssvag/resursstark  tycks spela en stor roll för hur elevers lärande, motivation för lärande och prestationer påverkas av summativ bedömning. Som vi ser innehåller några av slutsatserna ett jämförande perspektiv mellan formativa och summativa bedömningar. Det finns också andra aspekter som lyfts för att förklara skillnader resultat mellan olika studiers. Exempelvis menar Lundahl et al. (2015) att det finns en skiljelinje mellan studier gjorda av å ena sidan psykologer och utbildningsforskare och å andra sidan ekonomer. Jag ska granska detta påstående senare, när jag mer ingående diskuterar skiljelinjer i betygsforskningen. Det finns skäl att nyansera detta påstående dels på basis av en re-analys av tidigare studier gjorda av ekonomer, dels i ljuset av en ny studie som genomförts av ett par ekonomer som inte hade beaktats av Lundahl et al. (2015).

Som framgått av denna sammanfattning av tidigare översikter så är evidensen stark för att betyg och summativa bedömningar huvudsakligen har en negativ inverkan på elevers motivation för lärande och för undervisningens inriktning, i synnerhet gäller detta i relation till lågpresterande elever. Flickor påverkas mer negativt i termer av ökad stress och oro av en test- och prestationskultur än pojkar. Betyg och summativa bedömningar differentierar, det är ett mycket tydligt resultat i forskningen.

När det gäller betyg specifikt så är evidensen inte lika utvecklad när det gäller hur dessa påverkar motivation för lärande, stress, prestations- och undervisningsfokus. Medel- och högpresterande elevers resultat verkar inte påverkas negativt av betyg. Huvudsakligen är det en fråga om i vilken grad betyg leder till ökat fokus på summativa bedömningspraktiker i skolan.

Trots att tidigare forskning uppvisar stor enighet och hög grad av evidens finns det ändå de som hävdar att betyg är ett viktigt verktyg i syfte att motivera elever till att anstränga sig hårdare och lyfta sina kunskapsresultat, i synnerhet i relation till lågpresterande elever. Det vill säga precis tvärt emot vad forskningen visar. Jag ska nu gå över till argument och studier som åberopas som grund för dylika argument för att se om det finns förbisedda aspekter som inte beaktats i de översikter som tidigare redovisats i detta avsnitt.

2.1.1    Belägg för att betyg kan vara bra

I detta avsnitt går jag djupare in på två rapporter som förts fram till stöd för tidiga betyg. Den första är promemorian En bättre skolstart för alla: bedömning och betyg för progression i lärandet(Promemoria 2014-08-20), vilket är den senaste statliga utredning som tar upp betygsfrågan. I den utarbetas förslag till att betyg ska införas i årskurs 4 samt att det ska införas ett flertal diagnostiska tester i år 1, som del av ett stärkt bedömningsstöd till skolor. Den andra är en studie av Sjögren (2010). Vilka belägg ges i dessa rapporter för betyg och summativa bedömningars effekter på lärande, motivation och prestation?

2.1.1.1   Promemorian En bättre skolstart för alla

För att börja med promemorian så hävdas det i den att det rent generellt finns få studier av betyg av tillräckligt hög kvalitet och att de som finns i hög grad saknar relevans för svenska förhållanden (Promemoria 2014-08-20, s. 83-84). Promemorian gör inte anspråk på att vara en forskningsöversikt, men likväl tas några studier upp i den som stöd för betyg och summativa bedömningars positiva effekter på elevers lärande.

När det gäller förslagen kring bedömningsstöd i årskurs 1 i svenska, svenska som andra språk och matematik så tas den så kallade proveffekten upp som stöd för dessa förslag, en effekt som sägs visa på vikten av prov för att etablera robusta långtidsminnen (Promemoria 2014-08-20, s. 39). I avsnittet om proveffekten åberopas en studie av McDaniel, Roediger och McDermott (2007). Det sägs vara en studie med direkt relevans för proveffekten i skolmiljö. Låt oss gå till den studien för att bättre förstå vad den ger evidens för. Artikeln presenterar en syntetiserande sammanställning av flera delprojekt där ett av dessa delprojekt handlar just om proveffekter i klassrumskontext, det är studien ”Testing the testing effect in the classroom” av McDaniel, Anderson, Derbish och Morrisette (2007). I artikeln redovisas resultaten av en studie på 35 medicinstudenters frivilliga deltagande i en kurs om ”Hjärna och beteende” som forskarna hade utformat i syfte att testa proveffekten. Kursen gavs under en period av sex veckor. Den typ av kunskap som fokuserades i studien var av faktakaraktär och utvärderades med hjälp av två delprov och ett slutprov, alla av arten flervalsfrågor (multiple choice). Upplägget på studien var så kallat 3*2, med tre olika typer av tester som studenterna utsattes för veckovis och två olika faktainnehåll som endera ingick i det som testades eller inte gjorde det.[1] Studenterna tilldelades slumpvis olika behandlingar/­exponeringar i det faktabaserade upplägget. Genom detta upplägg kunde man studera vilken av de tre behandlingarna: flervalstest, kortsvarstest eller lästester som gav bäst effekt på del- och slutprov (som alltså var av flervalstyp). Man kunde även avgöra hur studenterna presterade på det innehåll som tagits upp i testerna jämfört med sådant innehåll som inte tagits upp i testerna.

Resultaten visar att samtliga behandlingar ledde till bättre resultat på del- och slutprov för det innehåll som hade testats vid jämförelse med det som inte hade testats. Den behandling som gav minst effekt var den där studenterna fick lästester, det vill säga läste testerna med de färdiga svaren ifyllda men inte själva gjorde testen. Näst bäst effekt för lärande hade flervalstesterna och bäst effekt gav kortsvarsfrågorna. Detta var inte väntat menar forskarna då det förväntade var att flervalstesterna skulle ge högst effekt eftersom slutprovet var av flervalstyp. Att det inte blev så förklarar forskarna med att minnesforskningen visat att igenkänning (som flervalsuppgifter baseras på) är sämre för lärande av fakta jämfört med att plocka fram något ur minnet (”retrieval”), vilket kortsvarstesten krävde (kortsvarstesten innebar att studenten själv fyllde i den faktaterm som fattades i ett i övrigt givet faktapåstående).

I diskussionen problematiseras resultaten och författarna menar att en del av proveffekten kan ha att göra med den feedback som studenterna fick i samband med flervals- och korsvarstesterna. Direkt efter att de gjort dessa gavs automatisk feedback där de fick de rätta svaren samt fick se hur de själva svarat.

Promemorian En bättre skolstart för alla lyfter fram vikten av studier som kan säga något av relevans för skolan. Bland annat hävdas det att “[e]n del svenska debattörer använder internationella data förhållandevis liberalt, utan att överväga deras inferens i svenska förhållanden.” (Promemoria 2014-08-20, s. 80).

Vad säger studien av McDaniel et al. (2007) om vilken roll nationellt utformade bedömningsstöd och diagnostiska test kan spela i lågstadieelevers utveckling av grundläggande förmågor inom områdena läsning, skrivning och matematik? Ger studien av de 35 medicinstudenternas faktapluggande i en kurs om hjärnan evidens för att man ska jobba på ett visst sätt med tester i syfte att lära barn läsa, skriva och räkna? Det är inte helt uppenbart hur denna koppling ser ut. Vilken roll spelar inlärning av centrala fakta vid utvecklingen av förmågor som läsning, skrivning och räkning? Det får vi inte svar på. Det är därtill enbart tre behandlingar som testas: flervalstest, korsvarstest och färdigifyllda lästest. Det finns självfallet fler pedagogiska metoder för att utveckla förmågan att läsa, skriva och räkna. McDaniel et al. (2007) gör slutligen inte anspråk på att säga något om testandets effekter på studenternas motivation, eller om lärande av andra typer av kunskaper än fakta.

Studierna av McDaniel med kollegor var det forskningsstöd som fördes fram för att tidigt bedömningsstöd och diagnostiska test är bra. Den måste anses ha låg inferens avseende lågstadieelevers utveckling av grundläggande förmågor inom områdena läsning, skrivning och matematik. Detta betyder inte att det saknas studier inom dessa områden (se t.ex. Shepard et al., 1998).

Nu vänder jag mig till frågan om tidiga betyg, vilket forskningsstöd åberopas som stöd i promemorian för att detta är bra? Frågan behandlas i promemorians kapitel 7, mer specifikt kapitel 7.2 där argument för och emot betyg tas upp.  Promemorian hävdar att forskningen på området är ringa och kan säga lite om svenska förhållanden (Promemoria 2014-08-20, s. 83-84). När det gäller argument för tidiga betyg hänvisas framför allt till Sjögrens (2010) studie Graded children – evidence of long-run consequences of school grades from a nationwide reform. Dessutom hävdas att ”[v]issa experimentella data understödjer fynden att skriftliga omdömen påverkar studieresultaten positivt med förvånansvärt starka siffror”, och i samband med detta påstående refereras nedanstående två studier (Promemoria 2014-08-20, s. 82):

  • Azmat och Iriberri, 2009 (se 2010), ”The Importance of Relative Performance Feedback Information”.
  • Bandiera, Larcinese och Rasul, 2009, “Blissful Ignorance? Evidence from a Natural Experiment on the Effect of Individual Feedback on Performance”.

Den första studien undersöker hur vetskapen om hur du ligger till kunskapsmässigt jämfört med andra klasskamrater påverkar din prestation jämfört med om du inte vet detta utan bara vet ditt betyg. Det är alltså inte en studie om betyg är bra eller ej, utan en studie av olika typer av betygssystem (på gymnasienivå). I korthet kan sägas att studien visar att det verkar vara gynnsamt för gymnasieelevers prestationer att de utöver betyg även få veta sin position i relation till andra studenter jämfört med att enbart få veta sitt betyg.

Bandiera et al. (2009), den andra studien, hämtar sina data från ett ledande universitet i Storbritannien. Upplägget av undervisningen ser likartat ut vid de 20 samhällsvetenskapliga institutioner vid universitetet som ingår i studien: studenten läser och tenterar normalt drygt fyra kurser under ett akademiskt år och avslutar varje år med ett självständigt arbete motsvarande ungefär en fjärdedel av de poäng studenten ska ta under året. Institutionerna har olika praxis när det gäller rapportering av betyg på de kurser som föregår uppsatsen. Vid vissa institutioner får studenterna betyg på de kurser man tenterar under året innan uppsatsen påbörjas och vid andra först efter det att uppsatsen har lämnats in. Detta skapar två typer av bedömningskulturer, en där studenter får veta betyg på sina kurser innan de börjar skriva uppsatsen och en där de inte vet betygen.

Den slutsats som dras är att studenterna som får veta betygen på kurserna innan de påbörjar uppsatsskrivandet presterar bättre uppsatser än de som inte får veta betyg på kurserna. Även om resultatet är som starkast för de mest högpresterande studenterna så finner Bandiera et al. (2009) att ingen studentgrupp missgynnas av att få veta sina betyg.

Naturliga experiment av den typ Bandiera et al. (2009) studerat är intressanta men som alltid måste man granska omständigheterna. En omständighet är att det handlar om studenter vid ett av de ledande universiteten i Storbritannien. Enligt Bandiera et al. (2009, s. 14) så är det bara i snitt tre procent av studenterna som underkänns på kurser under ett normalår. Och granskar man effekterna av att få information om sitt betyg så kan man notera att det för studenter som ligger under 55 i betygssnitt (50 är gränsen för godkänd prestation) inte finns någon noterbar skillnad mellan de som fått veta sitt betyg och de som inte fått veta betyget (Bandiera et al. 2009, figur 4). Om studien tolkas i detta perspektiv så ligger den ungefär i linje med forskningen om summativ bedömning där positiva effekter i vissa fall kunnat iakttas för just högpresterande elever, och i detta fall är det ju onekligen ett toppurval av högpresterande som varit föremål för undersökningen. Samtidigt visar studien att det för många studenter inte har någon effekt alls, och då framför allt för de som presterar sämst.

Ovanstående resultat motsägs delvis av andra studier, publicerade efter promemorian. Grant och Green (2013) finner inte att information om testresultat ger ökade incitament för högskolestuderande. Deras studie utgår också från naturliga experiment men bygger på en mer rigorös design. Jag återkommer till den senare i detta kapitel. Slutligen, det är tveksamt vilken relevans studien av Bandiera et al. (2009) har i relation till gruppen lågpresterande elever i grundskolan, de som ligger under gränsen för godkänd prestation. Om något så indikerar den att inte ens högpresterande studenter kan förvänta sig positiva effekter av att få kännedom om sina betyg i de fall de tillhör den lägst presterande delen av ett högpresterande urval. Detta är intressant, det finns studier som visar att det verkar vara bättre för en högpresterande elev att befinna sig i en klass där övriga elever presterar sämre än att befinna sig i en klass där övriga presterar bättre (se t.ex. Elsner & Isphording, 2015 eller Murphy & Weinhardt, 2014).

Det finns ett underliggande argument i promemorian där argument för betyg som fristående instrument tonas ned till förmån för betygens roll i en bedömningskultur där formativ och summativ bedömning samspelar på ett konstruktivt sätt. Det finns all anledning att inte underblåsa formativ och summativ bedömning som motsattsförhållanden, de bör i stället ses som ömsesidigt beroende av varandra (Taras 2007). Likväl, forskning om bedömning pekar mot att nationella prov, diagnostiska test och andra nationellt föreskrivna summativa bedömningspraktiker tenderar att tränga bort formativa bedömningspraktiker i klassrummen (se t.ex. Harlen & Deakin Crick, 2002).

För att summera: Efter att ett antal studier som åberopas i promemorian En bättre skolstart för alla granskats faller det empiriska stödet för att tidiga betyg är bra tillbaka på endast en studie, den av Sjögren (2010). Låt oss därför vända oss till den och granska den såväl som de studier den i sin tur hänvisar till som stöd för dess resultat.

2.1.1.2   Sjögren: Graded children

I samband med att Sjögren (2010) diskuterar betygens effekter nämns följande fem studier: Becker och Rosen, 1992; Costrell, 1994; Betts, 1998; Betts och Grogger, 2003; Figlio och Lucas, 2004; Dee och Jacob, 2006. Vi kan läsa att dessa studier visar att:

A general finding in this literature is that tough grading or graduation standards can have beneficial effects on student performance, but that good students benefit more than poor students, who may even suffer. The proposed mechanism is that tough standards and requirements are motivating for those who believe that working harder will pay off in higher grades or a higher likelihood of graduation. Weaker students may instead give up if tougher standards push success out of reach. With a fine enough scale, most students can, however, be on a margin where effort can pay off (Sjögren, 2010, s. 5).

Dessa studier ger alltså ingen tydlig evidens för betygens positiva effekter och några av dem visar att betyg till och med kan ha negativa effekter, i synnerhet för lågpresterande elever. Förklaringen som anförs är att för höga krav kan leda till att elever ger upp. Sjögren menar dock att fler betygssteg kan råda bot på det (vilket är tveksamt, se OECD, 2012 och avsnitt 2.1.4). Men sammantaget verkar det alltså inte som de anförda studierna ger något stöd för de resultat som Sjögren själv kommer fram till, nämligen att betyg är bra framför allt för just lågpresterande elever.

Lite senare i rapporten hänvisas till två andra studier: Azmat och Iriberri (2009, se 2010) och Bandiera et al. (2009). Sjögren (2010) menar att dessa båda studier ligger mer i linje med hennes resultat:

My results are therefore more in line with the recent findings on short run outcomes from smaller scale natural experiments that find positive effects of grades (s. 39–40).

Dessa båda studier var också refererade i promemorian En bättre skolstart för alla, som granskades tidigare. Som vi konstaterade vid genomgången av dessa så belyste endast en av dem mer direkt frågan om betyg och summativa bedömningar, den som gjordes vid ett elituniversitet i Storbritannien. Det konstaterades att det var tveksamt om den kan säga något om vilken effekt betyg har på lågpresterande elevers prestationer. Snarare verkar ett tydligt resultat av den studien vara att de positiva effekterna avtog ju sämre betyg studenterna fick.

Låt oss istället vända oss till de fem först nämnda studierna i Sjögrens rapport, för att se vilken typ av stöd för betygs positiva/negativa effekter som ges i dem.

  • Becker and Rosen, 1992, ”The Learning Effect of Assessment and Evaluation in High School”.

Ovanstående studie jämför norm- och kriterierelaterade betygssystem. Det konstateras att den relativa informationen leder till ökad akademisk prestation jämfört med när man bara får veta sin absoluta nivå/kompetens. Detta är en rent teoretisk studie, baserad på matematiska modeller, dvs. den bygger inte på empirisk evidens. Den är huvudsakligen relevant som inlägg kring vilken typ av betygssystem som kan vara bäst men då den saknar empiriskt underlag är det svårt att se hur den kan vara ett inlägg i frågan om betyg är bra eller ej.

  • Costrell, 1994, “A Simple Model of Educational Standards”.

I denna studie presenteras en teoretisk modell för hur kunskapsstandarder påverkar studenters prestationer. I artikeln undersöks olika sätt att utforma kunskapsstandarder och författaren drar slutsatsen att högre krav är bra för lärandet. På samma sätt som för föregående studie så är detta ingen studie som gör anspråk på att empiriskt undersöka frågan om betyg är bra eller ej.

  • Betts, 1998, “The Impact of Educational Standards on the Level and Distribution of Earnings”.

I denna studie presenteras en teoretisk modell för hur nivån på kunskapsstandarder påverkar olika studentgruppers framtida lön. Inte heller i denna studie framförs empiriska belägg i frågan om betyg är bra eller ej.

De två nästföljande studierna är empiriska studier som belyser fenomenet höga standarder: Betts och Grogger (2003) samt Figlio och Lucas (2004). Dessa studier anförs av Sjögren (2010) som stöd för att höga krav är bra. Båda dessa studier säger sig finna belägg för att höga kunskapskrav är bra. Men vad menar författarna med “höga kunskapskrav”? Syftar det på nationella betygsnivåer eller något annat? Eftersom båda har snarlika upplägg och drar liknande slutsatser redogörs endast mer noggrant för den förra studien.

  • Betts och Grogger, 2003, ”The impact of grading standards on student achievement, educational attainment, and entry-level earnings”.

Betts och Grogger (2003) konstaterar att det trots en mängd teoretiska studier av effekterna av höga krav (”higher grading standards”) finns få empiriska studier av detta. De använder data från en studie av gymnasister och hur det gick för dem, data från ”the High School and Beyond survey”. Detta i syfte att undersöka bedömningskravens effekter på studenternas akademiska resultat, deras utbildningsnivå samt ingångslöner. Förutom medeleffekter studerades även hur effekterna är beroende av faktorer som elevens förmåga och etnicitet. De fann att höga bedömningskrav korrelerade med relativt sett högre resultat på standardiserade tester för alla grupper men att de hade bäst effekt för högpresterande elever och menar att detta kan indikera att höga bedömningskrav har en positiv inverkan på elevers prestationer. Däremot hade de högre bedömningskraven inte någon effekt på utbildningsnivå och de hade negativ effekt på afroamerikaners och spansktalandes chanser att ta ut en gymnasieexamen.

En fråga man måste ställa sig är hur måttet ”höga bedömningskrav” konstrueras i studien av Betts och Grogger (2003). Detta är viktigt att söka svar på om resultatet ska kunna översättas till svenska förhållanden. Så här skriver Betts och Grogger (2003):

Constructing grading standards requires two pieces of information: each student’s standing relative to all students nationwide, as measured through test scores, and each student’s standing relative to other students in his/her school, as measured through grades (s. 345).

Måttet “krav” är med andra ord uppbyggt av två delmått, dels vad eleven presterar relativt andra elever på nationella och standardiserade test, dels vad eleven presterar relativt andra elever på sin skola givet de betyg läraren sätter. Genom dessa båda mått kan man konstruera en tes om att det, givet att alla lärare sätter betyg på samma sätt, måste finnas en identisk korrelation mellan testresultat och betyg (kontrollerat för en rad variabler så som antalet kurser i ämnet som eleven tagit). Betts och Grogger (2003) finner att denna tes inte håller, vilket de menar visar att lärares bedömningsnivåer skiljer sig åt. De definierar höga bedömningskrav som att eleven, givet det betyg läraren satt, får högre testresultat än förväntat. De ger följande exempel:

To see this, consider the case of two schools. If a1 a2, then students in school 1 receive higher standardized test scores, on average, than students in school 2 who earn the same grades. For example, students with a B average at school 1 score higher than students with a B average at school 2. Thus, school 1 has higher grading standards (Betts & Grogger, 2003, s. 346).

Grant och Green (2013) kommenterar i sin studie ”Grades as incentives” denna typ av studier av “höga krav”. De refererar bland annat till både Betts och Grogger (2003) och Figlio och Lucas (2004). De menar att dessa studier bygger på problematiska antaganden om vad som utgör ”höga krav” och egentligen inte kan uttala sig om vad det är som orsakar vad:

Thus, most studies of grades’ incentive effects have been done by economists. Most relate cross-instructor variation in grading standards to study time or learning outcomes […] More difficult instructors do have better learning outcomes, but this might have more to do with teaching methods, which are not controlled for, than incentives (Grant & Green, 2013, s. 1566).

Grant och Green (2013) menar alltså att det är oklart på vilket sätt dessa studier uttalar sig om “höga krav” och de menar att det kan finnas skäl att anta att de olika betygssättningspraktikerna som identifierats indikerar olika pedagogiska praktiker snarare än att indikera olika kravnivåer. Det innebär att de effekter som mäts snarare är effekter av olika typer av pedagogiska praktiker där den för testresultaten mer gynnsamma pedagogiska praktiken korrelerar med lärare som sätter relativt sett lägre betyg (dvs. har “höga krav”). Det är därtill högst oklart på vilket sätt denna typ av krav säger något relevant om det svenska betygssystemet och dess gräns för godkänd prestation. Snarare än “höga krav” verkar dessa studier, som Grant och Green (2013) är inne på, handla om lärar- och undervisningsspecifika egenskaper som korrelerar med dessa lärares interna krav på sina elever och alltså inte har med externa krav att göra (notera därtill att lärarsatta betyg i USA inte är high-stakes).

Sjögren (2010) anför ytterligare en empirisk studie kring vikten av höga kunskapsstandarder:

  • Dee och Jacob, 2006, ”Do High School Exit Exams Influence Educational Attainment or Labor Market Performance?”

Denna studie undersöker höga kunskapsstandarder på ett annat sätt än de båda nyss nämnda. Den undersöker nämligen vad som inträffat som följd av att många gymnasieskolor i USA infört så kallade slutexamina (”exit exams”) under senare decennier. Det hela började på 1970-talet i kölvattnet av en debatt kring att värdet av en gymnasieexamen hade urholkats. För att höja kvaliteten på examinerade studenter föreslogs att man skulle införa slutexamina, vilket också gjordes i stor utsträckning i USA. De slutsatser som dras i studien är att man kan se en tydlig effekt att dessa examina differentierar, dvs. minskat likvärdigheten i skolsystemet. Resultaten är inte helt entydiga utan det fanns indikationer på att det för spansktalande kvinnor och svarta fanns en korrelation mellan införande av slutexamina och ökad grad av universitetsutbildning samt positiva effekter på jobbrelaterade utfallsvariabler, vilket tycks indikera att systemet lett till ökad grad av prestationsfokus för dessa grupper även om inte andra faktorer kan uteslutas. Sammanfattningsvis menar Dee och Jacob (2006) att det behövs mer forskning på effekterna av slutexamina för att tydligare kunna uttala sig om vad dessa till synes olika utfall av slutexamina beror på. Denna studie har låg relevans för betygens effekter i skolans tidiga år. Studien behandlar olika typer av examenssystem och deras effekter på framtida utbildnings- och jobbframgång.

Ingen av de studier som Sjögren anför ger alltså belägg för att tidiga betyg ska vara bra. Låt oss därför gå närmare in på Sjögrens egen studie.

Sjögren undersöker registerdata från de betygsreformer som genomfördes i Sverige under 1970-talet då betyg i årskurs 3 och 6 försvann gradvis ända till dess att dessa betyg helt avskaffades med Lgr 80, vilket skedde från läsåret 1982/83. Efter det gavs betyg endast från vårterminen i årskurs 8. Under perioden från 1969 fram till läsåret 1982/83 fick kommunerna avskaffa betyg om de ville, vilket kommunerna gjorde i olika takt. Detta har skapat ett naturligt experiment med möjlighet att jämföra kommuner som avskaffat betyg med de som inte gjort det. Sjögren studerar data från elevkullar födda mellan 1954 och 1974.

De utfallsvariabler Sjögren i första hand fokuserar på är antal år av utbildning (upp till och med gymnasienivå) samt framtida lön. Sjögren beaktar även två andra utfallsvariabler, sannolikheten att eleven tar en gymnasieexamen och sannolikheten att eleven studerar vidare på högskolan. Sjögren undersöker effekter utifrån faktorerna kön och föräldrars utbildningsnivå.

Sjögren finner bland annat en positiv korrelation mellan betyg och fullbordat gymnasium när det gäller flickor, dvs. betyg tycks leda till att flickor fullbordar skolan snabbare. Effekterna är inte stora, som mest motsvarande tre veckor i utbildningstid. För pojkar finner hon inga medeleffekter. När det gäller elever till lågutbildade föräldrar så minskar sannolikheten för dessa att ta gymnasie- eller högskoleexamen om de inte fått betyg. Betyg verkar med andra ord vara bra för elever till föräldrar med låg utbildningsnivå oavsett kön. För pojkar till högutbildade föräldrar finner Sjögren de största positiva effekterna av betygsfrihet, motsvarande upp till sju veckor i förkortad skolutbildning.

Den förklaring som Sjögren ger till sina resultat är att kvantitativ information i form av betyg är bra för barn till föräldrar med låg utbildningsnivå. Sjögren menar att dessa inte kan tillgodogöra sig mer kvalitativ information av den typ som fås på de kvartsamtal med läraren som ersatte betygen på låg- och mellanstadiet. Sjögren menar att den könseffekt hon noterat kan förklaras av att flickor i högre grad underskattar sin förmåga jämfört med pojkar och att betyget därför påverkar dem på ett annat sätt än pojkar.

Om vi jämför Sjögrens resultat med de elva forskningsöversikterna på området så kan vi notera att riktningen på de övergripande könsskillnaderna som Sjögren visar på ligger väl i linje med de som visats av övrig forskning. Men Sjögrens effekter ligger på en något högre nivå, då hon upptäcker en positiv effekt av betyg för flickor. Det ska i sammanhanget påpekas att Sjögrens effekt gäller mer långsiktiga effektmått än det normala. Normalt undersöks betyg och summativa effekters inverkan på motivation och lärande i mer närliggande mått än hur betyg på mellanstadiet påverkar utbildningslängd, utbildningsnivå, inkomst m.m.

När det gäller betygens effekter på lågpresterande elever tycks Sjögrens resultat i flera avseenden gå tvärs emot resultaten i de forskningsöversikter som behandlades tidigare i detta kapitel. Hur kan vi förstå detta? En förklaring till detta läggs fram i Klapp, Cliffordson och Gustafsson (2014) som undersökt samma reform som Sjögren, dock med tillgång till kompletterande information om elevers kognitiva förmågor och elevers bakgrund. Dessutom, medan Sjögren använder ett mått på elevers bakgrund baserat på föräldrarnas utbildningsnivå så använder Klapp et al. (2014) socioekonomisk bakgrund, baserat på en sammanvägning av föräldrars bakgrund, deras inkomst och yrken. De kompletterande data Klapp et al. haft tillgång till kommer från projektet “Utvärdering genom uppföljning” (UGU) som pågått sedan början av 1960-talet vid Göteborgs universitet i samarbete med Statistiska centralbyrån (SCB). I UGU-databasen finns anonymiserade uppgifter om riksrepresentativa stickprov av skolelever. Med hjälp av databasen kan man följa enskilda elever från årskurs 6 upp genom utbildningssystemet upp i vuxen ålder för ett urval årskullar födda från 1948. På så sätt har Klapp et al. (2014) kunnat koppla jämförbara elever som fått betyg med elever som inte fått betyg för ett urval kohorter under den aktuella period som även Sjögren studerade.

Klapp et al. (2014) konstaterar att Sjögren inte haft ett oberoende mått för lågpresterande elever och därför inte kan uttala sig om denna grupp. När Klapp et al. (2014) kontrollerar effekter avseende socioekonomisk bakgrund och kognitiv förmåga finner man i kontrast till Sjögren, men i linje med övrig forskning på betyg och summativa bedömningar, att betyg har en negativ effekt på lågpresterande. Man finner ingen effekt av betyg kopplad till socioekonomisk bakgrund, även det i kontrast till Sjögrens resultat.

En fråga som Klapp et al. (2014) ställer sig är om det kan vara så att kortsiktiga effekter som de själva studerar och långsiktiga som Sjögren studerar kan skilja sig åt. Denna tes avfärdar de eftersom de menar att samma mekanismer rimligen borde ligga bakom båda effekterna, dvs. om man finner kortsiktiga negativa kunskapseffekter av den typ Klapp et al. (2014) fann så borde detta även påverka långsiktiga effekter såsom utbildningslängd, utbildningsnivå och sannolikheten att ta ut en gymnasieexamen. Klapp et al. (2014) menar att saken måste utredas närmare innan man slutligt kan avgöra vad skillnaderna mellan de båda studierna beror på.

I en studie som genomförts efter Klapp et al. (2014) studie, har Klapp (2015b) undersökt mer långsiktiga effekter av samma reform. Förutom betyg i årskurs 7, 8 och 9 studeras även gymnasieexamen som utfallsmått. Klapp studerade endast en kohort elever, de födda 1967, och utgår precis som Klapp et al. (2014) från den databas som finns vid Göteborgs universitet. Totalt ingår 8558 elever i ett nationellt representativt urval i studien. Klapp konstaterar att ”graded low-ability students received lower subsequent grades through Grades 7–9 and had lower odds to finish upper secondary education, compared to ungraded low-ability students” samt att ” [t]he gender difference seems to increase over time: graded girls achieve higher grades throughout Grades 7–9 and had higher odds to finish upper secondary education, compared to ungraded girls and graded and ungraded boys” (Klapp, 2015b, s. 302). Dvs. resultat i linje med de som framkommit i forskningsöversikterna.

Vi finner alltså att det forskningsstöd som Sjögren åberopar huvudsakligen inte har relevans för frågan om tidiga betyg och att de studier som hade viss relevans ligger i linje med forskningen om betyg och summativa bedömningar. Vi finner även att Sjögrens studie tydligt motsäger vad som framkommit i forskningsöversikterna när det gäller betygens effekter på lågpresterande. En möjlig förklaring till detta är att Sjögren inte haft ett oberoende mått på elevers kognitiva förmågor varför det finns skäl att behandla just dessa resultat i Sjögrens studie med försiktighet.

2.1.2    Sammanfattande och utvecklande diskussion kring empiriska belägg av betygens effekter

Det kan vara av intresse att notera att idén om att betyg ska motivera elever till bättre prestationer inte har grund i betygens uppkomst och tidiga utveckling, utan att det verkar vara en idé som växer fram först under 1900-talet. Betygssystem har historiskt växt fram utifrån andra behov, som medel för certifiering och kvalitetssäkring. I studien ”Grades as incentives” hävdar Grant och Green (2013) att utvecklingen av nya betygssystem framför allt drivits av målet att betyg ska ge korrekt information om studenters kunskaper:

In summary, grading systems evolved with the educational system, partly in response to demands for better information about student performance, but were not explicitly designed to motivate students (s. 1565).

De menar vidare att detta i synnerhet gäller för de numera vitt spridda A–F-baserade betygsskalorna, uppbyggda kring kriteriebaserade och kvalitativt skilda betygssteg. Dessa växer fram mot slutet av 1800-talet som ett led i en modernisering och effektivisering av utbildningsinstitutionerna och för att råda bot på vad man ansåg vara godtycklig betygsättning bland lärare. Ett exempel på detta är när man vid Harvard under 1880-talet övergick från procent-betyg till en A–E-skala med motiveringen att studenterna genom denna typ av betyg i lägre grad skulle motiveras att tävla med varandra. Man hävdade även att de nya betygen skulle få studenterna mer fokuserade på genuint kunskapssökande. I en årsrapport från Harvard 1885 kan man läsa följande:

The Faculty last year did away with the minute percentage system of marking, and substituted a classification of the students in each course of study in five groups, the lowest of which includes those who have failed in the course. It is hoped that this grouping system will afford sufficient criteria for the judicious award of scholarships, honorable mention, and the grade of the Bachelor’s degree, while it diminishes the competition for marks and the importance attached by students to College rank in comparison with the remoter objects of faithful work. (Grant & Green, 2013, s. 1565)

A–E/F skalan och andra kriteriebaserade betygsskalor är också de som allmänt rekommenderas av betygsexperter, bland annat för att de leder till mindre prestationskonkurrens, mer korrekt värdering av kunskap samt större fokus på lärande och kunskap jämfört med relativa och mer gradrika system (OECD, 2012). Vi återkommer till detta. Här är dock en fördjupad diskussion kring betygens motiverande effekt på sin plats; den nyss nämnda studien av Grant och Green (2013).

Grant och Green (2013) har studerat vilka incitament som A–F skalan ger studenter. De finner att inte ens där information om betyg potentiellt har som störst motiverande effekt, dvs. för de studenter som ligger precis under gränsen för godkänd prestation, har diagnostisk information om betyg någon motiverande effekt. Låt oss närmare se till hur studien är upplagd.

Grant och Green (2013) använde tio års data från fyra olika kurser inom ekonomiområdet som getts av fem universitetslärare vid två universitet i USA. Varje lärare hade minst 650 studenter sammanlagt. En mängd data om dessa studenters prestationer samlades in, inklusive information om dessa studenters prestationer under kursernas gång: resultat på hemuppgifter, mittexamina (två till fyra stycken) samt slutexamina. Samtliga examinationer var av typen flervalsfrågor (multiple choice), men några kortsvarsfrågor kunde ingå. Samtliga lärare använde en kriteriebaserade A–F-skalan kopplad till en standardskala, vilket är den vanliga uttolkningen av kriteriebaserade betyg i USA. I denna går gränserna för A gick vid 90%, för B vid 80%, för C vid 70%, för D vid 60% och där resultat under 60% gav F, dvs underkänt betyg. För att inte få bias i studien från studenter som låg långt under att klara godkänt betyg valde forskarna att dra gränsen för inkluderade studenter vid 50% (baserat på vad de presterat inför slutexaminationen). Följande slutsats dras:

Though the threshold grade incentives studied here are economically meaningful, they do not inspire the students in our data to strategically raise their exam scores when their grades are most likely to benefit, even when it means the difference between passing and failing (Grant & Green, 2013, s. 1582).

Forskarna finner alltså ingen motiverande effekt av att studenter gavs information om betyg, inte ens för de studenter som har som mest att vinna på det, de som låg på gränsen till att klara sig. Jag återkommer till mer teoretiskt förankrade förklaringar av detta i nästa avsnitt.

2.1.3    Teoretiskt förankrade argument kring betygens effekter på elevers lärande och motivation

Trots att betygens roll för motivation och lärande visat sig huvudsakligen negativ i de senaste decenniernas forskning, och därtill tydligt negativ för lågpresterande, så fortsätter betyg att föras fram som viktiga för just elevers motivation och lärande. Hur kommer detta sig? En förklaring som lagts fram är att ekonomi- och psykologiforskning, de områden som dominerat betygsforskningen, dominerats av skinnerianska teorier och att dessa teorier ofta okritiskt applicerats även inom utbildningsområdet utan empiriskt stöd (Yeager et al., 2014; Grant & Green, 2013). Grant och Green (2013) menar därtill att betyg rimmar väl med allmänna föreställningar om hur incitament fungerar vilket gör att många kan ha svårt att acceptera resultat som pekar på andra effekter. En tredje förklaring är att forskningen kring incitament inte tydligt skiljt mellan proceduriell och heuristisk kunskap (t.ex. repetition vs problemlösning). Över huvud taget har forskningen kring elevers motivation för lärande utvecklats mot en ökad teoretisk medvetenhet det senaste decenniet.

Vad senare års forskning visat är att den typ av extern belöning som betyg hör till (hit hör även incitament som pengar) kan ha en viss effekt på proceduriella kunskaper men inte på heuristiska dito:

The general finding is that they improve performance in “algorithmic,” or repetitious, tasks but are less effective or even counterproductive at “heuristic” tasks that require creativity, concentration, or intuition. (Grant & Green, 2013, s. 5; jfr Yeager et al., 2014).

Liknande resultat har visats i andra studier kring hur incitament påverkar  elevers prestationer. Gneezy, Meier och Rey-Biel (2011) diskuterar de resultat som framkommit i forskning kring incitament och behandlar bland annat en studie av Fryer (2011), som utfört randomiserade försök vid grundskolor i USA under två läsår 2007-2009. Fryer (2011) undersökte hur pengar mest effektivt kunde fungera som incitament till ökade resultat. Variabler som undersöktes var av mer direkt art såsom närvaro eller att en elev läser en bok, men även mer indirekta såsom betyg. Totalt 6,3 miljoner dollar distribuerades till 38 000 elever vid 261 skolor. Ett resultat var att incitament som riktar sig till mer indirekta utfall såsom betyg hade lägre effekt än de som riktade sig till mer direkta utfall såsom närvaro, gott uppförande, att bära uniform osv. Gneezy et al. (2011, s. 197) menar att en förklaring till detta kan vara att elever, “even if they are motivated by rewards, may not know how to turn their efforts into success”. Detta kan jämföras med den starka betoningen på bedömning för lärande inom pedagogisk forskning (Hattie & Timperley, 2007). Även om en elev vill ha högre betyg och är motiverad av de extra pengar hon eller han kan få som resultat av detta ger pengarna i sig inte eleven de verktyg som den skulle behövt för att förbättra sin prestation relativt de komplexa lärandemål betyg ska vara uttryck för (Yeager et al., 2014; jfr Harkin et al., 2016).

Även om yttre incitament som pengar kan ha betydelse för enklare förmågor så finns det flera skäl att fundera över om den vägen är den rätta, inte minst då det kan bli ganska dyrt. En forskargrupp som fördjupat sig i motivation relativt repetitiva och “tråkiga” skoluppgifter är Yeager et al. (2014). De menar att skolarbete aldrig fullt ut och hela tiden kan vara roligt utan att de flesta undersökningar pekar mot att fler och fler elever upplever skolarbete som just tråkigt och hellre prioriterar annat. En viktig fråga är därför vad som kan förklara att elever ägnar sig åt tråkiga skolmoment. Yeager et al. (2014) har under senare tid även intresserat sig för hur laboratorieförsök som syftar till att öka elevers motivation för studier kan skalas upp och implementeras i skolan.

Elevers uthållighet i studier av till synes enformiga och tråkiga skoluppgifter har visat sig mycket central för att förstå varför elever lyckas i sina studier. Yeager et al. (2014) testade tre olika typer av motiv till studier: transcenderande (omvärldsorienterade) motiv, självcentrerande inre motiv och självcentrerade yttre motiv. Den första typen av motiv handlade om studier som ett sätt att bidra till en bättre värld medan de senare handlade om studier för att man var intresserad av området ifråga (inre) eller att man ville studera för att få ett bättre jobb eller högre lön (yttre) (Yeager et al., 2014, s. 562). De kunde i sina försök visa att det enda som hade signifikant effekt på elevers förmåga att ta sig an tråkiga skoluppgifter var transcenderande motiv, medan elever som uppvisade den andra typen av motiv inte skilde sig signifikant från kontrollgrupperna. Yeager et al. (2014, s. 575) poängterar i diskussionen att dessa resultat gäller träning av enklare förmågor och därför kan anses ha störst effekt på lågpresterande elever. Hur mer altruistiska motiv till studier och hårt arbete i skolan påverkar toppresterares resultat är en fråga för framtida forskning.  Sammantaget visar denna typ av forskning på tidigare förbisedda aspekter av pedagogiskt verksamhet och vad som får elever motiverade till hårt arbete. Det pekar inte mot betyg som en lösning av de utmaningar som finns med elever som inte når målen utan det handlar snarare om att arbeta med eleverna så att de utvecklar genuina motiv för sina studier.

Conservation of Resources Stress Theory (COR-teorin) är en teori som utvecklats och prövats i betygssammanhang (Klapp, 2015a, s. 50). Det är en motivations- och stressteori som utvecklats inom forskningsområdena medicin, psykologi och sociologi men som tillämpats även inom utbildningsområdet. Teorin avser att förklara hur människor utifrån olika förutsättningar reagerar på och hanterar stressfyllda situationer såsom prestationssituationer i skolan. COR-teorin utgår från att eleven vid en given tidpunkt har en viss tillgång till resurser i relation till ett visst skolämne. Det kan handla om attityd till ämnet, uppfattning av den egna kompetensen, självkänsla och förmåga att reglera sina egna känslor. Framtida händelser eleven upplever i skolämnet kan både hota eller skapa nya resurser för eleven. En utgångspunkt i teorin är att en negativ påverkan (såsom att misslyckas på ett prov) har proportionellt större inverkan på resurserna än en positiv påverkan (såsom att lyckas på ett prov). Det krävs därför mindre påverkan för att rasera resurser än det krävs för att bygga upp dem (Klapp, 2015a, s. 50-51). COR-teorin förklarar det som empiriskt visats i studier av betyg och summativa bedömningars effekter på elevers motivation för lärande, nämligen att svagpresterande elever samt elever som överskattar sin förmåga i skolarbete (vilket pojkar tenderar att göra) förlorar mycket på negativ feedback i form av betyg och summativa bedömningar medan högpresterande elever samt flickor inte påverkas i samma utsträckning. COR-teorin förklarar också varför starka positiva effekter inte noteras i relation till betyg och summativa bedömningar.

COR-teorin samt distinktioner kring proceduriella kontra heuristiska kunskaper tillsammans med nya motivationsteorier har det senaste decenniet gett nya insikter inom området betyg och summativa bedömningar som problematiserat och vederlagt teorier som tidigare dominerat området. Betyg och summativa bedömningar har och kommer fortsatt ha en viktig funktion att fylla i utbildning i syfte att generera resultat om elevers kunskapsnivåer, både som information men också för att hålla lärare, elever och skolor ansvariga för dessa resultat. I relation till motivation för lärande, självkänsla och andra viktiga egenskaper för elever så handlar det alltså framför allt om att utforma resultatsystem vars negativa effekter på dessa egenskaper minimeras.

2.1.4    Antal steg i betygsskalan

Det kan i sammanhanget vara intressant att nämna en undersökning av betygssättning i olika länder som gjordes som del av PISA 2009 och omfattar 21 länder (OECD, 2012). Den enkät som specifikt behandlade betyg distribuerades endast i 17 av dessa länder.[2]  En aspekt av ett betygssystem som OECD särskilt tryckte på är vikten av att betyg ska ge ett korrekt och likvärdigt mått på elevers kunskaper. Kriteriebaserade system med ett fåtal kvalitativt skilda godkända betygssteg som beskriver prestationsgrader såsom godkänd, väl godkänt, utmärkt och så vidare visar sig klart bättre jämfört med relativa och gradrika skalor. OECD (2012) menar därtill att den senare typen av skalor uppmuntrar till skadligt tävlande vilket i sin tur leder till fel fokus i verksamheten, det vill säga till att elevers fokus förskjuts från det väsentliga lärandet till andra mer strategiska överväganden. De menar att kvalitativa skalsteg skapar bättre överensstämmelse mellan betyg och prestation jämfört med mer kontinuerliga betygsskalor. När det gäller de senare skalorna finns en tendens att olika lärare lägger in olika betydelse i de olika skalstegen, något som tycks kunna hanteras bättre med de kvalitativt preciserade skalorna.

3    Avslutande ord

Betyg, tidig uppföljning av elevers kunskaper, tydliga kriterier för elevers kunskaper och ansvarssystem kopplade till detta ligger fortsatt högt upp på många partiers skolpolitiska agenda i syfte att åstadkomma en bättre skola. Men är det den bästa vägen att gå för svensk skola?

Det som förvånade mig i genomgången av forskningen var hur svagt stödet för betyg var. Av de fåtal studier som lyfter fram positiva effekter var huvuddelen baserade på rent teoretiska antaganden om betygens effekter, det vill säga utan grund i hur betyg faktiskt påverkar elevers kunskaper och motivation. Detta att jämföra med de otal forskningsöversikter som visar på ytterst problematiska effekter av betyg och summativa bedömningar på elevers lärande och motivation.

I skollagen står det att skolan ska vila på vetenskaplig grund. Vad menas med det i ljuset av all den forskning som finns på nationellt utformat ansvarssystem med gränser för godkända prestationer? Varför framhärdar politiker att systemet misslyckats för att kraven varit för låga och att det därför krävs mer av samma medicin som redan prövats i drygt två decennier: det krävs tidigare betyg och uppföljning, tydligare ansvar, tydligare kunskapskrav osv. Är det inte dags att inse att förlorarna i detta system varit de systemet i dess begynnelse var tänkt att hjälpa: lågpresterande elever (under godkändgränsen)? Det är dags att vi på allvar börja tala om det svaga stöd som finns för betyg och dylika uppföljningssystem, och de negativa effekter som otaliga översikter lyft fram. Vetenskaplig grund kallas det. Det behöver inte betyda att vi överger vare sig betyg, krav eller ansvarsutkrävande, de kan ha ett syfte att spela i skolan, men vi kan inte låtsas som att de har effekter på skolans kvalitet som de att döma av all tillgänglig forskning med största sannolikhet inte har.

(Ovanstående text är ett utdrag ur en längre underlagsrapport jag tog fram för något år sedan och som aldrig publicerats. I rapporten belystes även systemaspekter av betyg och betygens roll för tidig uppföljning. Dessa texter har jag besparat läsaren, men sammanfattningen gällande betygens roll för uppföljning lyder:

Sammanfattningsvis kan man se att det inte finns några enkla kopplingar mellan kunskapskrav, betyg och särskilt stöd. Det finns i denna genomgång av forskning på svenska förhållanden inga indikationer på att betyg skulle utgöra en central komponent i ett välfungerande stödsystem.

Även om inte relationen mellan särskilt stöd, måluppfyllelse och tidiga betyg finns tydligt belyst i forskningen så är den bild som framträder av en stödjande skolmiljö för barn relativt tydlig; betyg är ett för trubbigt och oprecist instrument för att kunna bidra till att styra kvalitet på och omfattning av en så komplex åtgärd som särskilt stöd till barn.)

Referenser

Ames C. (1992). Classrooms: goals, structures and student motivation. Journal of Educational Psychology, 84(3), 261–271.

Azmat, G. & Iriberri, N. (2010). The importance of relative performance feedback information: evidence from a natural experiment using high school students. Journal of Public Economics, 94(7–8), 435–452.

Bandiera, O., Larcinese, V. & Rasul, I. (2009). Blissful ignorance? Evidence from a natural experiment on the effect of individual feedback on performance. Working paper.

Becker, W. & Rosen, S. (1992). The learning effect of assessment and evaluation in high school. Economics of Education Review, 11(2), 107–118.

Betts, J. R. (1998). The impact of educational standards on the level and distribution of earnings. American Economic Review, 88(1), 266–275.

Betts J. R. & Grogger, J. T. (2003). The imapct of grading standards on student achievement, educational attainment, and entry-level earnings. Economics of Education Review, 22(4), 343–352.

Black, P. & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.

Brookhart, S. M. (2015). Graded achievement, tested achievement, and validity. Educational Assessment, 20(4), 268–296.

Costrell, R. M. (1994). A simple model of educational standards. American Economic Review, 84(4), 956–971.

Crooks, T. (1988). The impact of classroom evaluation practices on students. Review of Educational Research 58(4), 438–481.

Dee, T., & Jacob, B. (2006). Do high school exit exams influence educational attainment or labor market performance?NBER Working Paper No W12199.

Elsner, B. & Isphording, I. E. (2015). A big fish in a small pond: ability rank and human capital investment. IZA Discussion Papers 9121, Institute for the Study of Labor (IZA).

Figlio, D. & Lucas, M. E. (2004). Do high grading standards affect student performance. Journal of Public Economics, 88(9–10), 1815–1834.

Fryer, R. (2011). Financial incentives and student achievement: evidence from randomized trials.The Quarterly Journal of Economics,126(4), 1755–1798.

Gneezy, U., Meier, S. & Rey-Biel, P. (2011). When and why incentives (don’t) work to modify behavior. The Journal of Economic Perspectives, 25(4), 191–209.

Grant, D.  & Green, W. B. (2013). Grades as incentives. Empirical Economics,44(3), 1563–1592.

Harkin, B., Webb, T. L., Chang, B. P. I., Prestwich, A., Conner, M., Kellar, I., Benn, Y. & Sheeran, P. (2016). Does Monitoring Goal Progress Promote Goal Attainment? A Meta-Analysis of the Experimental Evidence. Psychological Bulletin, 142(2), 198–229.

Harlen, W. & Deakin Crick, R. (2002). A systematic review of the impact of summative assessment and tests on students´ motivation for learning (EPPI-Centre Review, version 1.1). Research evidence in educational library. London: EPPI-Centre, Social Science Research Unit, Institute of Education.

Hattie, J. & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.

Kellaghan, T., Madaus, G. & Raczek, A. (1996). The use of external examinations to improve student motivation. Washington DC, US: AERA.

Klapp, A. (2015a). Bedömning, betyg och lärande. Lund: Studentlitteratur.

Klapp, A. (2015b). Does grading affect educational attainment? A longitudinal study. Assessment in Education: Principles, Policy and Practice, 22(3), 302–323.

Klapp, A., Cliffordson, C. & Gustafsson, J-E. (2014). The effect of being graded on later achievement: evidence from 13-year olds in Swedish compulsory school. Eductional Psychology: An international Journal of Experimental Educational Psychology.

Kluger, A. N. & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.

Lundahl, C., Hultén, M., Klapp, A. & Mickwitz, L. (2015). Betygens geografi: forskning om betyg och summativa bedömningar i Sverige och internationellt.Stockholm: Vetenskapsrådet.

Madaus G. F. & Clarke, M. (2001). The adverse impact of high stakes testing on minority students: evidence from 100 years of test data. I G. Orfield & M. L. Kornhaber (red.).Raising standards or raising barriers? Inequality and high stakes testing in public education. New York: The Century Foundation.

McDaniel, M. A., Anderson, J. L., Derbish, M. H. & Morrisette, N. (2007). Testing the testing effect in the classroom. European Journal of Cognitive Psychology, 19(4-5), 494–513.

McDaniel, M. A., Roediger, H. L. & McDermott, K. B. (2007). Generalizing test-enhanced learning from the laboratory to the classroom. Psychonomic Bulletin & Review, 14(2), 200−206.

McDonald, A. (2001). The prevalence and effects of test anxiety in school children. Educational Psychology 21(1), 89–101.

McNeil L. & Valenzuela, A. (2000). The harmful impact of the TAAS system of testing in Texas: beneath the accountability rhetoric. Houston, Texas, US: Rice University.

Murphy, R. & Weinhardt, F. (2014). Top of the Class: the Importance of Ordinal Rank. CESifo Working Paper Series No. 4815.

Natriello, G. (1987). The impact of evaluation processes on students. Educational Psychologist 22(2), 155–175.

OECD (2012). Grade expectations: how marks and education policies shape students’ ambitions. Paris: Organisation for Economic Co-operation and Development (OECD).

Promemoria 2014-08-20. U2014/4873/S En bättre skolstart för alla: bedömning och betyg för progression i lärandet. Utbildningsdepartementet.

Shepard, L., Kagan, S. L. & Wurtz, E. (red.) (1998). Principles and recommendations for early childhood assessments. Washington, DC: National Education Goals Panel.

Sjögren, A. (2010). Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7. Uppsala: IFAU – Institutet för arbetsmarknad och utbildningspolitisk utvärdering.

Taras, M. (2007). Assessment for learning: understanding theory to improve practice. Journal of Further and Higher Education, 31(4), 363–371.

Yeager, D. S., Henderson, M. D., Paunesku, D., Walton, G. M., D’Mello, S., Spitzer, B. J. & Duckworth, A. L. (2014). Boring but important: a self-transcendent purpose for learning fosters academic self-regulation. Journal of Personality and Social Psychology, 107(4), 559–580.

[1]De tester som användes var: flervalstest, kortsvarstest samt läsuppgift, vi kan kalla den senare ”lästest” då den innebar studenterna med denna behandling fick i uppgift att läsa igenom tester med de rätta svar färdigifyllda

[2]Rapporten bygger på en enkät som distribuerades till 21 av de deltagande länderna i PISA 2009. 14 OECD länder: Australien, Österrike, Belgien, Ungern, Island, Irland, Italien, Korea, Mexiko, Nya Zeeland, Polen, Portugal, Slovakien och Slovenien och sju partner länder/ekonomier: Kroatien, Hong-Kong, Lettland, Macao, Serbien, Singapore, Trinidad och Tobago. Australien, Hong-Kong, Korea och Slovenien distribuerade inte delenkäten gällande betyg och ingår inte i den delen av analysen i rapporten.

Skolverket och den stora konspirationen

De senaste veckorna har sett en intensiv skoldebatt med högt och hårt tonläge. Det märks att valet närmar sig. Bland annat har debattörer försökt förklara varför Björklund misslyckades med sin ambition att skapa en tydlig läroplan under sin regeringstid. Den teori som lanserats menar att det var ”mäktiga tjänstemän” som förde in en konspiratorisk pedagogik i läroplanen som gick på tvärs med Björklunds intentioner.  Hur kunde han och departementet missa detta frågar sig vän av ordning? I synnerhet som forskningen visat att just Björklunds departement är det som jobbat närmast Skolverket, och som i högre grad än tidigare departement kontrollerat och styrt så att Skolverket följt departementets linje (se Magnusson 2018).

Jag har en annan teori. Skolverket är en myndighet. Myndigheter censurerar och friserar, i synnerhet när det gäller kritik mot rådande system och reformer. Det ligger så att säga i sakens natur. Dels att det alltid finns stark kritik, dels att det gäller för myndigheten att inte släppa lös kritiken – det vore ju att skjuta den egna legitimiteten i sank.

Jag vet flera kollegor som blivit censurerade av Skolverket. Vi tillhör alla vad som med en slarvig beteckning kan kallas ”pedagogiskt etablissemang”. Vi har bidragit till att skriva rapporter som varit för obekväma (för systemkritiska) och som aldrig publicerats och så vidare. Jag har själv blivit censurerad av Skolverket tre gånger. Den första gången skrev jag om med Ingrid Carlgren på DN-debatt 2004 under titeln ”Skolverket sprider myter”. Senaste gången var en rapport där ett kapitel jag skrivit som riktade kritik mot nuvarande styrsystem ströks.

Den andra gången jag blev bortfriserad var nedanstående intervju med mig gjord i november 2010. Den låg ute på Skolverkets hemsida några timmar, men togs sedan bort. Flera av frågorna i intervjun gällde den då nyligen genomförda läroplansreformen, Lgr 11. Som läsaren ser framför jag synpunkter som – så här i efterhand – jag förstår att Skolverket valde att ta bort från sin hemsida. Varför på sin egen hemsida lägga ut kritiska synpunkter mot en nyligen genomförd reform?

Jag blir illa berörd av tonläget i skoldebatten. I Sverige idag är det ett ”pedagogiskt etablissemang” som anses ligga bakom allt som är fel med skolan genom en ideologidriven konspiration – vi anses ha tentakler in på självaste Skolverket! Tidningar tar tacksamt emot och publicerar. Inläggen eggar. Etablissemanget! Ner med etablissemanget! Det spelar ingen roll att ”vi” var bland de första kritikerna av Lgr 11 och dess otydlighet.

 

Intervju med Magnus Hultén, 9 november 2010.

I:                    Intervjuare

MH:               Magnus Hultén

===

I: Finns det någon aspekt av de pågående skolreformerna som är extra intressant för dig med tanke på den forskning du bedrivit kring utformningen av naturvetenskaplig utbildning?

MH: Det som jag tycker mig se, det är att den trend som är inslagen sen tidigare fortsätter. Det vill säga, det undersökande arbetssättet förstärks, alltså betoningen av det. Att man ska skolas i att göra systematiska undersökningar och så vidare, samt att kritiskt granska fakta från tidningar, naturvetenskapligt relaterade samhällsfrågor, att det också förstärks. Det vill säga kärnkunskaper i biologi, fysik, kemi, begreppsförståelse, teoriförståelse och så vidare, det kanske får en ytterligare försvagad ställning. Men det är min tolkning.

I: Brukar det vara stora skillnader mellan intentionen bakom till exempel en kursplan och hur den tolkas?

MH: Man kan se det på två sätt, först att det finns intentioner och att det inte alltid blir som det var tänkt. Men jag tänker att man också kan se det så här, att de som skapar kursplaner och läroplaner bara har vaga idéer om vad de vill. De har idéer och vilja och visioner, men exakt hur det ska se ut, det har de ingen aning om. Så det skapas dokument som med nödvändighet är ganska öppna och ofullständiga och som lämnar utrymme för att realiseras på många olika sätt. Och det är inte givet vad som kommer att betonas. Här spelar samtida strömningar väldigt stor roll. När 1980 års läroplan infördes så började ju miljöfrågorna komma starkt. Men det var först i slutet av 80-talet som man verkligen fick de där begreppen för att tala om miljön, alltså ”hållbar utveckling”, ”biologisk mångfald” och så vidare. Så det dröjde ett decennium innan begreppen för att hantera miljöfrågorna kom på plats.

I: Vad baseras sådana här reformer egentligen på?

MH: Det kan se olika ut i olika läroplansreformer. Den reform vi ser just nu är att betrakta som en revisionsreform lik den som var 1969 som sköttes inom Skolöverstyrelsens organisation. Det har alltså inte varit frågan om en ny läroplan och nya idéer så jättemycket, utan det är mer frågan om någon sorts revidering av målreformen 1994, en nödvändig revidering av några av de problem som man upplevt att reformen 1994 hade. Likvärdighet verkar ha varit den ledande riktlinjen, att skapa enklare dokument för ökad likvärdighet. Men några visioner för ämnena konkret tycker jag inte man kan se denna gång.

Men man kan ju gå tillbaks till andra reformer och se att det har funnits starka idéer även kopplade till hur ämnena ska framställas. En av mina favoritreformer är den 1918, den nya undervisningsplanen som man brukar lyfta fram som en milstolpe i folkskolans historia genom att den fick en mer medborgarbildande inriktning. Man hade redan i början av 1900-talet haft en del olika idéer kring samverkan mellan naturkunnigheten [som ämnet kallades då] och geografiämnet. I stället för att fokusera naturens objekt som man hade gjort i slutet av 1800-talet, alltså hundar, fiskar, fåglar och blommor, så skulle man nu fokusera landskap och sjöar och natursystem, för att det var mer pedagogiskt. De ansågs forma sig till en naturlig helhet hos barnet. Det var alltså en tydlig pedagogisk idé som låg bakom mycket av reformarbetet för naturämnet vid den reformen. Men något sådant har jag inte sett denna gång. Det behöver ju inte finnas varje gång, utan ibland är det rent teknokratiska eller byråkratiska reformer.

I: Finns det planer för om och i så fall hur den pågående reformen ska utvärderas?

MH: Det är en bra fråga, jag har inte sett något sådant, men jag hoppas att det görs utvärdering och uppföljning. För jag tror att det är ett ganska digert arbete man har lagt ner. Annars tror jag arbetet är lite ogjort. En stor fråga rör ju den nya strukturen. För det första har de nya kursplanerna mål. Dessa är formulerade på samma sätt som strävansmålen i de förra kursplanerna, där det handlar om vilka mer övergripande förmågor som ska utvecklas i ämnet. Sen finns det ett centralt innehåll, och kunskapskrav. Och de här tre hänger ju ihop, så är det ju tänkt, men frågan är hur det kommer att användas av lärare. Och i slutändan är det ju de lokala dokumenten som blir styrande och frågan är hur dessa skapas. Kommer dessa att bygga helt och enbart på kunskapskraven? Hur kommer det centrala innehållet användas? Vilken roll kommer målen att spela, och, kanske ännu mer intressant hur kommer de tre olika delarna att kombineras, dvs vilket centralt innehåll paras ihop med vilka mål och vilka kunskapskrav när det skrivs planeringar? Jag märker när jag ger de nya kursplanerna till lärare i lärarutbildningen att man kan para ihop det lite hur som helst. Och det kanske är bra om det fungerar så, men jag tror att det finns många oklarheter kring hur de här nya styrdokumenten kommer att fungera. Och det måste följas upp tror jag om det ska vara någon vits med det här.

Om man går tillbaks i historien till min favoritreform, grundskolereformen 1962, så hade man hållit på i tio år och utvärderat undervisningsformer. Det var hundratusentals elever i slutet som var utsatta för olika experiment, där man testade undervisningsmetoder och innehåll. Även om slutsatserna av försöken ingalunda var entydiga så körde man igång grundskolan. Men man insåg att det här var en så stor reform att man behövde en kontinuerlig uppföljning, så man skapade olika metoder för det. Man skapade särskilda utvecklingsblock, alltså kommuner som var speciellt fokuserade på att ligga i framkanten på olika sätt. Sen fanns det särskilda pedagogiska arbetsgrupper som var knutna till Skolverket och vars uppgift var att plocka upp information från fältet hela tiden och på så sätt återkoppla och föra vidare den informationen till Skolöverstyrelsen. Efter fyra år av kontinuerlig uppföljning av grundskolereformen så tog man så i början av år 1966 beslut att revidera grundskolans första läroplan, en revidering som ledde till 1969 års läroplan. Det tycker jag är föredömligt på det sättet. Men det fanns ju oändligt mycket pengar i Sverige på den tiden så det var helt annat än idag. Det får man väl ha i åtanke.

I: Kan du säga något om vad du tror att de viktigaste konkreta konsekvenserna av den nuvarande reformen kommer att bli för hur lärare undervisar inom de naturvetenskapliga ämnena, och hur elevernas lärande utvärderas?

MH: Det har ju talats så mycket om ämneskunnande, att vi ska höja elevernas kunskaper i naturvetenskap. Men när jag tittar på den här reformen så undrar jag lite vad man menar med det. Sett till de kunskapskrav som Skolverket föreslagit så verkar ungefär en tredjedel vara av den typ som man normalt förknippar med ämneskunskap, det vill säga att förstå evolution, förstå kemiska förlopp och så vidare medan en tredjedel är mer granskande, human/samhällsvetenskapliga aspekter av naturvetenskaplig kunskap. Om man tänker sig en blivande lärare med en rent naturvetenskapliga skolning, har ju denne inte riktigt utbildats för att hantera den senare typen av frågor. Ytterligare en tredjedel av kunskapskraven rör det undersökande arbetssättet och också här kan man ställa sig frågande till hur de ska hanteras. Det är klart att en som doktorerat inom naturvetenskap har vissa inblickar i vad ett naturvetenskapligt arbetssätt är, men det är ju inte så att elever i grundskolan ska jobba som man gör på universitetet. Där har man ju mycket dyra instrument och så vidare. Naturvetenskapen ser ju ut på ett helt annat sätt ute i skolorna. Där blir det någon form av individualiserad undersökande verksamhet, som följer andra premisser än den naturvetenskapliga forskningen. För det undersökande arbetssättet har man ofta hämtat inspiration från vetenskapsteori, vetenskapsfilosofi och vetenskapssociologi. Det är säkert positivt för framtiden att elever lär sig det här och får någon form av kompetens. Men jag undrar, var det verkligen det man ville ha? Som jag tänker mig hela den här debatten och upprinnelsen till Björklunds skolpolitik, och till den här reformen och förändringarna som görs i skolan, så är det ökat fokus på kunskap, mer ”the hard core”, kunskap om vad kraft är, att de ska kunna vissa kemiska förlopp, att man ska kunna evolutionsteori och så vidare, när man går ut grundskolan. Jag tror allmänhet och politiker tänker sig naturvetenskapliga kunskaper som detta. Men när jag ser på reformen och så som texterna är skrivna i kursplanen, så tycker jag att denna typ av kunskaper får mindre utrymme än tidigare, det är andra kunskaper som bedöms viktigare. Det lägger jag ingen värdering i för egen del, jag bara tycker att det är lite intressant.

Det är ju en sak att initiera en sådan reform som denna, och vilka motiv som finns bakom. Varje läroplansreform innebär att gränserna för ämnet dras om, att vissa innehåll minskar på bekostnad av något annat. Den grupp som sitter och skriver kursplanerna har stora möjligheter att forma ämnet lite som de känner för, och kanske även till delar på tvärs med vad de som initierade reformen tänkt sig. Här finns ju alla möjligheter, för så detaljstyrt kan inte instruktionerna till kursplaneförfattarna vara, då blir det tal om ministerstyre.

===

Symposium om 1968 och pedagogiken

I en uppmärksammad politisk manifestation ockuperade studenter i maj 1968 sitt eget kårhus i Stockholm. Den 25:e kom dåvarande utbildningsministern Olof Palme dit för att diskutera med de protesterande studenterna. Det är ett av de ikoniska ögonblicken i den svenska samtidshistorien.

Nu, exakt femtio år senare, arrangerar vi ett symposium om 1968 och pedagogiken. Även om en hel del på symposiet kommer att kretsa kring det som hände under den där händelserika majmånaden kommer det också handla om mycket annat. Ambitionen är att ta ett bredare grepp, utifrån en rad olika infallsvinklar, på pedagogik, skola och högre utbildning i Sverige under det som kallats det röda decenniet från 1965 till 1975. Det var en tid av stark politisering och ett ifrågasättande av tidigare givna sanningar, även inom pedagogikens område. Många drömde om och försökte också konkret arbeta med alternativa undervisnings- och utbildningsformer. Mycket var onekligen naivt, men det finns ändå skäl att så här ett halvt sekel senare fråga om vi idag, vad gäller det politiska och framför allt det pedagogiska, kan ha något att lära av denna så omvälvande period.

25 maj 2018 kl. 10.00–17.00
Södertörns högskola, lokal MB505

Preliminärt program:
10.00–10.10 Anders Burman och Joakim Landahl: Inledning
10.10–10.45 Kjell Östberg: Palme, utbildningspolitiken och maj 68
Kaffe
11.00–11.35 Alexander Ekelund: Studentorganisering vid sextiotalets slut
11.35–12.10 Kajsa Ohrlander: Dialogpedagogiken, kritiken och konstruktionen av en manlig intellektuell
Lunch
13.00–13.35 Sven-Eric Liedman: I skuggan av Vietnam och UKAS. Akademisk undervisning 1968
13.35–14.10 Janne Holmén & Johanna Ringarp: 1968 och reformer av högre utbildning i Sverige och Finland
Kaffe
14.30–15.05 Joakim Landahl & Daniel Lövheim: Ner med meritokratin!
15.05–15.40 Christian Lundahl: Tidningen Krut och betygsmotståndets dialektik
Paus
15.55–16.30 Anders Burman & Shamal Kaveh: 68, det politiska och det pedagogiska
Avslutande diskussion
Mingel

Symposiet, som är ett samarrangemang mellan idéhistorieämnet vid Södertörns högskola och Institutionen för pedagogik och didaktik vid Stockholms universitet, är öppet för allmänheten och kräver ingen föranmälan. Fri entré.

Varmt välkoma!
Anders Burman & Joakim Landahl

1968 affisch

Mind the gap – återkoppling i praktiken

Formativ bedömning på senare tid allt oftare anklagats för att leda tlll en instrumentell undervisning inriktad bara på det som krävs för att nå vissa kriterier. I Sverige har inte minst Ingrid Carlgren stått bakom en sådan kritik (t.ex. här). Den har dock också figurerat ett tag i den internationella bedömningsdiskussionen. Dylan Wiliam påpekade relativt tidigt att det råder flera missförstånd kring Bedömning för lärande, som gör att implementeringen inte riktigt fungerat som förväntat (t.ex. i Stewart, 2012). Även andra företrädare för ”Bfl-rörelsen” menar att problemen med implementeringen av Bfl på nationell nivå – där Bfl ofta blivit ett instrumentellt sätt att nå förenklade mål – hör ihop med att man missförstått begreppet formativ bedömning. Den japanska forskaren Shuichi Ninomiya har istället ingående diskuterat svagheterna i hur formativ bedömning definierats hos just företrädare för Bfl, som t.ex. Dylan Wiliam.

Ninomiya menar att de ursprungliga teorierna om formativ bedömning inte tydligt skiljer mellan ”konvergent” och ”divergent” bedömning, dvs. mellan ett kriteriestyrt bedömande och ett mer förutsättningslöst sätt att utforska individens kunnande. Poängen är att de tre nyckelprocesserna i formativ bedömning för att avgöra ”var eleverna befinner sig i sitt lärande, vart de ska och vad som behöver göras för att få dem dit” ofta tolkas som: vilken nivå är eleven på, vad är nästa steg i sekvensen för att hjälpa dem om de misslyckas och hur identifierar man nästa mål. Det är enkelt att i det här fallet uppfatta framgång i lärande som att uppnå målet, och lärarens roll då blir att uppmuntra studenten att behärska små och detaljerade aspekter av läroplanen – ”closing the gap” (jfr Sadler 1989). Som ett resultat blir processen med formativ bedömning mekanisk: man bedömer prestationer i förhållande till målet och berättar för studenten hur man når målet istället för att upptäcka vad de lär sig.

Den interaktiva processen, som egentligen är huvudfunktion i Bfl, tenderar att minska till förmån för en avkodning av mål och framgångskriterier i enkla fraser som eleverna kan förstå, eller uttryckt i små steg som eleven kan nå bit för bit. Därmed finns en risk att man försummar upptäckten och uppbyggnaden av kunskap genom utforskande av ett större ämnesinnehåll. Eleverna tillåts endast utveckla en ”processuell autonomi”, skriver Ninomiya, där de uppmuntras att förstå sin nivå och de steg som de förväntas ta. Denna praxis riskerar dock att ta bort utmaningen med att verkligen lära sig, att utveckla förmågan att lära sig lära: ”elevautonomi”. Undervisningen blir en serie coachingtekniker för att möta målen. Torrance (2007) har en term för detta skriver Ninomiya, ”criteria compliance” (s. 282), där undervisning och lärande blott blir en fråga om att skapa ”överensstämmelse” mellan ett mått på elevens kunskap och målen. En lösning Ninomiya ser är att inte betona feedback i syfte att “closing the learning gap”, utan snarare se feedback som en dialog, i en interaktiv process i syfte att påverka det pågående lärandet. Det handlar om att vara medveten om gapet snarare än att stänga det: Mind the gap! Detta pekar också mot att eleverna måste involveras mer i bedömningsprocessen.

I en ny avhandling från Karlstad universitet visar Anna Öhman (2017) just på skillnaden mellan den enkla teoretiska modellen för ”closing the gap” och den komplexitet varmed bedömning ofta sker. En utgångspunkt är att mycket av den forskning som finns om återkoppling bygger på enkla experiment där det finns en tydlig ”sändare och en mottagare” för en dessutom oftast verbal återkoppling. Anna Öhman ville utmana denna bild och valde att filma interaktion mellan läraren och elever för att däri spåra återkopplingens mekanismer.

I avhandlingens teoretiska delar beskriver Öhman skillnaden mellan återkoppling som produkt eller process och hon diskuterar olika sätt att se på bedömning där man exempelvis inom ett sociokulturellt perspektiv betraktar bedömning som interaktiv, dynamisk och kollaborativ samt integrerad i undervisningen, medan ett behavioristiskt perspektiv på bedömning snarare ser bedömning som stimulus och respons i ett mer prestationsinriktat lärande. Bedömning som piska, morot och i termer av rätt och fel. Den moderna bedömningsforskning ansluter sig mer till det förra än det senare perspektivet. I teorin är detta klok position men Öhman menar att det inte funnits särskilt mycket empirisk forskning som kan backa upp dessa antaganden.

Öhman som ville studera återkoppling i frisörutbildningen märker också att det nästan helt saknas forskning om feedback i yrkesutbildning. I en stor studie av Heitink med flera från 2015 där forskarna gick igenom 1743 studier av återkoppling kom bara 3 studier från yrkesutbildningskontexten. Öhman lyfter fram några studier som pekar på att huvudrörelser, miner, gester, en klapp på axeln etc. kan fungera som återkoppling. Det man bland annat ser från yrskesutbildningskontexten är att återkoppling ofta sker genom invävda demonstrationer, dvs. att läraren visar hur man kan göra. Återkopplingen är ofta så att säga multimodal.

Avhandlingen är en så kallad sammanläggningsavhandling och bygger på Öhmans Lic-uppsats och två andra studier hon genomfört kring återkoppling inom frisörutbildningen. Den första studien, Lic-uppsatsen, handlar om återkoppling som en del av den dagliga undervisningen och undersöker samtal mellan lärare och elever relaterade till bedömning av kunnande. Uppsatsen visar hur återkoppling är både lärar- och elevinitierad och att återkoppling har funktioner som varierar över tid. Öhman kallar återkoppling som är lärarinitierade för cykler och återkoppling som är elevinitierade för loopar. Analysen av återkopplingspraktiken visar vidare i två exempel hur så kallade semiotiska resurser används av lärare och elever i meningsskapandet i relation till den undervisade uppgiften. Hon urskiljer vissa återkommande mönster där återkopplingen har olika funktioner: kontrollera, instruera och värdera.

Resultaten illustreras med denna figur:

Figur 1. Återkopplingsfunktioner med exempel på handlingar och semiotiska resurser

Figur 1. Återkopplingsfunktioner med exempel på handlingar och semiotiska resurser

I delstudie 2 fördjupas kunskaperna från Lic-uppsatsen. Fokus för analysen ligger nu enbart på inledningen i loopen. Resultatet från tre analyserade exempel visar hur elevers delaktighet i att identifiera problem och ge förslag till lösningar möjliggörs genom användning av olika resurser. Det handlar om deltagarnas placering i rummet och lärarens verbalt tysta närvaro som ger eleven tillträde att både fråga och visa sina funderingar. Det handlar om hur fysisk tillgång till arbetsmaterialet skapar förutsättningar för frågor och det handlar om hur man använder det taktila och det visuella.

Den tredje studien utforskar återkoppling i interaktionen i kreativt och problemlösande innehåll. Det handlar om hur läraren genom interaktion med eleven i ett förlopp får eleven att upptäcka problemet, finna lösningar och även förstå vad det är som gör en fin håruppsättning. Detta kan man kalla en samproducerad bedömning där läraren med varsam hand ger eleven möjlighet att själv utveckla förmågan att känna igen kvalitet i arbetet.

Öhman skriver i diskussionen av sina resultat:

I stället för att se på återkoppling som en produkt för tydlighet och timing (Price et al., 2013) visar avhandlingens resultat hur elevers aktiva deltagande och initiativ kan uppmärksammas och uppmuntras i klassrumsbaserad bedömning. Återkoppling kan då istället ses som en process. Resultaten visar hur eleverna deltar i komplexa bedömningar av sina pågående arbeten, där de steg för steg får göra erfarenheter tillsammans med sina lärare. (Öhman 2017, 78)

För att knyta tillbaka till Ninomiya är det precis den här typen av återkoppling som behövs för att inte hamna i ett överdrivet fokuserande på ”överensstämmelse” mellan enkla mått på elevens kunskap och målen. Elever ska inte bara lära sig rätt och fel, de behöver utveckla förmågan att känna igen styrkor och svagheter i ett arbete och att själva kunna värdera sina prestationer. De behöver utveckla en vidare förståelse för ämnenas innehåll och för vad det innebär att lära sig och på sikt bemästra ett kunskapsområde.

Referenser

Ninomiya, S. (2016). The Possibilities and Limitations of Assessment for Learning: Exploring the Theory of Formative Assessment and the Notion of “Closing the Learning Gap”. Educational Studies in Japan: International Yearbook, 79 No. 10, March, 2016. pp. 79–91

Sadler, D.R. (1989). Formative assessment and the design of instructional system, Instructional Science, 18.

Stewart, W. (2012, July 13). Think you’ve implemented Assessment for Learning? Times Educational Supplement.

Öhman, A. (2017). Återkoppling i interaktion. En studie av klassrumsbaserad bedömning i frisörutbildningen. Diss. Karlstad universitet. http://kau.diva-portal.org/smash/record.jsf?pid=diva2%3A1136025&dswid=7935

 

 

 

Bortom Sputnik

Hösten 1957 drabbades USA av den så kallade Sputnik-chocken. Den 4 oktober lyckades Sovjetunionen med en bedrift som ingen annan nation lyckats med tidigare: att sända upp en satellit – Sputnik – som cirkulerade kring jordklotet. Sputnik var en klotformad satellit, stor ungefär som en badboll, som med en hastighet av 30 000 kilometer i timmen gjorde ett varv runt jorden på cirka 96 minuter.

sputnikfrimärke

Den runda satelliten, som i början liknades vid en konstgjord måne, skapade stark oro i USA.  Detta var under det kalla krigets dagar, där motsättningarna mellan USA och Sovjetunionen var starka. Till viss del handlade frågan om den militära konkurrenskraften. Den som kunde skjuta upp satelliter kunde också tänkas skjuta upp missiler. Men frågan stannade inte vid det militära utan kom att beröra frågan om skolors kvalitet (Clowse 1981; Lenz 2015; Haugsbakk 2013). Det hävdades att skolorna inte var tillräckligt bra. Böcker och artiklar skrevs som behandlade vad som var fel med den amerikanska skolan och på vilka sätt Sovjet var överlägsen. En av böckerna sammanfattar diskussionen redan i sin titel: What Ivan knows that Johnny doesn’t. (Trace 1961). Framförallt riktades i diskussionerna uppmärksamhet mot matematik och naturvetenskap, det var dessa ämnen som framförallt ansågs behövas i den internationella konkurrensen. Den före detta presidenten Herbert Hoover kommenterade bristen på naturvetare och ingenjörer i tidningen Times, kort efter Sputnik:

The trouble is that we are turning out annually from our institutions of higher education perhaps fewer than half as many scientists and engineers as we did seven years ago. The greatest enemy of all mankind, the Communists, are turning out twice or possibly three times as many as we do. (Tröhler 2013:145).

Sputnikkrisen berörde i första hand förstås USA, men även i ett land som Sverige kom debatten av föras kring hur man kunde förstå den amerikanska skolans utveckling. Två inflytelserika pedagogikprofessorer: Torsten Husén och Wilhelm Sjöstrand drog helt olika slutsatser av Sputnikkrisen, vilket exemplifierar att receptionen av internationella idéströmningar kan påverkas av den ideologiska positionen hos mottagaren.

Torsten Husén, professor i praktisk pedagogik vid Lärarhögskolan i Stockholm, var anhängare av idén om en enhetsskola för alla samhällsklasser. I februari 1959 skrev han i Dagens Nyheter tidningsartikeln ”Amerikansk skoldebatt i satellitåldern”. Han menade att Sputnik hade skapat ett helt nytt intresse för vad som försiggick i de sovjetiska skolorna.

Tidigare hade det ansetts vara omstörtande och halvt förrädiskt att besöka Ryssland för att studera något där. Sedan något år har det varit högsta mod  att bege sig dit för att studera de förträffliga ryska skolorna. Jag har börjat få jäktade besök av amerikanska kolleger som gör en hastig mellanlandning i Skandinavien innan de far vidare öster ut (Husén, 1959).

Det Husén beskrev här var en pedagogisk Sovjet-turism som möjligen var lite sårande ur svensk synvinkel. Det svenska experimentet med enhetsskola, som pågått sedan 1950 i form av en försöksverksamhet, var uppenbarligen ingenting som intresserade de amerikanska kollegorna nämnvärt i spåret av Sputnik. Sverige var bara en plats man mellanlandade på. Han raljerade också över den nyvunna expertstatus som nya aktörer fått, trots att de saknade erfarenhet av forskning i pedagogik:

Den som under de senaste två åren följt den amerikanska skoldebatten har stundom haft anledning begrunda innebörden i ordspråket att den enögde blir kung i de blindas rike. Personer som tidigare inte ägnat skolan något intresse, t ex satellitforskningsgeneraler och atomfysiker, eller som i varje fall haft en rätt avlägsen kontakt med denna, har plötsligt utnämnt sig till överdomare då det gäller att konstatera vad den amerikanska skolan ’producerar’. I samma veva som Sputnik hösten 1957 sändes upp publicerade US Office of Education en rapport om det ryska skolväsendet. Denna blev föremål för en betydande publicitet och lade ytterligare kol på glädjen hos dem som utförde mera avancerade självplågarnummer på temat den dåliga amerikanska skolan (Husén, 1959).

Wilhelm Sjöstrand, professor i pedagogik och pedagogisk psykologi vid Uppsala universitet, hade en helt annan inställning än Husén till både enhetsskolan och diskussionerna i samband med Sputnikkrisen. 1960 publicerade han en bok kallad För och mot den nya skolan där han samlade artiklar han skrivit under de senaste åren, och där han gick till angrepp mot vad han kallade ”det doktrinära enhetsskoletänkandet” (Sjöstrand 1960: 95). Sjöstrand var kritisk till idén om en enhetsskola och progressiva metoder, och han använde sig av internationella argument för att driva igenom sin ståndpunkt.

En av bokens artiklar, ursprungligen publicerad i juli 1959, heter ”Sputnikskräck eller pedagogisk självbesinning?” Sjöstrand menade här att man i Sverige försökt bagatellisera den utveckling som skett i USA och som enligt honom inneburit en kritik av den progressiva och ineffektiva pedagogiken i USA. Han tog upp amiral Rickovers inflytelserika bok Education and freedom som ett positivt exempel på ett tillnyktrande i den amerikanska debatten. I uppskattande ordalag beskrev Sjöstrand hur Rickover gjort upp med den amerikanska självgoda övertygelsen om den egna förträffligheten som gjort dem oförmögna att lägga märke till undervisningsväsendets brister. Sjöstrand försvarade också Rickovers kunskaper. Man behöver inte vara professor i pedagogik för att ha auktoritet i pedagogiska frågor, menade Sjöstrand. Han fann det fördomsfullt och övermaga att hävda ”att en militär i framskjuten ställning inte skulle äga några som helst förutsättningar för ett framgångsrikt deltagande i den pedagogiska debatten” (Sjöstrand 1960: 111).

Som stöd för sitt omdöme hänvisade han till att Rickover var en bildad man med stor kännedom om det europeiska bildningsväsendets historia. Den amerikanska allmänheten hade också varit förståndig nog att lyssna på vad han hade att säga. ”Den [amerikanska allmänheten] föredrar tydligen en högt bildad företrädare för krigsmakten framför en frälst progressivist som bekläder en lärostol i pedagogik.”(Ibid: 111) Sjöstrand menade vidare att Rickovers yrkeserfarenheter inte var en begränsning när det gällde att bedöma kvaliteten i det amerikanska utbildningsväsendet. Tvärtom, hans position gav honom en närmast unik förmåga att bedöma hur eliter utbildades i landet (Ibid: 114-115).

Debatten om Sputnik uppvisar både tidstypiska och generella drag för hur en kris uppstår och behandlas i pedagogiska sammanhang. Det unika var kopplingen till kalla kriget som gjorde att diskussionen framförallt kretsade kring två länder, USA och Sovjetunionen, även om också andra länder tog intryck av diskussionen. Samtidigt finns det också generella drag i denna diskussion som kan kännas igen även i senare tiders krisdiskussioner. Sådana frågor som är bekanta även idag är exempelvis: Är krisen reell eller ej? Vilka kunskaper bör ett skolsystem eftersträva? Vilka typer av aktörer kan göra legitima anspråk på att sitta inne med viktiga kunskaper om skolans tillstånd? Vidare är diskussionen om Sputnik ett exempel på hur en uppfattad kris i ett visst land kan inspirera till diskussioner i andra länder. Man kan tala om detta i termer av ”krislån”. I motsats till den typ av policylån som handlar om att importera en redan fungerande pedagogik, innebär detta att en krisdiskurs importeras, som i sin tur kan användas för att värna en redan existerande pedagogik på hemmaplan, eller en nyligen övergiven sådan (jfr Takayama 2007; Gruber 2004: 186). Som vi sett var det emellertid inte en självklarhet att göra dylika krislån. Där Wilhelm Sjöstrand ansåg att Sputnik borde fungera som en tankeställare även för Sverige, var Torsten Husén ytterst skeptisk.

Huséns skepsis till Sputnik-diskussionerna är intressant i sig, för den kan ha haft betydelse för den utveckling som snart skulle äga rum. Mycket snart skulle han nämligen få en central roll som ordförande i en ny internationell organisation som utvecklade ett alternativt sätt att jämföra skolors prestationer. De kom att genomföra mycket omfattande studier av elevers kunskaper i en rad länder. Organisationen kom snart att få namnet IEA, International association for the evaluation of educational achievement. Ytterst sett kan de betraktas som en organisation som ville frambringa en annan typ av data om skolsystem runt om i världen än vad den tidens debattörer hänvisade till. Det var en strävan att gå bortom Sputnik, att frambringa nya metoder och nya kunskaper för att uttala sig om skolan. Organisationen är idag kanske främst känd för att genomföra TIMSS och PIRLS, men deras största betydelse är kanske att de lade grunden för PISA.


Texten är ett lätt bearbetat utdrag ur Joakim Landahl, ”Kris och internationella jämförelser” i J. Landahl & C. Lundahl (red.) Bortom Pisa: internationell och jämförande pedagogik. Stockholm: Natur & kultur. pisabok

Hur används ”pedagogisk forskning” i riksdagsdebatter

I den här texten följer jag upp ett tidigare inlägg om hur PISA används i riksdagsdebatter med att studera hur ”pedagogisk forskning” används. I riksdagsdebatterna januari 2000 – april 2017 används termen pedagogisk forskning vid 94 tillfällen i 27 olika riksdagsprotokoll (sökningen är genomförd här). Utbildningsvetenskaplig forskning finns omnämnt i 30 riksdagsprotokoll och didaktisk forskning omnämns i 23 protokoll för samma tid. Om vi söker mer brett genom att låta orden forskning och skola finnas inom 50 ords avstånd från varandra får vi träffar i 100 protokoll. Just denna studie är dock avgränsad till pedagogisk forskning.

Jämfört med min tidigare analys av hur PISA används i riksdagsdebatter är det ett intressant resultat i sig att den explicita hänvisningen till pedagogisk forskning är runt en sjättedel av mängden hänvisningar till PISA under samma period. Precis som med termen PISA ser vi vidare att pedagogisk forskning används i det politiska spelet, där vänstern beskyller högern för att inte ta till sig forskning och vise versa. Vanligast är dock att Pedagogisk forskning dyker upp i forskningspolitiska sammanhang, t.ex. i debatter om forskningspropositioner och budgetpropositioner (Tabell 1).

Tabell 1. Hur ofta ”pedagogisk forskning” använts på olika sätt i riksdagsdebatter 2000 – 2017 (kvartal 1). Kodning genomförd med NVivo 11.0.

Nodes Number of coding references
Beskyller vänstern för att inte ta till sig forskning 1
Det behövs mer forskning för att vi ska veta vad vi ska göra 1
Forskning och autonomi 1
Forskningen anses vara politiserad 1
Ifrågasättande av forskningsresultat 1
Pedagogisk forskning för praktikfrånvänd 1
Beskyller hur vänstern använder forskningsresultat 2
Kritik mot lärosätena för att inte satsa på utbildningsvetenskap 2
Pedagogisk forskning som argument för något 2
Argument för specifik forskningsinriktning 3
Hjärnforskning och pedagogisk forskning 3
Pedagogisk forskning och skolkommissionen 4
Ifrågasätter tolkning av forskningsresultat 4
Om att sprida forskning till skolan 5
Pedagogisk forskning som argument mot något 5
Beskyller högern för att inte ta till sig pedagogisk forskning 7
Satsning på pedagogisk forskning 9
Argumenterar för mer praktiknära forskning 10
Beskyller andra för att inte satsa på pedagogisk forskning 15
Satsning på utbildningsvetenskaplig forskning 17
94

 

Resultat från pedagogisk forskning används påfallande sällan i en argumentation för specifika reformer och åtgärder. När pedagogisk forskning används är det med svepande referenser, t.ex.

I läro- och kursplaner föreskrivs inte ett visst arbetssätt. Det råder emellertid ingen tvekan om att ett ämnesintegrerat och varierat arbetssätt med både teoretiska och praktisk-tekniska inslag har starkt stöd i pedagogisk forskning och praxis. (Prot. 2000/01:61, Ingegerd Wärnersson, S, Svar på interpellationer)

Det finns betydande forskningsstöd för att ett skolklimat med ordning, trygghet och studiedisciplin innebär att eleverna lär sig mer. En av orsakerna till att svenska elever i dag presterar sämre i skolan är att vi har en tilltagande oordning och mindre studiedisciplin än förut. Ordning och reda i skolan räcker ju inte för att elever ska lära sig något. Det krävs kunniga lärare och massor av andra förutsättningar. Men ordning och reda är en förutsättning för att elever ska kunna lära sig saker. Jag vill säga att det framför allt är de elever som kommer från en bakgrund där föräldrarna inte har höga krav och en akademisk tradition som är betjänta av att skolmiljön erbjuder ordning, lugn och trygghet. Ett av flumskolans största missgrepp har varit att tro att man är snäll mot barn som har taskiga förutsättningar genom att liksom låta det vara högljutt i klassrummet. Det är precis tvärtom. Det är de barnen som behöver allra mest ordning och trygghet i skolan. (Prot. 2008/09:13 Jan Björklund, Fp, Partiledardebatt)

Något vanligare är att referera till pedagogisk forskning mot en reform. Även då sker det med svepande referenser. Ofta har det handlat om betyg, t.ex.

För det andra är det Vänsterpartiets uppfattning att betygen bör avskaffas eftersom de styr undervisningen och är mycket dåliga för att förutse studieresultat. Egentligen är situationen lite märklig. Trots en omfattande kritik inom den pedagogiska forskningen avfärdas den betygsfria skolan med ganska grovhuggna argument. Betygen behövs, påstås det ofta, för att eleverna ska få bevis på uppnådda kunskaper, och betygen behövs som urvalsinstrument till gymnasieskolan och högre studier. Men mot bakgrund av de obligatoriska utvecklingssamtalen finns det ju ett bättre sätt att reda ut vilken kunskap eleven uppnått än några bokstäver på ett papper. Och alltfler alternativa urvalsmetoder används vid antagning till högre utbildning. Gymnasieskolan skulle kunna öppna för att elever väljer och också får gå sitt förstahandsval. (Prot. 2001/02: Kalle Larsson, V, Gymnasieskolan)

Det finns givetvis också exempel på svepande referenser som inte handlar om betyg:

Herr talman! Jan Björklund pratade fint om forskning i sitt anförande. Poängen med forskningen ökar om man använder sig av de resultat den kommer fram till, och poängen minskar något när resultaten ignoreras. Folkpartiet har bland annat drivit att ungdomar inte ska få prata sina egna modersmål i skolan, om det inte är svenska förstås. Folkpartiet har använt sig av statistik om skolan på ett häpnadsväckande sätt för att motivera förslag som inte har stöd i forskning. Folkpartiet vill ha betyg från ettan trots att pedagogisk forskning inte kan påvisa att det har någon kunskapshöjande effekt. Frågan är om det börjar bli dags att ompröva det här. Är Björklund för en forsknings- och kunskapsbaserad skolpolitik? Det finns forskning som tydligt visar att en levande flerspråkighet, god kunskap i det egna modersmålet och ibland faktiskt även stödundervisning på elevens modersmål, om det är ett annat än svenska, i till exempel ämnen som matematik har goda effekter på kunskapen både i själva skolämnet och i svenska. Däremot har jag inte sett någon som helst forskning som visar att elever lär sig bättre utan keps. Är det dags att ompröva skolpolitiken och låta den bli kunskaps- och forskningsbaserad? (Prot. 2008/09:13 Maria Wetterstrand, Mp, Partiledardebatt)

Vid ett tillfälle används faktiskt specifika referenser till forskning och då i en debatt om betygen i åk 4. Här blir det tydligt att olika partier gör olika värdering av pedagogisk forskning.

När jag gick i skolan hade vi betyg från årskurs 1, och jag tror att många här i kammaren också hade det. Jag hade inte bästa betyg i alla ämnen. Jag kom hem till mamma och pappa. Pappa sa väl inte mycket. Mamma muttrade och blev lite sur, och jag skärpte till mig, läste lite mer och höjde betygen. Det är väl så betyg ska fungera i de allra flesta fall. De flesta barn som har för dåliga betyg – och det gäller speciellt pojkar – arbetar och läser på för lite. De måste få en tydlig signal, helt enkelt.

Jag har läst en del artiklar i ämnet. De flesta av dem är negativa till betyg i låga åldrar. Men de flesta av de här artiklarna – de flesta av dem som kommer upp tidigt när man googlar på ämnet – utgår från en enda källa, och det är en intervju med Christian Lundahl, professor i pedagogik. Han tycker att vi här i riksdagen ska fatta beslut på vetenskapliga, evidens- baserade, grunder. Men intervjun med honom var inte evidensbaserad alls. Går man närmare in i texten ser man att han säger vad han tycker i frågan i mångt och mycket. Jag har kollat upp källorna, och det är ytterst bristfälliga källor som det handlar om. (Prot. 2016/17:76 Robert Stenkvist, SD, En försöksverksamhet med betyg från och med årskurs 4)

Vänsterpartiet däremot visar större tilltro till forskningen i frågan:

Herr talman, riksdagskollegor och åhörare! År 2015 presenterade Vetenskapsrådet en forskningsrapport där idén med tidiga betyg sågades. Christian Lundahl har nämnts tidigare här i talarstolen. Han är professor i pedagogik, till skillnad från den som nämnde honom. Lundahl ledde arbetet med rapporten och kom tillsammans med sina kollegor fram till att tidiga betyg har negativ inverkan på många elever, framför allt på de elever som har det svårast i skolan. Eleverna presterar däremot bättre om de får kontinuerlig återkoppling med positiv information om hur de kan förbättra sitt arbete. (Prot. 2016/17:76 Daniel Riazat, V, En försöksverksamhet med betyg från och med årskurs 4)

Vänsterpartiets Daniel Riazat ifrågasätter sedan också vilket forskningsstöd Liberalerna har för tidiga betyg. I en replik kontrar Liberalerna med att hänvisa till hjärnforskning, något de även gjort i andra debatter om pedagogisk forskning.

Herr talman! Jag kan börja med att hänvisa till modern hjärnforskning. Jag tycker att Daniel Riazat ska läsa också den och inte bara pedagogisk forskning. Det finns modern hjärnforskning som visar på behovet av struktur och ordning och reda i skolan. (Prot. 2016/17:76 Christer Nylander, Fp, En försöksverksamhet med betyg från och med årskurs 4)

Överlag vill politikerna annars gärna satsa mer pengar på pedagogisk forskning, men då inte vilken som helst. De ser helst mer av praktiknära forskning.

Om Sverige ska ha en högkvalitativ förskola, skola och vuxenutbildning krävs att undervisningen står på solid vetenskaplig grund. En stärkt utbildningsvetenskaplig forskning av högsta vetenskapliga kvalitet har därför en stor strategisk betydelse. Det är också viktigt att bygga broar mellan forskning och lokal skolutveckling. Vi behöver därför en ny organisation som kan sammanställa och sprida forskningsresultat till skolan. Vi vill också se att fler yrkesverksamma lärare får möjlighet att forska. (Prot. 2011/12:100, Thomas Strand, S,  Forskning, forskarutbildning och rymdfrågor)

Ett annat exempel kommer från Kristdemokraterna som vill att det forskas mer på ämnesdidaktisk detaljnivå:

Rymdforskningen och energiforskningen – ja, det är framtiden. Vi gör jättestora satsningar där. Vi håller oss inte bara kvar vid den kunskap som har varat och varar. Den behövs, åtminstone stora delar av den, men vi måste ta nya stora kliv för att finnas med i framtiden. Sist men inte minst vill jag säga att vi har utbildningsvetenskaplig forskning. Det lät på Socialdemokraterna som att den var bortglömd. Nej, det är utmärkt att vi ska ha forskning för skola och förskola, och vi har lagt uppdrag på olika ställen. Vi är måna om att det finns en god utbildning hela vägen från förskola till och med forskningen. Därför har vi lagt in att det ska startas ämnesdidaktiska centrum. Vi skulle kunna gå ned på detaljnivå inom NO, teknik och matematik. Det pågår ett arbete med att iscensätta detta. Vi skulle kunna gå in på detaljer lite varstans i den här propositionen, och många skulle bli förvånade, men vi kan inte ta fram allt, så mycket är det, under en debatt. (Prot. 2012/13:68, Yvonne Andersson, Forskning och innovation)

Nuvarande skolminister Gustav Fridolin understryker också värdet av praktiknära forskning i ett svar på en interpellation (2016/17:282) om höjd kompetens i Sveriges skolor från Moderaternas Michael Svensson.

Fru talman! Tack, Michael Svensson, för både interpellationen och inlägget! Ja, jag delar helt uppfattningen att vi behöver fler forskarutbildade i skolan. Alla som arbetar i svensk skola ska arbeta på vetenskaplig grund. All undervisning ska ske på vetenskaplig grund. Stödet att göra det blir så mycket starkare om det i lärarlaget och kollegiet finns forskarutbildade och personer som parallellt med sin lärargärning väljer att beforska sin praktik. Den utveckling vi är inne i i dag där den utbildningsvetenskapliga och pedagogiska forskningen går alltmer mot och värderar det praktiknära allt högre – det som faktiskt sker i klassrummet, det som ger lärande – stärks också genom att vi har fler verksamma lärare som forskar. Läraryrket ska framför allt vara ett forskande yrke snarare än ett yrke som det forskas om (Prot. 2016/17:78 Gustav Fridolin, Mp, Svar på interpellationer).

Genomgående för den politiska debatten om pedagogisk forskning är att det behövs mer av den, men att det då är den här typen av praktiknära, ämnesdidaktiska och för skolans resultat förment nyttiga forskningen som efterfrågas. Behovet av mer systemkritisk och argumentativ eller teoretisk grundforskning lyfts aldrig.

Några preliminära slutsatser

Ett tydligt resultat av min genomgång av omnämnande av pedagogisk forskning i riksdagsdebatter är att det inte sker särskilt ofta. PISA är betydligt mer ”användbart” som argument och motargument. Samtidigt värnar riksdagsledamöterna den pedagogiska forskningen och tycker att den är viktig, om den sker praktiknära och blir nyttig för skolorna. Man kan bara spekulera i varför det är så här. En anledning är förmodligen att riksdagsledamöter inte läser särskilt mycket pedagogisk forskning. Det finns t.ex. en stor mängd läroplansteoretisk forskning och policykritisk forskning som kunde vara nyttig på systemnivå, men man pratar bara om den skolnära forskningen vilken kanske dessutom är lättare att intuitivt förstå värdet av.

Ett sätt att förstå varför PISA är mer populärt bland politiker jämfört med pedagogisk forskning är att PISA ger praktiknära förslag utifrån ett policy perspektiv. Behovet av en skola på vetenskaplig grund och en utbildningspolitik på vetenskaplig grund ställer möjligen den utbildningsvetenskapliga forskningen inför krav den inte kunnat leva upp till. OECD tycks förstå vad politiker vill ha på ett sätt forskare inte gör… eller vill göra. Och PISA ”doesn’t talk back!” Det finns ingen representant för OECD som går ut och säger att nä, så kan man inte tolka PISA. PISA levererar mängder med resultat som kan bekräfta nästan vilken ideologisk hållning som helst kring skolan och rättfärdiga t.ex. såväl ökad disciplin i klassrummen som ökat elevinflytande.

Vilket ansvar kan vi som forskare i pedagogik ta för en större perspektivrikedom i den politiska debatten och de skolpolitiska reformerna? Jag tror framför allt att vi måste förstå den politiska logiken bättre. Vi behöver vara mer aktiva i sociala medier och åtminstone cirkulera artiklar och information som är av hög kvalitet. Vi behöver ta debatten men vi behöver även hitta närmare samarbeten med etablerade journalister för att få ut vår forskning. Skulle inte dagspress kunna vara lika intresserade av att popularisera samhällsvetenskaplig forskning som den idag så dominerande naturvetenskapliga forskningen, om vi visade vad som finns? Vi behöver nyansera och perspektivera policyrelevanta resultat, inte minst kring internationella storskaliga kvantitativa studier (som i boken Bortom PISA), men också höja våra anspråk – i synnerhet för kvalitativa studier. Slutligen tror jag att vi på lärarutbildningarna behöver få in mer av goda exempel på praktiknära forskning men också mer av policykritisk och läroplansteoretisk forskning.

 

Hur används PISA i riksdagsdebatter?

Frågan om hur PISA används i riksdagsdebatter kan låta lite märklig. Handlar det inte hur det talas om PISA, eller om att PISA-resultaten får konsekvenser för debatterna i riskdagen? Det gör det givetvis också, men i detta sammanhang har jag särskilt studerat hur PISA används för att legitimera eller dislegitimera vissa positioner och beslut. Jag vill också undersöka om det faktiskt verkar som att riksdagsledamöter tycks dra lärdom av internationella jämförelser. Jag har därför studerat de 151 riksdagsdebatter mellan den 10 april 2002 då PISA första gången dyker upp i en riksdagsdebatt och den 14 mars 2017 där ordet PISA senast användes. Den totala träffbilden är 176 riksdagsdebatter men då har riskdagens sökmotor några gånger räknat med komPISAr och några gånger det s.k. Pisa-fördraget som inte har med skola att göra. Sverige deltog första gången i PISA år 2000 och resultaten redovisades i december 2001. Under de 15 år som ingår i min undersökning har PISA-studierna genomförts var tredje år och det präglar också träffbilden. Vi ser att PISA debatteras något mer de år rapporten släpps 2001/02 och vart tredje år framåt, men vi ser också en ganska markant ökning av användandet av PISA i riksdagsdebatter över åren (Figur 1).

pisa statistik

Figur 1. Antal riksdagsdebatter (N=176) där ordet PISA används riksdagsåret 2001/02 till 2016/17 (kvartal 1).

I urvalet ingår samtliga typer av riksdagsdebatter som finns nedtecknade i kammarens protokoll (partiledardebatter, interpellations debatter, aktuella debatter, allmänpolitiska debatter etc). I det slutliga urvalet om 151 debatter används PISA sammanlagt ca 600 gånger och det är dessa användningar jag har klassificerat, vilket jag återkommer till. Uppenbart så här långt är att PISA använts allt oftare i olika riksdagsdebatter. Detta sammanfaller också i tid med en väldigt reformintensiv period på skolans område särskilt från 2010 och framåt, med nya läroplaner, nytt betygssystem, lärarlegitimation etc.

Ett sätt att närma sig reformförändringarnas orsaker och karaktär är att följa olika centrala beslut, hur de förbereds och vilka effekter de får i skolförvaltningen. Frågor som vilka var de centrala idéerna, var kom de ifrån, vem/vilka drev dem och hur blev de omsatta blir då centrala ingångar. Samtidigt har forskning, inte minst inom neoinstitutionell teoribildning, pekat på att förändring av styrning, organisation och ledning världen över tycks följa ganska liknande modeller. Alternativen är med andra ord inte oändliga. Snarare handlar förändring om att en specifik uppsättning alternativ plötsligt får legitimitet. Enligt neoinstitutionalismen är legitimitet, snarare än effektivitet, fundamental för en organisations överlevnad. I den forskning som växte fram under sent 1970-tal formulerades teorin att en organisations legitimitet i samhället minskar om den inte lever upp till de normer och föreställningar som institutionaliserar den (Meyer & Rowan 1991). En sådan norm är att beslut ska fattas med stöd i vetenskap, eller i data. En annan norm som blivit allt mer central är att vara internationellt orienterad i det nationella institutionsbyggandet. Detta tycks synnerligen gälla för utbildningspolitiska beslut och reformer.

Ett centralt begrepp för att förstå de senaste decenniernas utbildningspolitiska reformer har därför blivit begreppet ’policy borrowing’ (t.ex. Steiner-Khamsi and Waldow, 2012) ’Policy borrowing’ handlar om hur ”policy makers in one country seek to employ ideas taken from the experience of another country” (Phillips, 2004: 54). Begreppet har dock på senare tid fått en mer allmän innebörd relaterad till hur länders policy är influerad av andra länders policy. En central aspekt av policy borrowing är hur selektiva hänvisningar till andra länders policy kan användas för att legitimera det egna landets policy förändringar (Schriewer & Holmes, 1988). Detta brukar kallas för externalisering. Andra vanliga former av externalisering inom utbildningspolitik är till vetenskap, organisation, historia (Schriewer 1990). Vem eller vilka som man refererar till kan, som Schriewer och Martinez påpekar, förändras över tid (2004), men det handlar ofta om att man söker legitimitet för (politiska) förändringar genom att hänvisa till andra länder eller internationella organisationer. Att legitimera betyder att rättfärdiggöra (se vidare t.ex. Andersen 2009), exempelvis varför man ska ha betyg i tidigare åldrar. Att då hänvisa, eller externalisera till exempelvis hur det ser ut i andra länder eller till forskning eller till PISA, kan vara ett effektivt sätt att rättfärdiggöra en ny betygsreform.

Frågan som uppstår då är om vi kan se att användandet av PISA mer tycks handla om externalisering för att legitimera nationella partipolitiska frågor och ideal, eller om hänvisningar till PISA tycks representera ett lärande från andra länder – en strävan efter att hitta nya och kanske effektivare lösningar än de som finns i det egna landet. Det ena behöver förstås inte utesluta det andra men hur PISA används får betydelse för hur diskursen, ”sättet att tala”, om skolan formas. Om man utnyttjar PISA-resultat för att argumentera för idéer som inte nödvändigtvis har koppling till hur andra länder gör får vi en resultat-reformdiskurs. Om man med utgångspunkt i PISA utförligt studerar praktiker i andra länder får vi en lärande-reformdiskurs. Dessa diskurser kan illustreras med två exempel:

Det betyder att jag tror att de åtgärder vi behöver vidta under nästa mandatperiod, utöver it-strategin, handlar om att gå ned med betygen till fyran. Vi måste ha ett tydligare resultatfokus i den svenska skolan. Att det i svensk skolpolitik finns en sådan enorm rädsla för att mäta och utvärdera resultat har varit förödande. Det är den betygsfria skolan som har skapat nedgången i PISA-undersökningarna – 30 år av betygsfrihet där man bara har betyg de tre sista terminerna. Vi började sist i världen. (Prot. 2013/14:93.Utbildningsminister Jan Björklund i en interpellationsdebatt om behovet av en likvärdig digital utbildning i skolan)

Här används sjunkande PISA-resultat för att legitimera en reform om tidigare betyg trots att OECD aldrig visat att det finns ett sådan samband (Lundahl m.fl. 2015). Här hänvisas inte heller till specifika länder som lyckas i PISA på grund av tidig betygssättning. PISA hade egentligen inte behövt användas här, men fungerar bra för att förstärka ett ganska allmänt argument om sjunkande resultat och att det därför behövs något nytt.

Ett annat sätt att använda PISA är då debattörer lyfter särskilda och intressanta exempel från OECDs rapporter eller från andra länder som medverkar i PISA:

Vad visar PISA-undersökningen? I 65 länder, varav 34 OECD-länder, undersöktes 15-åringar i huvudämnena läsförståelse, matematik och naturvetenskap. År 2000 ligger Sverige i toppklass. År 2010 har vi dykt rakt nedåt. Men det finns ett annat land nära oss som ligger i toppklass, nämligen Finland. Varför har Finland dessa goda resultat? Man pekar på några saker, nämligen att skolan har hög status i Finland, läraren är en auktoritet i Finland, det sker hela tiden uppföljningstester och det ges särskilt stöd. Om en elev har varit borta några dagar eller varit sjuk kan särskilt stöd sättas in så att eleven snabbt ska komma i fatt. Det är klassgenomgångar. Är det någon som på allvar tror att en tioåring själv kan forska fram den kunskap som behövs för sådana internationella tester jämfört med en lärare som sköter huvudundervisningen? Vad har vi gjort redan nu åt detta? Jo, redan nu har Sverige försökt att höja skolans status. Vi har gjort det genom att höja lärarens status med en legitimation. Vi har gjort det genom att tala om skolans betydelse i samhällsutvecklingen och kunskapsutvecklingen så att vi i framtiden kan behålla Sverige som en kunskapsnation. (Prot. 2010/11:48 Yvonne Andersson KD, Aktuell debatt: Svenska elevers skolresultat)

Här används PISA för att legitimera redan genomförda reformer men det sker i en diskurs som signalerar att här har man tittat på framgångsrika länder mer i detalj och försökt lära sig av dem. Här finns en rational i argumentet som går att se och därmed förstå. Om vi tittar på den totala användningen av PISA i riksdagsdebatter så är den senare formen dock klart mer ovanlig. Explicit hänvisning till vad man kan lära sig från andra länder förekommer bara 22 gånger.

Totalt sett i mitt material yttras PISA i samband med skolan 581 gånger. Ibland används ett yttrande av ordet PISA i samband med att 2-3 olika åtgärder nämns vilket gör att mängden kodade PISA användningar blir något högre än antalet faktiska yttranden, exempelvis ”Pisa visar att våra reformer X, Y och Z var rätt”. Ett yttrande kan således kodas i flera olika kategorier men givetvis aldrig mer än en gång per kategori. Siffrorna i tabellen nedan anger hur många gånger jag kodat olika yttranden till olika kategorier. Kategorierna utgår från vad man explicit talat om och kan således anses som hyfsat objektiva. Däremot har kodningen skett för hand och mängden kodade utsagor kan skilja sig plus minus någon enhet mot protokollen. Det är svårt att vara exakt i så här stora textmaterial och att kontrollräkna kodningen är för tidsödande mot vad en större exakthet skulle föra med sig i värde. Kategorierna i tabellen utgår från exempel där PISA har använts för att legitimera eller dislegitimera olika reformer eller åtgärder. Tabellen innehåller således användning av PISA både som för- och motargument, även om PISA som allra oftast använts för att argumentera för något , som pro-argument. Totalt har PISA kodats 356 gånger som argument i samband med 34 olika reformer eller åtgärder (Tabell 1).

Tabell 1. Hur ofta PISA använts för att argumentera för (och i enstaka fall emot) särskilda reformer och åtgärder 2002 – 2017 (kvartal 1). Kodning genomförd med NVivo 11.0.

Nodes Number of coding references
PISA för att satsa på familjen 1
PISA för att införa bedömningsstöd 1
PISA för lärarlegitimation 1
PISA för mindre klasstorlekar 1
PISA för skolnära forskning och beprövad erfarenhet 1
PISA och internationell konkurrenskraft 1
PISA som grund för nya fördjupade utredningar 1
PISA för att satsa på de duktiga eleverna 2
PISA för skolbibliotek 2
PISA och arbetsmiljö 3
PISA för att utveckla lärarutbildningen 3
PISA för att diskutera högre studier 3
PISA för ökad undervisningstid 3
PISA och vikten av ledarskap 3
PISA och barns hälsa 4
PISA och katederundervisning 4
PISA och friskolor 4
PISA och vinstintresse 5
PISA och ökade förväntningar från samhället 8
PISA för och emot kommunalisering el förstatligande 8
PISA och invandring 9
PISA och det fria skolvalet 10
PISA och gymnasieskolan 11
PISA och ungdomsarbetslöshet 14
PISA för att ställa högre krav eller för en kunskapsskola 17
PISA och digital kompetens 20
PISA som stöd för satsning på förskolan 20
PISA för elever i behov av stöd 21
PISA för ökad ordning och disciplin 22
PISA för tidiga betyg 23
PISA för att inte sänka skatten utan satsa mer på skolan 26
PISA för att satsa på lärarna 45
PISA för likvärdig och jämlik skola 59
Total number of coding references 356

Det totalt sett vanligaste sättet att använda PISA är i en argumentation för att svensk skola behöver bli mer jämlik, även om några av dessa siffror står för tidiga exempel från PISA 2000 som visade att svensk skola var mer jämlik än andra länders. Det är med andra ord tydligt att PISA används i en svensk kontext där frågan om jämlikhet och likvärdighet av tradition engagerar politiker i alla partier. Frågan om jämlikhet och likvärdighet är också lika närvarande över hela den studerade perioden. Möjligen kunde dessa siffor sett annorlunda ut i andra länder där andra frågor haft högre prioritet. Det näst vanligaste sättet att använda PISA är i en argumentation om att satsa på lärarna. Det mesta kodade materialet här kommer i kölvattnet av PISA 2012. Det gäller också för frågor om PISA och mer stöd i skolan. Argument om mer ordning och disciplin och högre krav kom framför allt i samband med PISA 2009, vilket även gäller frågan om digital kompetens. Frågor om PISA i relation till invandring har ensidigt drivits av SD. På samma sätt har ordnings och disciplinfrågor och frågor om tidigare betyg främst drivits av högern och motstånd mot friskolor, vinstuttag eller skattesänkningar i samband med PISA, har drivits av vänstern. Det finns med andra ord både historiska förändringar och partipolitiska skillnader i frågan om vad PISA används till att argumentera för.

PISA kan användas som argument på olika vis. Det vanligaste är att en reform lanseras mot bakgrund av sjunkande resultat. I materialet finns 68 exempel på hur man hänvisar till försämring över tid och 21 exempel på att vi är under genomsnittet. I början och i slutet av undersökningsperioden finns också motsatta exempel, men de är färre. Detta speglar förstås resultatutvecklingen i PISA men det är också ett känt fenomen i politologisk forskning att det är väldigt effektivt att hänvisa till en kris, ett ras eller en försämring när man söker legitimitet för en ny reform (Nordin 2014, König 2016, Landahl & Lundahl 2017). Det finns också några exempel i materialet på debatter om att PISA övertolkas, eller inte ger en tillräcklig bild. Generellt sett utgår dock de flesta debatterna från att PISA-resultaten stämmer både i nedgång och uppgång. Endast 6-7 gånger hänvisar man till forskning i samband med PISA resultat. Däremot nämns ofta Skolverket i dessa debatter.

Det är vidare också uppenbart att PISA används i ett rent politiskt spel, i ett blame game. Det finns 32 exempel i materialet där vänstern använder PISA för att misskreditera högern:

Herr talman! Det finns en ljusglimt i PISA: Det finns länder som visar att det går att vända utvecklingen och att det går att göra det snabbt. I alla dessa länder har man varit beredd att lätta på prestigen och samverka för skolans bästa. Det behöver vi göra i Sverige också. Vi vill bjuda in till en bred skolkommission med företrädare för lärare, elever, skolledare, politiken och den pedagogiska forskningen. Kommissionen ska ha i uppgift att utifrån vetenskap och erfarenhet lägga förslag om hur vi utformar ett skolsystem för alla. Inget annat är gott nog.
Vi föreslår en bred skolkommission. Jan Björklund föreslår en utredning om ordning och reda och kepsar. Jan Björklund, det är dags att vakna! Du är inte längre oppositionellt skolborgarråd i kamp mot Göran Persson. Så ser inte skiljelinjerna ut längre. Du är utbildningsminister, och du har varit det i sju år, och du har ansvaret. I stället för en kepsutredning bör vi tillsätta en bred skolkommission som kan ta fram förslag som är förankrade i lärarkåren och i vetenskapen när det gäller hur vi bygger ett bra skolsystem. (Prot. 2013/14:48. Gustav Fridolin, MP. Aktuell debatt: De svenska resultaten i PISA 2012)

Högern har misskrediterat vänstern i 24 fall, exempelvis:

Herr talman! Den PISA-rapport som presenterades för tre år sedan blev, tillsammans med Skolverkets nationella utvärdering samma år, en ögonöppnare för många av oss och framför allt för Socialdemokraterna. De här rapporterna innebar att det inte längre gick att hävda att allt stod bra till i den svenska skolan även om man fortsatte att trumfa ut det budskapet. Den dåvarande oppositionen ville ta in en hel del förslag som vi nu kan genomföra i regeringsställning men som Socialdemokraterna då sade nej till. Frånvaron av åtgärder och bristen på initiativförmåga hos den dåvarande regeringen blev pinsamt uppenbara, och i dag är de alldeles oerhört uppenbara. Jag tror att Socialdemokraterna själva har kommit till insikt om att det kanske var där grunden lades till den valförlust som man tvingades uppleva 2006. (Prot. 2007/08:42. Gunilla Kärnberg, KD. Utbildning och universitetsforskning)

Det finns emellertid också några få exempel på försoning, nyansering, gemensamt ansvarstagande och att man vill undvika att göra PISA och skolan till slagträ i den politiska debatten.

Några preliminära slutsatser

Dessa preliminära resultat ingår i en större pågående studie (se vidare www.paristopisa.com) och kommer ytterligare kompletteras och analyseras. Några tentativa slutsatser ka dock dras. För den som har kännedom om den svenska utbildningspolitiska debatten de senaste 20-30 åren blir det uppenbart att PISA kommer in i och används till ett nationellt politiskt skyttegravskrig om sådant som: tidiga eller sena betyg, förskola eller vårdnadsbidrag, friskolor eller sammanhållen skola, traditionella ämnen och undervisningsformer eller nya, kommunalisering eller återförstatligande etc. Vi kan notera att påfallande sällan handlar PISA debatten om verkliga internationella jämförelser och internationella influenser. Hänvisningar till PISA är med andra ord exempel på hur politiker externaliserar i syfte att legitimera eller dislegitimera reformer. Fallande eller stigande PISA-resultat är ett enkelt och lättillgängligt argument att använda. Ja, ofta det enda argument som behövs för en reform. PISA anses trovärdigt. PISA bygger på siffror, statistik och tabeller och sträcker sig långt utanför det egna landets gränser. Men frågan är om inte PISA så här lättvindigt använt ibland också står i vägen för mer forsknings- och erfarenhets underbyggda argument? PISA-resultat blir ett legitimt problem för lokala lösningar, men bidrar inte så mycket med internationell inspiration.

Referenser

Andersen, J. A. (2009). Organisasjonsteori. Fra argument og motargument til kunnskap. Oslo: Universitetsforlaget.
König, P. D. (2016). Communicating austerity measures during times of crisis: A comparative empirical analysis of four heads of government, The British Journal of Politics and International Relations, 18:3, 538-558.
Landahl, J. & Lundahl, C. (2017). Bortom PISA. Internationell och jämförande pedagogik. Stockholm: Natur och Kultur.
Lundahl, C., Hutlén, M., Klapp, A. & Mickwitz, L. (2015). Betygens geografi – forskning om betyg och summativa bedömningar i Sverige och internationellt. Delrapport från skolforsk-projektet. Vetenskapsrådet. Stockholm: Vetenskapsrådet.
Nordin, A. (2014). Crisis as a discursive legitimation strategy in educational reforms: A critical policy analysis, Education Inquiry, 5:1, 240-247.
Phillips, D.. (2004). Towards a Theory of Policy Attraction in Education, I Steiner-Khamsi, G. (ed)., The Global Politics Of Educational Borrowing And Lending, New York: Teachers College Press.
Schriewer, J. (1990). The method of comparison and the need for externalization: Methodological criteria and sociological concepts, in Schriewer J. & Holmes, B. (eds.), Theories and methods in comparative education, Bern: Lang.
Schriewer, J. & Martinez, C. (2004). Constructions of Internationality in Education. In Steiner-Khamsi, G. (ed.). The Global Politics of Educational Borrowing and Lending. New York: Teachers College Press.
Schriewer, J. & Holmes, B. (eds) (1988). Theories and Methods in Comparative Education, Frankfurt am Main etc.: Peter Lang.
Steiner-Khamsi, G. & Waldow, F. (eds.) (2012). World Yearbook of Education 2012:
Policy borrowing and lending in education, London: Routledge.

PISA-chocken, vår tids kärnkraftsolycka?

Den 10 augusti 1989 skrev Carl Bildt en debattartikel i vilken han kritiserade den socialdemokratiska utbildningspolitiken. Han skisserade en bild av en skola i kris, präglad av frånvaro, vandalism, läraromsättning, mobbning, stagnerande standard och ett ökande antal ”funktionella analfabeter” (DN-debatt 10/8 1989). Han anklagade sina politiska meningsmotståndare för att inte ta krisen på allvar, och föreslog en rad åtgärder: en ny lärarutbildning, ökad decentralisering, ett återupprättande av kvalitet och kunskaper i skolan, ett nytt betygsystem etc. Gillande hänvisade han till den amerikanska skolkrisrapporten A nation at risk, som han beskrev som ett föredöme. Även Sverige borde tillsätta en skolkommission. ”Även Sverige är i dag en nation vars framtid är i fara. Jag tror att en oberoende skolkommission är vad som behövs för att öppna ögonen på dem som i dag blundar och bereda vägen för nya lösningar.”

Somligt som Bildt tog upp känns idag välbekant, men annat känns enormt exotiskt.  Det är fascinerande att se hur han beskriver den samtida skoldebatten. Bildt menade 1989 att skolan knappt debatterades alls: ”tänk om ledande politiker på sina håll kunde ägna i alla fall lika mycket tid åt utvecklingen av Sveriges kunskaper som åt avvecklingen av Sveriges kärnkraft.”

Idag skulle en sådan vision inte längre kunna formuleras, eftersom den med råge har överträffats. Kärnkraftens avveckling hör man nästan ingenting om, i motsats till den allestädes närvarande diskussionen om skolan. Hotet mot framtiden består inte längre i en kärnkraftsolycka, utan snarare i ett katastrofalt resultat i PISA. Denna remarkabla omkastning, som också sammanfaller och är liktydig med en mer generell förskjutning från globalt delade problem till nationella egenintressen, har förstås stimulerats av det sätt varpå OECD mäter och presenterar skolresultat.

Imorgon, 11:00, är det dags igen, då resultaten från PISA 2015 släpps. I olika länder väntar man med spänning på resultaten, och alla ställer sig precis samma frågor: går det bättre för ”oss” eller sämre? Men ur ett globalt perspektiv är förstås frågan inte om en kris kommer visa sig, utan var den kommer uppstå. OECD säljer ofta in sina studier med ett optimistiskt budskap. Studier visar, menar de, att olika länder kan förbättra sig på kort tid. Men det de inte säger lika tydligt är att samma framgångssagor förutsätter motsvarande nedåtgång för andra länder. Eftersom mätningen är relativ bygger den enes framgång på den andres motgång. Bland annat av den anledningen är PISA ett instrument för en utbildningskris som saknar lösning. För det individuella landet kommer det alltid att finnas möjligheter att förbättra sin position. Men på en global nivå kan man snarare säga att problemen flyttas runt. Ett problemland kan bli ett succéland, men problemländer kommer per definition alltid att finnas. Denna globala konsolidering av krisen skiljer sig från hur vi förstår andra samhälleliga kriser. Ekonomiska kriser eller miljökriser kan, åtminstone i teorin och åtminstone tillfälligt, få en lösning, och detta är också målsättningen. I den mån skolkriser mäts på ett relativt sätt är detta en omöjlighet. OECD genererar på så sätt skolkriser per automatik, och därmed också mediautrymme till skolan.

 

Dags för ett intellektuellt förhållningssätt till PISA

Den 6 december 2016 presenteras resultaten från 2015 års PISA-undersökning. Dessa resultat kommer få stor betydelse för den utbildningspolitiska diskursen om skolan de närmaste månaderna. Sverige kommer att jämföras med sig själv från tidigare år, och Sverige kommer att jämföras med andra länder. Ibland kommer jämförelserna och tolkningarna att vara rimliga men lika ofta kommer de att vara överdrivna och präglade av specifika intressen. Att genomföra internationella mätningar och göra tolkningar av dess resultat, och agera utifrån resultaten är en delikat och mycket svår uppgift. I debatten är det därför synd att den expertis som verkligen finns kring internationell och jämförande pedagogik sällan kommer fram.

Internationell och jämförande pedagogik har som forskningsinriktning en lång historia som spåras tillbaka redan till tidigt 1800-tal, då fransmannen Marc Antoine Jullien drog upp riktlinjerna för internationella jämförelser av utbildning (se t ex Kaloyannaki & Kazamias, 2009). Det var dock först under 1900-talet, framförallt efterkrigstiden, som forskningsfältet institutionaliserades med egna tidskrifter, sällskap och universitetskurser. Inom fältet finns en väl utvecklad begreppsapparat för att förstå möjligheterna och begränsningarna i internationella jämförande studier som PISA och TIMSS.

Sverige och särskilt pedagogikforskaren Torsten Husén (1916 – 2009) var drivande i utvecklingen av internationella jämförelser inom utbildningsväsendet. Den forskning i internationell och jämförande pedagogik som Husén lade grunden till, har dock i Sverige fört en något tynande tillvaro de senaste decennierna. Samtidigt har den blomstrat internationellt sett och idag finns flera framgångsrika forskare inom fältet. En som uppmärksammat detta är forskaren Will Brehm vid Tokyo universitet. I en mycket bildad podcast intervjuar han flera av världens främsta forskare i internationell och jämförande pedagogik. Inte minst diskuterar de olika positiva och negativa effekter PISA-undersökningarna har världen över. För hela utbudet se http://www.freshedpodcast.com.

Jag kan särskilt rekommendera:

Rethinking the PISA Debate (Keita Takayama)

Seeing Like PISA (Radhika Gorur)

PISA, policy referencing, and pantomime (Bob Adamson)

The problems with outcome-based approaches to education (David Edwards)

The history and development of international assessments (Dirk Hastedt)

PISA in Germany (Florian Waldow)

Det finns också ett internationellt forskningsnätverk, The Laboratory of International Assessment Studies, som samlar både de som arbetar med PISA och TIMSS och forskare som kritiskt studerar effekterna av den typen av International Large Scale Assessment (ILSA). Den senaste konferensen ägde rum i Berlin hösten 2016 och videoupptagningar samt bloggar från konferensen finns här.

På svenska kommer jag och Joakim Landahl snart också ut med boken: Bortom PISA. Internationell och jämförande pedagogik (Natur och kultur). Se vidare här.

pisabok

Boken består av tre delar och 12 olika kapitel skrivna av svenska och utländska forskare som arbetar med internationell och jämförande pedagogik. Del I, Perspektiv på PISA, diskuterar hur internationella storskaliga mätningar växt fram historiskt och vilken roll de spelar i dagens samhälle. Del II, Undervisningens nationella variationer, ger exempel på hur nationella skolsystem kan jämföras på andra sätt än genom storskaliga kvantitativa mätningar av elevers resultat. Del III, Transnationella flöden, behandlar processen varmed pedagogiska idéer och praktiker rör sig från ett nationellt sammanhang till ett annat. Boken kommer i januari 2017 och är en produkt från vårt gemensamma projekt From Paris to PISA, som finansieras av Vetenskapsrådet.

Referenser

Kaloyannaki, P & Kazamias, A.M. (2009) ”The Modernist BEginnings of Comparative Education. The Proto-Scientific and the Reformist-Meliorist Administrative Motif.” I R. Cowen & A.M. Kazamias, (red.) (2009). International handbook of comparative education. Dordrecht: Springer.

Hönan och tågvagnen – om vardagsspråk och skolspråk

Min gamla handledare berättade en gång om när han besökte en skola i ett afrikanskt utvecklingsland på 70-talet där de undervisade om jordbruk. Skolan var en lerhydda med stora hål där man kunde väntat sig dörr och fönster. Inuti salen pågick undervisning om hönor med hjälp av skolplanscher, för så gör man i skolan. Samtidigt sprang riktiga höns omkring på golvet.

När jag häromdagen åkte tåg till Falun för att närvara vid en disputation om kommunikation i matematik, steg en skolklass på i min nästan tomma tågvagn. Läraren ropade ut de förbokade – men utspridda platserna – medan tåget började att rulla. Eleverna försökte snappa upp vad läraren sa för att hitta sin plats. Efter ett par minuter avbryter en elev – ”men kan vi inte bara sätta oss där det är ledigt!” Läraren kommer på sig själv och skrattar, ”ja gör det – vi ska ju bara en station!” För så gör man utanför skolan.

Avhandlingen som lades fram handlar om matematisk kommunikation i skolan där elevers korrekta problemlösningar ibland missförstås av lärare då eleverna beskriver sin lösningsprocess i vardagliga termer, snarare är på det matematiskt riktiga skolsättet. Se vidare Anna Teledahl: Knowledge and Writing in School Mathematics. A Coomunicational Approach. Örebro Studies in Education 53.