En AI-baserad sammanställning av remissyttranden på betänkandet Ett likvärdigt betygssystem (SOU 2025:18)

I regeringens budget för 2026 föreslås ca 200 miljoner gå till införandet av ett nytt betygssystem. Skolverket har också fått ett förebärande uppdrag för att ta fram ett nytt betygssystem (här). I februari presenterades utredningen Ett likvärdigt betygssystem (SOU 2025:18). Ett stort antal remissinstanser ombads inkomma med remissyttranden i juni. Någon proposition för ett nytt betygssystem har ännu ej presenterats och vi vet i dagsläget inte vilka synpunkter från remissinstanserna som kommer att beaktas. Även om flertalet instanser är positiva till att något görs för att öka likvärdigheten i betygssystemet, är också många kritiska till centrala delar av förslaget.

Denna text sammanställer de centrala synpunkterna från remissinstansernas yttranden över betänkandet Ett likvärdigt betygssystem (SOU 2025:18). Syftet är att ge en strukturerad överblick över såväl stödet för utredningens intentioner som de betydande farhågor som lyfts mot de föreslagna modellerna. Eftersom det är ett omfattande remissunderlag har jag användt ett AI-stöd för att sammanfatta det. Sammanställningen nedan bygger på det rapportsystem som finns i Google NotebookLM. Samtliga 77 remissyttranden har laddats ned från regeringens webbsida.

Jag ställde sedan tre frågor till NotebookLM kring 1) remissinstansernas övergripande inställning till utredning, 2) om det var några remissinstanser som var särskilt positiva och särskilt negativa till förslaget, och 3) om det var något remissinstanserna var särskilt positiva och särskilt negativa till. Punkt 1-6 nedan bygger på den övergripande rapportsamanställnigen medan 7 och 8 bygger på fråga 2 och 3. Viss upprepning förekommer i punkt 7 och 8. 

Jag har kontrollerat så att texten logiskt hänger ihop och gjort några mindre språkliga justeringar, men jag har inte kontrollerat att NotebookLM gjort rätt läsning av källorna. I NotebookLM skapas detaljerade referenser till de källor som stödjer ett påstående, men dessa försvinner vid export av texten. Den som vill validera texten nedan kan göra om den procedur jag använt. Eventuella felaktigheter får också gärna kommenteras med hjälp av kommentarsfunktionen nedan. Texten avslutas med några egna reflektioner i punkt 10. I övrigt är all text AI-genererad. 

Det är förstås alltid viktigt att komma ihåg att remissyttranden kan ha väldigt olika kvalitet, rymma eventuella missförstånd, och vara präglade av den som hållit i pennan. För en utförlig granskning av remissarbete se denna ESO-rapport.

1. Övergripande Inställning hos Remissinstanserna

Remissinstansernas mottagande av betänkandet är tudelat. Det råder en bred enighet om och ett starkt stöd för utredningens ambitioner att motverka betygsinflation, öka likvärdigheten mellan skolor och skapa ett mer rättssäkert urvalssystem. Däremot finns djupgående och betydande reservationer mot de föreslagna metoderna. Kritiken är särskilt omfattande gällande huvudförslagets komplexitet och de långtgående konsekvenserna för den kommunala vuxenutbildningen (Komvux), som av flertalet relevanta instanser bedöms som ogenomförbara.

Stöd för IntentionerCentrala Farhågor
Motverka betygsinflation och ”glädjebetyg”: En bred uppslutning finns kring målet att skapa ett system som ger en mer rättvisande bild av elevers faktiska kunskaper. Instanser som SkolinspektionenSkolverket och Svenskt Näringsliv välkomnar förslag som stärker betygens tillförlitlighet.Systemets komplexitet: En återkommande och tung invändning är att meritvärdeskalibreringsmodellen (MVK) är alltför komplex, svårbegriplig och icke-transparent för elever, vårdnadshavare och skolpersonal. Flera universitet och kommuner varnar för att detta hotar systemets legitimitet.
Öka likvärdigheten mellan skolor: Många remissinstanser, däribland Sveriges Lärare, delar utredningens problembild och ser ett starkt behov av att säkerställa att ett betyg har samma värde oavsett vilken skola som har utfärdat det.Ogenomförbart för Komvux: Förslagen för Komvux möter närmast enhälligt och kraftfullt motstånd. Modellen anses hota hela skolformens flexibilitet, uppdrag som ”en andra chans” och devalvera lärarnas professionella bedömning.
Stärka rättssäkerheten i urvalet: Ambitionen att göra urvalet till gymnasieskola och högre utbildning mer rättssäkert och mindre beroende av lokala variationer i betygssättningen får brett stöd.Orealistisk tidsplan: I princip samtliga remissinstanser med synpunkter på tidsplanen bedömer den som alltför snäv och orealistisk, särskilt med tanke på den ”reformträngsel” som råder med andra stora förändringar (t.ex. Gy25).
Ökad provstress och styrd undervisning: En utbredd oro finns för att den ökade vikten av nationella slutprov (NSP) kommer att leda till ökad psykisk ohälsa bland elever samt en avsmalning av undervisningen mot det som testas (”teaching to the test”).

De mest omfattande synpunkterna rör utredningens huvudförslag: modellen för meritvärdeskalibrering.

2. Analys av Huvudförslaget: Meritvärdeskalibrering (MVK)

Modellen för Meritvärdeskalibrering (MVK) utgör kärnan i utredningens förslag och är samtidigt den mest omdebatterade komponenten. Modellen syftar till att justera lärarsatta betyg utifrån en skolas genomsnittliga resultat på nationella slutprov (NSP) för att skapa ett mer jämförbart meritvärde mellan skolor. Denna sektion analyserar argumenten för och emot modellen för att belysa den centrala skiljelinjen i remissvaren.

2.1 Argument för MVK-modellen

De remissinstanser som tillstyrker MVK-modellen ser den som den mest verkningsfulla lösningen på de identifierade likvärdighetsproblemen.

  1. Motverkan av Betygsinflation och ”Glädjebetyg”. Förespråkare som SkolinspektionenSkolverketIFAU och Svenskt Näringsliv anser att MVK, som är förankrad i centralt rättade nationella slutprov, skapar en objektiv standard som effektivt motverkar att skolor sätter omotiverat höga betyg. Skolinspektionen beskriver de nationella slutproven som det ”ankare och den motkraft i systemet” som tidigare har saknats för att säkerställa en rättvisande betygssättning. Genom att betygen justeras mot ett externt mått minskar incitamenten för så kallade ”glädjebetyg”.
  2. Ökad Likvärdighet Mellan Skolor. Ett centralt argument är att MVK är, som Skolverket uttrycker det, ”det bästa alternativet” för att säkerställa att betyg får ett likvärdigt värde oavsett vilken skola en elev har gått på. Sveriges Lärare tillstyrker modellen med motiveringen att den är ett relevant och rimligt sätt att skapa ett mer rättvist urvalssystem, där en elevs chanser att komma in på en eftergymnasial utbildning inte är beroende av vilken skolas betygssättningskultur de varit en del av.

2.2 Kritik mot MVK-modellen

Kritiken mot MVK-modellen är omfattande och kommer från en bredd av remissinstanser, inklusive flera universitet, kommuner och intresseorganisationer.

  • Komplexitet och Bristande Transparens: Den mest framträdande invändningen är att modellen är ogenomtränglig och alltför svår att förstå för elever, vårdnadshavare och även skolpersonal. Instanser som Göteborgs universitetUppsala universitet samt Gislaveds och Ale kommuner menar att en modell vars resultat inte går att förutse eller enkelt förklara riskerar att underminera hela betygssystemets legitimitet.
  • Upplevd Orättvisa för Individen: En stark etisk invändning är att en enskild elevs meritvärde kan påverkas negativt av den egna skolans samlade resultat på de nationella slutproven. Detta upplevs som orättvist, då en högpresterande elev på en generellt lägre presterande skola riskerar att få sitt meritvärde nedjusterat. Flera remissinstanser varnar för att detta skapar ett starkt incitament för elever att söka sig till skolor med historiskt högpresterande elevgrupper för att skydda sitt eget meritvärde, vilket därmed aktivt driver på skolsegregationen.
  • Jämförelse med Relativ BetygssättningGöteborgs universitet drar en direkt parallell mellan MVK-modellen och det kritiserade relativa betygssystem som avskaffades 1994. Kritiken handlar om att systemet återinför en normerande princip där en elevs resultat bedöms i relation till en grupp, snarare än enbart mot fastställda kunskapskrav.
  • Alternativförslag: Sammanvägningsmodellen: Som ett direkt svar på MVK-modellens komplexitet föreslår flera instanser, däribland Gislaveds och Ale kommuner, en alternativ ”sammanvägningsmodell”. I denna modell skulle en elevs slutgiltiga meritvärde beräknas genom en enkel och transparent sammanvägning av det lärarsatta betyget och resultatet på de nationella slutproven, förslagsvis med en viktning på 50/50. Detta alternativ framhålls som betydligt enklare, mer transparent och rättvisare för individen.

Medan kalibreringsmodellen möter starkt motstånd, är förslaget om en ny betygsskala ett av utredningens mer välkomnade inslag.

3. Synpunkter på den Nya Betygsskalan och Betygskriterierna

Förslaget att införa en ny tiogradig betygsskala (1-10) och att förändra betygskriterierna har överlag fått ett positivt mottagande. Remissinstanserna ser flera fördelar med en mer nyanserad skala och en mindre dramatisk gräns mellan godkända och icke godkända resultat, även om vissa oavsedda konsekvenser och oklarheter också har identifierats.

  • Stöd för Flergradig Skala och Avskaffad Godkäntgräns: Det finns ett brett stöd för att avskaffa den nuvarande skarpa gränsen mellan betygen F och E. Denna gräns anses skapa en ”trappstegseffekt” där ett litet kunskapsgap får oproportionerligt stora konsekvenser för elevens meritvärde. Den föreslagna 1-10-skalan ses av instanser som Ale och Gislaveds kommuner samt Almega som mer nyanserad, rättvis och bättre på att spegla en kontinuerlig kunskapsutveckling.
  • Nya Generella Betygskriterier: Utredningen föreslår att dagens detaljerade, ämnesspecifika betygskriterier ersätts med generella beskrivningar av kunskapsnivåer (t.ex. ”goda kunskaper”, ”utmärkta kunskaper”). Mottagandet av detta är blandat. Sveriges Skolledare ser det som positivt att fokus flyttas till ämnets syfte och centrala innehåll. Göteborgs universitet varnar dock för att alltför vaga kriterier ger otillräckligt stöd för lärarna och paradoxalt nog kan leda till en mindre likvärdig bedömning, eftersom tolkningarna av vad ”goda kunskaper” innebär riskerar att variera stort.
  • Konsekvenser för Studiestödssystemet: En specifik och viktig konsekvens som utredningen inte har adresserat lyfts av Centrala studiestödsnämnden (CSN). Deras nuvarande regelverk för studiemedel bygger på en tydlig gräns mellan godkända och icke godkända kurser. Den föreslagna 1-10-skalan saknar en sådan skarp gräns. Detta innebär att regelverket för studiestöd måste ses över och sannolikt förändras i lag för att anpassas till det nya systemet.

Den nya betygsskalan och meritvärdeskalibreringen vilar båda på de nationella slutprovens funktion som ett objektivt mätinstrument.

4. Bedömning av Nationella Slutprov (NSP) och Dess Konsekvenser

De nationella slutproven (NSP) ges en central dubbelroll i förslaget: de ska dels utgöra en direkt del av elevens individuella meritvärde, med en vikt på 30 procent, dels fungera som kalibreringsinstrument för de lärarsatta betygen. Denna förhöjda betydelse har lett till betydande oro bland remissinstanserna gällande konsekvenserna för både elever och undervisningens innehåll.

  1. Ökad Provstress och Psykisk Ohälsa. En närmast enhällig farhåga är att de nationella slutprovens ”high stakes”-karaktär kommer att leda till ökad provstress, ångest och psykisk ohälsa bland elever. Flera kommuner, som Sala och Malmö kommuner, uttrycker stark oro för detta. Ale kommun fördjupar kritiken genom att referera till COR-teorin, som belyser hur misslyckanden på prov med hög insats kan skapa en negativ bias och bestående spår hos individen, vilket går emot skolans uppdrag att främja psykiskt välmående.
  2. Risk för ”Teaching to the Test”. Många remissinstanser, däribland Högskolan VästGöteborgs universitet och Kungliga Musikhögskolan, varnar för att ett starkt fokus på NSP oundvikligen kommer att leda till en avsmalning av undervisningen. Risken är att lärare prioriterar det innehåll och de format som testas på proven, på bekostnad av andra viktiga kunskapsområden och förmågor. Särskilt oroande är att muntliga färdigheter samt praktiska och estetiska ämnen, som inte enkelt kan mätas i ett nationellt skriftligt prov, riskerar att nedprioriteras.
  3. Praktiska och Organisatoriska Utmaningar Flera praktiska hinder för implementeringen lyfts fram. Almegapekar på risken för tekniska haverier och betonar att en robust och noggrant testad digital plattform är en absolut förutsättning, med hänvisning till tidigare misslyckanden med digitala nationella prov. Andra utmaningar rör logistiken och kapaciteten för central rättning samt att säkerställa att elever med funktionsnedsättning får tillräckliga och likvärdiga anpassningar, vilket betonas av Specialpedagogiska skolmyndigheten (SPSM) och Diskrimineringsombudsmannen (DO).

Om förslagen är problematiska för grund- och gymnasieskolan, bedöms de vara direkt skadliga för den kommunala vuxenutbildningen.

5. Den Särskilda Problematiken Kring Kommunal Vuxenutbildning (Komvux)

Utredningens förslag för den kommunala vuxenutbildningen (Komvux) har mötts av ett närmast enhälligt och kraftfullt avstyrkande från de remissinstanser som berör skolformen. Remissinstanserna menar att modellen – som baserar meritvärdet enbart på NSP och kraftigt begränsar antalet provtillfällen – är fundamentalt oförenlig med det flexibla uppdrag som ”en andra chans” som definierar vuxenutbildningen.

  • Meritvärde Baserat Enbart på NSP: Att helt bortse från det lärarsatta betyget och enbart grunda meritvärdet på ett enda provtillfälle ses som en allvarlig devalvering av lärarens professionella omdöme och den kontinuerliga lärandeprocessen. Ale kommun och andra påpekar att läraren har en nyanserad bild av elevens kunskaper som är särskilt viktig för studerande med tidigare skolmisslyckanden, en bild som helt går förlorad i den föreslagna modellen.
  • Hot mot Flexibilitet och ”Andra Chansen”: Komvux grundläggande funktion som en flexibel ”andra chans” för vuxna att komplettera sin utbildning hotas i grunden av förslaget att begränsa antalet provtillfällen till två per år. Remissinstanser som VIS (Vuxenutbildning i Samverkan)Ale kommunAlmega och Kriminalvården varnar för att detta leder till fördröjda studier, minskad genomströmning och ett utbildningsutbud som smalnar av till enbart de ämnen som har nationella slutprov.
  • Utbrett Stöd för en Alternativ Modell: Som en reaktion på det avvisade förslaget finns ett utbrett stöd för en alternativ lösning. Flera instanser, däribland Ale och Gislaveds kommuner, föreslår explicit en sammanvägnings- eller hybridmodell. En sådan modell, där meritvärdet baseras på en viktning av både det lärarsatta betyget och resultatet på NSP (t.ex. 50/50), framhålls som en betydligt mer realistisk och rättvis väg framåt för Komvux.

Utöver de specifika modellerna finns även genomgående synpunkter på reformens praktiska genomförande.

6. Synpunkter på Tidsplan, Implementering och Övriga Konsekvenser

Utöver kritiken mot de enskilda komponenterna i betygssystemet har remissinstanserna rest betydande, övergripande invändningar mot reformens praktiska genomförbarhet och oavsedda konsekvenser.

  1. Orealistisk Tidsplan och Reformträngsel. Det råder en stark konsensus om att den föreslagna tidsplanen, med ett stegvist införande mellan 2027 och 2030, är orealistisk och alltför ambitiös. Instanser som AlmegaSveriges Kommuner och Regioner (SKR) och Katrineholms kommun pekar på den ”reformtrötthet” som redan finns i skolsverige och att detta komplexa systembyte sker samtidigt som andra stora reformer, såsom Gy25, ska implementeras. Tiden för förberedelse, utveckling av system och kompetensutveckling anses vara grovt underskattad.
  2. Kritisk logistisk brist: Senarelagd antagningsprocess. Flera instanser, däribland Gislaveds och Sala kommunersamt SKR, lyfter vad som framstår som en kritisk logistisk brist i utredningens planering. Nationella slutprov som genomförs och rättas centralt i slutet av vårterminen kommer oundvikligen att försena beräkningen av elevernas slutgiltiga meritvärden. Detta skapar betydande svårigheter för antagningsprocesserna till både gymnasieskolan och högre utbildning, vilkas tidsplaner är hårt pressade redan idag.
  3. Behov av Information och Stödmaterial. En genomgående efterlysning från flera kommuner (exempelvis Tingsryds, Ale och Malmö kommuner) är behovet av tydligt, genomarbetat och pedagogiskt stödmaterial. För att ett så komplext system ska kunna implementeras och vinna legitimitet krävs omfattande informationsinsatser för att förklara modellen för skolpersonal, elever och vårdnadshavare. Vidare betonas att införandet måste åtföljas av tillräckliga ekonomiska resurser till huvudmännen.

7. Särskilt positiva och särskilt negativa instanser

Remissinstansernas inställning till förslaget om ett nytt betygssystem varierar, men man kan identifiera tydliga grupper som är särskilt positiva respektive särskilt negativa till vissa av de mest centrala delarna av utredningen.

Särskilt positiva instanser

Dessa instanser tenderar att helhjärtat stödja utredningens huvudförslag om meritvärdeskalibrering (MVK), den nya betygsskalan och syftet att skapa nationell likvärdighet och motverka betygsinflation:

• Statliga Myndigheter och Utvärderingsinstitut (som stödjer systemlösningen):

    ◦ Skolverket tillstyrker tydligt reformen och dess huvudförslag, inklusive den nya betygsskalan utan skarp godkäntgräns och meritvärdeskalibreringsmodellen för likvärdiga meritvärden. Skolverket menar att den föreslagna modellen är det bästa alternativet för att åstadkomma mer likvärdiga betyg och meritvärden.

    ◦ Skolinspektionen välkomnar betänkandet och ser positivt på flera av förslagen, särskilt MVK-modellen, som anses leda till mer rättvisande och likvärdiga betyg samt en mer tillförlitlig antagning till högre studier. 

    ◦ IFAU (Institutet för arbetsmarknads- och utbildningspolitisk utvärdering) är i huvudsak positivt inställt till utredningens förslag om att införa ett nytt, mer finskaligt betygssystem som kalibreras mot skolans resultat på nationella prov.

• Kommuner och Organisationer som Fokuserar på Simpel Tillstyrkan:

    ◦ Kils kommun lämnar ett mycket kortfattat yttrande där de helt enkelt fastställer att Kommunstyrelsen är positiv till betänkandet.

    ◦ Region Gotland ställer sig positiv till ambitionen att skapa ett likvärdigt system och ställer sig bakom förslagen.

    ◦ Företagarna tillstyrker i huvudsak utredningens samlade förslag i syfte att öka likvärdigheten i betygssystemet.

Särskilt negativa instanser

Kritiken är ofta riktad mot antingen modellens komplexitet och potentiella orättvisor, eller mot de specifika konsekvenserna för Komvux.

Stark kritik mot Meritvärdeskalibreringen (MVK) och systemets komplexitet:

Göteborgs universitet (GU) och Uppsala universitet (UU) är bland de mest kritiska akademiska instanserna:

    ◦ GU menar att förslaget inte lever upp till de grundläggande kraven på transparens och förutsägbarhet. GU kritiserar att modellen närmar sig ett relativt betygssystem, där elever inte kommer att kunna få svar på fundamentala frågor om varför de fick det meritvärde de fick. De ställer sig dessutom helt avvisande till möjligheten att göra om slutprov för att förbättra meritvärdet, då det riskerar att bidra till ytterligare social snedrekrytering.

    ◦ UU avstyrker förslaget om meritvärdeskalibrering. De anser att huvudförslaget är för komplext och att dess oförutsägbarhet och problematik riskerar att underminera systemets legitimitet. De påpekar att den gruppbaserade meritvärdeskalibreringen kan få konsekvenser som upplevs orättvisa för individer, särskilt för elever som får sitt meritvärde nedkalibrerat.

Malmö universitet (MAU) och Högskolan Väst (HV) kritiserar också komplexiteten:

    ◦ MAU delar oron kring MVK-modellens komplexitet, att den kan vara svår att förklara och förstå för elever och vårdnadshavare, vilket riskerar att undergräva systemets legitimitet.

    ◦ HV delar utredningens problembeskrivning men avstyrker det föreslagna kalibreringssystemet i sin nuvarande form. De menar att den överdrivna vikten vid nationella prov riskerar att underminera lärares undervisning (”teaching for the test”).

• Gislaveds kommun motsätter sig användningen av meritvärdeskalibrering överhuvudtaget, då det är ett mycket komplext system som inte blir lättförståeligt eller transparent för elever och vårdnadshavare. De förordar istället en enklare 50/50-sammanvägningsmodell.

Stark kritik mot Komvux-förslagen:

Flera kommuner och organisationer som representerar vuxenutbildningen är mycket kritiska till förslaget att meritvärdering inom Komvux endast ska baseras på nationella slutprov (utan lärarsatta betyg) och att provtillfällena begränsas.

Riksförbundet Vuxenutbildning i Samverkan (VIS) avstyrker samtliga förslag som rör nationella slutprov och deras betydelse för meritvärdering inom Komvux. De menar att förslaget hotar att eliminera Komvux flexibilitet, tvingar elever att vänta på examination, och därmed motverkar utbildningens syfte och den snabba genomströmningen till arbete/studier.

Ale kommun avstyrker de föreslagna förändringarna avseende nationella slutprov inom Komvux, då de motverkar Komvux syfte genom att begränsa flexibiliteten att möta individuella studiebehov. Kommunen ser en överhängande risk att genomströmning och utbud begränsas till enbart provämnena.

Botkyrka kommun ser flera risker, särskilt att begränsningen till två nationella provtillfällen per år hotar vuxenutbildningens flexibilitet och att meritvärdering enbart baserad på nationella prov riskerar att öka ojämlikheten, särskilt för elever med tidigare skolmisslyckanden.

SKR (Sveriges Kommuner och Regioner) avstyrker att det föreslagna betygssystemet införs i Komvux, då konsekvenserna för skolformen anses vara oproportionerligt långtgående.

Stockholms kommuns arbetsmarknadsnämnd anser att förslagen kraftigt försämrar förutsättningarnaför Komvux och de elever som sökt sig dit. De menar att förslaget tar bort Komvux uppdrag som en andra chans.

8. Fördjupning kring vad är instanserna särskilt positiva och särskilt negativa till

Remissinstansernas syn på förslaget uppvisar en tydlig klyfta: man är generellt positiv till reformens övergripande syfte och flera strukturella komponenter, men uttrycker samtidigt mycket stark kritik mot de praktiska konsekvenserna av de mest centrala förslagen samt hanteringen av Komvux.

Här är en sammanfattning av de delar av förslaget som remissinstanserna framförallt är positiva till och de delar man framförallt är negativa till:

Delar remissinstanserna är framförallt positiva till

Den mest konsekventa positiva responsen gäller de grundläggande strukturella förändringarna som syftar till att öka likvärdigheten och rättssäkerheten:

1. Målsättningen om Likvärdighet och Meritvärdeskalibrering i princip

Nästan alla remissinstanser välkomnar utredningens ambition att skapa ett mer likvärdigt och rättssäkert betygssystem som motverkar betygsinflation.

• Meritvärdeskalibrering (MVK): Själva huvudförslaget om meritvärdeskalibrering (MVK), där lärarsatta betyg viktas mot externa nationella slutprovsresultat, tillstyrks i huvudsak för att det skapar en nationell referenspunkt och dämpar tendensen till glädjebetyg och mellanskolsvariation. MVK-modellen ses som ett sätt att bibehålla lärarens professionella bedömning samtidigt som systemet tillförs ett objektivt mått.

2. Den Nya Numeriska Betygsskalan (1–10)

Införandet av en ny numerisk betygsskala med tio steg är i stort sett enhälligt positivt.

• Avskaffande av F-betyget: Särskilt positivt lyfts att den skarpa gränsen för underkänt (F) tas bort.

• Synliggjord Progression: De nya stegen (1–3) under nivån för godtagbara kunskaper bedöms kunna synliggöra elevers utveckling och progression, vilket kan öka motivationen och minska stigmatiseringen för elever som ligger under godtagbar nivå.

• Jämna Skalsteg: De jämna skalstegen i den tiogradiga skalan eliminerar de stora, ojämna stegen i dagens system (särskilt mellan F och E) vilket förbättrar precisionen och differentieringen i meritvärderingen.

3. Obligatoriska Bedömningssamråd och Central Rättning

Införandet av obligatoriska bedömningssamråd mellan lärare tillstyrks i syfte att stärka den interna likvärdigheten, öka samsynen kring bedömning och utveckla den professionella kulturen på skolan. Även central rättning av de nationella slutproven stöds, då det ökar likvärdigheten och avlastar lärarna administrativt.

Delar remissinstanserna är framförallt negativa till

Kritiken är mycket omfattande och rör framförallt tre centrala områden: systemets praktiska tillämpning (särskilt för Komvux), dess komplexitet och den snäva tidsplanen.

1. Konsekvenserna för Kommunal Vuxenutbildning (Komvux)

Förslaget att meritvärdering inom Komvux på gymnasial nivå enbart ska baseras på resultat från nationella slutprov (NSP) och att provtillfällena begränsas till ett fåtal tillfällen per år är den del av reformen som möter den skarpaste och mest entydiga kritiken.

• Hot mot Flexibiliteten: Förslaget hotar Komvux unika särart och uppdrag, som bygger på flexibilitet, kontinuerliga kursstarter och individanpassad studietakt. Begränsningen av provtillfällen tvingar elever att vänta i månader på examination, vilket fördröjer deras etablering på arbetsmarknaden eller övergång till högre studier, och kan leda till minskad genomströmning.

• Nedvärdering av Lärarens Roll: Att meritvärdet uteslutande baseras på provresultat ses som en nedvärdering av lärarnas kompetens och ignoreras det bredare bedömningsunderlag som är nödvändigt för vuxenstuderande, varav många har tidigare skolmisslyckanden eller provsvårigheter.

• Olikvärdiga Modeller: Många anser att det är problematiskt att Komvux får en helt annan modell för meritvärdering (enbart NSP) än gymnasieskolan (kalibrerade betyg + NSP-resultat), vilket skapar orättvis konkurrens om platser till högre studier. Skolverket avstyrker uttryckligen Komvux-förslaget och föreslår istället en utredning om ämnesvis kalibrering.

2. Systemets Komplexitet, Otydlighet och Legitimitet

Många instanser lyfter att den föreslagna modellen är tekniskt och statistiskt komplex, vilket hotar dess legitimitet och transparens för de viktigaste intressenterna:

• Svårbegriplighet: Meritvärdeskalibreringsmodellen är ”mycket komplex” och svår att förstå och förklara för elever, vårdnadshavare och till och med skolpersonal, vilket riskerar att skapa misstro mot systemet.

• Oförutsägbarhet och Orättvisa: Många ser problem i att meritvärdet kalibreras baserat på skolans genomsnittliga resultat. Detta kan upplevas som orättvist då en enskild elevs meritvärde kan justeras nedåt på grund av en hel skolas genomsnittliga prestation, eller om eleven får ett högre betyg i ett icke-provgivande ämne som då drar ner medelvärdet i kalibreringen.

3. Ökad Stress och Snäv Undervisning

Den ökade tyngden som läggs på de nationella slutproven (NSP) som en extern referenspunkt oroar många:

• Provstress och Psykisk Ohälsa: Den stora vikten av NSP, särskilt i slutet av studierna, riskerar att öka provstress, testängslan och psykisk ohälsa bland eleverna, oavsett prestationsnivå.

• ”Teaching to the Test”: Det finns en stark farhåga för att undervisningen och lärarnas bedömningspraktik kommer att snävas av för att fokusera på det som mäts i slutproven (washback-effekt), snarare än på ämnenas bredd, kritiskt tänkande och muntliga/praktiska färdigheter, särskilt eftersom NSP designas för automatisk och central rättning.

• Uteslutna Ämnen: Flera instanser, särskilt Kungl. Musikhögskolan (KMH) och Göteborgs universitet (GU), kritiserar att praktiskt-estetiska ämnen (PREST) saknar NSP och därmed riskerar att marginaliseras och få sin bedömning (som ofta är högre) indirekt nedkalibrerad av NSP-resultat i teoretiska ämnen.

4. Tidsplan och Implementering

Den föreslagna tidsplanen för införande av en så pass omfattande reform anses av en överväldigande majoritet av instanserna som alltför snäv och orealistisk.

• Reformträngsel: Reformen sker samtidigt med flera andra stora skolförändringar (t.ex. Gy25, nya läroplaner och stödreformen), vilket skapar en ”reformträngsel” som överbelastar lärare, rektorer och huvudmän.

• Tekniska Utmaningar: Det krävs mer tid för Skolverket att utveckla och stresstesta de digitala systemen för NSP, central rättning och meritvärdesberäkning, särskilt med tanke på tidigare problem med digitala nationella prov.

• Skolverkets Avrådan: Skolverket avstyrker tidsplanen och föreslår en senareläggning med ett till två år.

9. Sammanfattande Slutsatser och Rekommendationer

Sammanställningen av remissvaren ger en tydlig bild av ett reformförslag som, trots goda intentioner, möter fundamental kritik gällande dess centrala mekanismer och praktiska genomförbarhet. Följande övergripande slutsatser kan dras:

  • Bred enighet om problembilden, men stark oenighet om lösningen: Stödet för att åtgärda betygsinflation och bristande likvärdighet är starkt och brett. Den föreslagna MVK-modellen anses dock av en majoritet av de kritiska instanserna vara alltför komplex, icke-transparent och potentiellt orättvis för att kunna uppnå den legitimitet som krävs av ett nationellt betygssystem.
  • Förslaget för Komvux är ogenomförbart: Det råder en närmast total enighet bland berörda parter om att det nuvarande förslaget för kommunal vuxenutbildning är praktiskt och principiellt ogenomförbart. Det måste omarbetas i grunden, där remissvaren visar på ett starkt och samlat stöd för en hybridmodell som väger samman lärarsatta betyg och provresultat.
  • Tidsplanen måste revideras: Den föreslagna implementeringstidsplanen bedöms vara universellt orealistisk. För att säkerställa en ansvarsfull och kvalitativ övergång krävs en betydande förlängning som ger tid för systemutveckling, pilottester, framtagande av stödmaterial och förberedelser hos samtliga aktörer.
  • Praktiska konsekvenser är underskattade: Utredningen har inte i tillräcklig utsträckning analyserat de praktiska följdeffekterna av förslaget. Detta gäller särskilt den digitala infrastrukturens sårbarhet, kapaciteten för en storskalig central rättning och de oundvikliga förseningarna i antagningsprocesserna till gymnasieskola och högskola.
  • Rekommendation för vidare beredning: Regeringen rekommenderas att i den fortsatta processen prioritera en förenkling av kalibreringsmodellen. Remissinstanserna har gett ett tydligt mandat att utreda sammanvägningsmodellen som ett mer transparent och legitimt huvudalternativ. Ett helt nytt förslag för Komvux, utvecklat i nära dialog med sektorn, måste tas fram. Slutligen bör en ny, mer realistisk implementeringsplan fastställas, med en tydlig försäkran om adekvat och långsiktig finansiering för genomförandet.

10. Egen reflektion

Utredningen lyfter viktiga frågor om betygens likvärdighet, men den föreslagna lösningen riskerar att skapa andra problem vilket flera av remissyttranden lyfter fram. Ett betygssystem måste hålla ihop både systemisk rättvisa och professionell legitimitet. Det uppnås inte bara genom kalibrering av utfall utan genom investering i lärarnas bedömarkompetens och i skolans undervisningskvalitet. Det är symptomatiskt att utbildningspolitiska reformer försöker lösa ett problem i taget och missar den vidare komplexiteten. Betygssutredningen är t.ex. inte tydligt kopplad till andra aktuella utredningar, och frågor som på vilken epistemologisk grund en 10-gradig betygsskala vilar samt hur det påverkar läroplaner behöver ytterligare belysas. 

Ett betygssystem kan inte förändras utan att det som följd får stora effekter på skolans innehåll och undervisning samt ytterst för elevers lärande. Det kan på goda grunder ifrågasättas om det är värt det för att lösa ett problem som främst drabbar ett mindre antal individer. Statistik visar att drygt 30 procent av en årskull går yrkesförberedande gymnasium, ca 50 procent av en årskull söker sig vidare till högskola och universitet inom 5 år efter gymnasiet. Antagningsstatistik från UHÄ visar vidare att runt 65-85 procent av de som antas till högre utbildning gör det med låga till medelhöga betyg. Det är med andra ord endast för en mindre andel elever som lämnat gymnasiet som bristande likvärdighet i betygssättningen kan spela en reell roll, något utredningen inte alls berör. Sen är det givetvis problematiskt ur ett rättssäkerhets- och legitimitetsperspektiv om betyg inte uppfattas som likvärdiga.

Till yttermera visso kräver en så här pass genomgripande förändring av betygssystemet och systemet för nationella prov ytterligare utredningar på detaljnivå, och småskaliga försök. Flera av utredningens tolkningar av såväl betygssystem i andra länder och av tidigare forskning är tveksamma och skulle behöva analyseras ytterligare av experter på området i en omfattning som inte är möjligt i remissvar, även om det är tydligt att flertalet tillfrågade lärosäten är mer kritiska i sina remissvar än andra instanser. 

(Några av dessa avslutande synpunkter lyfte jag också i det remissyttrande som avlämnades från Örebro universitet.) 

Hatad i livet – glömd i döden! Gustaf och snillevalet

 

Hatad i livet – glömd i döden! Vad har man gjort för att förtjäna ett sådant omnämnde i minnesböcker? Beskrivningen gäller privatläraren och skoldebattören Gustaf Ruder som på 1730-talet blev den första i Sverige att på allvar tala för det vi ser som självklart idag – att urval till högre utbildning baseras på meriter. De mest lämpade skulle väljas, i stället för barn till välbärgade föräldrar. Idag är det ju betyg och resultat på högskoleprovet som avgör.

Gustaf Ruder förordade alltså att meriter skulle vara grunden för urval till universitet, det som då benämndes snilleval. Men hur kunde detta vara så kontroversiellt att det väckte sådant hat mot Ruder som person? 

Under Frihetstiden i Sverige på 1700-talet hade en ny generation politiker, färgade av upplysningens idéer, kommit till makten. Undervisning och uppfostran debatterades och en ny syn på begåvning och urval trädde fram. Utbildning kostade staten mycket och det fanns en risk att de ”tärande yrkena” – Gustaf Ruder använde just de orden – som exempelvis tjänstemän i staten inte gavs till de mest lämpade. 

Genom snilleprövning skulle det gå att sätta rätt man på rätt position menade Ruder. Därmed blev han indirekt en företrädare för ståndscirkulation, vilket väckte en del ont blod. Skulle nu plötsligt vem som helst få utbilda sig? 

Ett sätt att förstå Gustaf Ruders resonemang är att låna sociologen Zygmunt Baumans (1925–2017) åtskillnad mellan skogvaktarstaten och trädgårdsmästarstaten. 

Snilleväljaren, som Gustaf Ruder också kallar för trädgårdsmästare, är klart pro-aktiv. Han låter inte trädgården växa vilt, utan han sår, ansar och gallrar. Han vill få ut mer av trädgården än vad den kan ge utan vård. 

Samhällets praxis speglade snarare då skogvaktarstatens hållning om en naturlig sållning. Biskopen i Västerås skriver:

Man kan omöjligen veta, hvilkens snillegåfvor med tiden torde blifva förvärrade eller förbättrade, så lärer man ock i förtid ej med någon särdeles visshet kunna säga, hvad var och en yngling i mandomsåren skall blifva mest fallen och skicklig till. 

Det handlar alltså om att barn utvecklas på olika vis och i olika takt. Lärarens roll är att följa detta med ro, likt en skogvaktare som ger träden tid att växa och bli vad de är förutbestämda att bli. Lektorerna vid Växjö gymnasium anförde:

Alla dagar ser man väl det att den ene lärjungen är qvickare än den andre, har bättre minne och kan nu fortare göra reda för sin lexa än dess kamrat, som fast trögare, dummare, långsammare, ofta med full börd seglar den förre förbi, då dess judicium [omdöme] kommer till större mognad.

Rent praktiskt tänkte sig Ruder att snilleväljaren har tillgång till ett antal gossar  och att man bland annat studerar deras läsförmåga, skrivkunnighet, minne, kristendomskunskap samt inbillnings- och föreställningskraft. Dessutom granskas gossarnas omdömet, och deras ”affekter och sinnesböjelser”. Resultaten stämdes sedan av mot deras ”kropp och utvärtes skapnad”. 

Gustaf Ruder knyter här an till den så kallade temperamentsläran grundad av den antika läkaren Hippokrates och som delar in människan i fyra temperament formade av kroppsvätskornas sammansättning. Det är sangviniker (blod), flegmatiker (slem), koleriker (gul galla), melankoliker (svart galla). Han gör sedan en uppdelning av olika typer av yrkesgrupper och länkar varje temperament till olika uppgifter inom respektive yrkesgrupp. I staten kan koleriker till exempel bli ministrar, medan flegmatiker mer lämpar sig som betjänter. I handel kan koleriker och melankoliker bli ”rika storhandlare” medan sangviniker och flegmatiker blir ”fattiga småhandlare”. 

Den dåvarande riksdagen är enhälligt skeptiskt till dessa tankar. Förutom rent praktiska argument mot snillevalet, som att det skulle bli dyrt, framfördes teoretiska argument som tvivlade på temperamentsläran över huvud taget. Dessutom härskade den praxis som biskopen Västerås gav uttryck för ovan. 

Ruders tankar föll i glömska och ett meritokratiskt skolväsende skulle låta vänta på sig långt in på 1900-talet. 

Även om vi idag tar meritokrati för självklart när det gäller utbildning finns en ständigt närvarande diskussion om när, hur och vem som har rätten och kompetens att bedöma barns kunskaper och potential. I Sverige har de betyg lärarna sätter stor betydelse för elevernas fortsatta möjligheter – men vi litar inte helt på dem. 

Mer objektiva och externa bedömningar som de nationella proven ska beaktas vid betygssättningen. Det finns också flera förespråkare för att dessa ska få mycket större betydelse och rättas centralt av staten inte minst för att öka likvärdigheten. Det är då viktigt att komma ihåg att lärarnas betyg vilar på observationer av elevernas lärande och utveckling, ofta över flera år. Ett enskilt prov vid ett provtillfälle kan aldrig ersätta detta.

Denna text är en återpublicering av en tidigare vetenskapskrönika i NA 221209

Se vidare om Ruder här

Vilket är elevens rätta resultat?

Det finns de som påstår att det är lätt att mäta kunskaper. Allt som oftast står det i tidningarna att elever får för höga betyg eller fel betyg med utgångspunkt i jämförelser mellan de betyg lärare har satt på elevernas kunskaper och elevers resultat på de nationella proven. Redan här förstår man kanske att det inte är helt lätt, för vem har egentligen mätt rätt? I dagsläget och på goda grunder som jag ska visa, ska emellertid inte de nationella proven styra lärares betyg. De ska vara ett stöd i betygssättningen. Anledningen är att det inte helt objektivt går att mäta den typ av kunskaper våra läroplaner anger att eleverna ska lära sig, och att mätandet i sig påverkar vad och hur eleverna lär sig. Detta brukar diskuteras i termer av validitet och reliabilitet. Validitet, giltighet, handlar ytterst om hur säkert vi kan uttala oss om ett resultat utifrån hur säkra vi är på vad vi har mätt, eller som Samuel Messick uttrycker det i sin klassiska artikel Validity:

Validity is an integrative evaluative judgment of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment. (Messick 1989:13)

Messick diskuterar två hot mot möjligheten att göra valida tolkningar av ett testresultat, dels construct under representation, dels construct irrelevant variance. Det första handlar om att ett prov inte tillräckligt förmår fånga skillnaden mellan elever kring det vi ville mäta. Om vi t.ex. har ett flervalsprov i historia så fångar det elevernas skilda kunskaper kring historiska fakta men inte huruvida eleverna kan konstruera ett historiskt argument, eller för att ta något uppenbart, att muntlig förmåga inte mäts på ett skriftligt prov. Alltså, construct under representation handlar om att viktiga aspekter av ett kunnande är underrepresenterade i ett prov.

Construct irrelevant variance handlar om motsatsen, uppgiften mäter något som den inte borde mäta. I ett test i matematik kan frågorna vara formulerade med ett så pass svårt språk att vi inte vet om skillnaden mellan eleverna beror på läsfärdighet eller matematisk färdighet. Reliabilitet, trovärdighet, handlar om i vilken grad resultaten på ett test kan bero på slumpmässiga faktorer, eller faktorer utom testarens kontroll. Paul Black och Dylan Wiliam (2011) menar därför att reliabilitet ytterst är en fråga om construct irrelevant variance, alltså om validitet. Har ett test låg reliabilitet går det inte att göra valida tolkningar av resultatet eftersom man inte vet vad resultatet beror på.

En vanlig metafor för reliabilitet och validitet är nedanstående bild (se t.ex. Koretz 2008):

validitet och reliabilitet

Den fjärde bilden ses som både reliabel och valid. Men säg nu att kursplanen definierar hela tavlan som mål för undervisningen. Då får du en påtaglig construct under representation i det fjärde fallet. Snarast är det då den andra bilden som ger bäst construct representation, men mot en betydligt lägre inre konsistens. Man får alltså i praktiken i viss utsträckning bestämma sig för om man ska betona reliabilitet eller validitet, eller hitta någon lämplig kompromiss – vilket inte är det lättaste.

Det finns tre övergripande hot mot reliabiliteten:
1) Olika bedömare gör olika tolkningar av elevernas svar
2) Elevernas dagsform påverkar hur de svarar och om de kan eller inte
3) Olika uppgifter men som mäter samma kunskaper uppfattas på olika sätt av olika elever.

Ett sätt att öka reliabiliteten är genom att införa fler frågor på varje mätområde. Vi vill kanske ge eleverna tre olika möjligheter att visa att de förstår ett specifikt moment. Om vi på detta sätt vill öka den så kallad interbedömarreliabiliteten från ett läge där oberoende bedömare kommer till samma slutsatser i 64 procent av fallen till 81 procent av fallen, behövs en uppgiftsmängd som förlänger provtiden 5 till 6 gånger menar Black och Wiliam (2011), dvs. upp mot 25-30 timmar om vi tar ett Nationellt prov som exempel. Skulle vi göra det får vi dock ett annat problem – eleverna blir så trötta att de underpresterar. Alternativet är att vi gör ett test som täcker in färre områden, men då får vi alltså underrepresenterade kunskapsområden. Det hela handlar om klassisk testteori. Vanligtvis brukar man beräkna hur många uppgifter som behöver adderas till ett prov för att uppnå en viss reliabilitet. Det gör man med hjälp av Spearman-Browns formel. De flesta provkonstruktörer väljer en balans mellan dessa poler med den uppenbara konsekvensen att det finns mätfel även i de allra mest ambitiöst konstruerade proven. Ska man göra vettiga tolkningar av ett prov måste man därför ha en aning om mätfelets storlek. Black och Wiliam (2011) har ett resonemang om hur man kan tänka om det genom att ha en hypotes om elevernas rätta resultat. Det finns inget meningsfullt prov där elever skulle få samma resultat varje gång. Elever gör olika fel vid varje mättillfälle och bedömare gör olika rättningar vid olika tillfällen. Men om man lade ihop en elevs resultat på fem till sex liknande prov under en begränsad tid skulle man få fram ett genomsnittligt resultat som kallas the true score – det rätta resultatet. Ett sätt att åstadkomma detta i praktiken är att arbeta med split half-metoden som innebär att man gör ett prov som kan delas i två delar. Sedan jämför man utfallet på de två delarna. Är det hög överensstämmelse har uppgifterna en hög inre konsistens avseende vad de mäter. Överensstämmelsen är dock också beroende av hur man delar upp testet och därför måste man korrelera alla tänkbara rimliga sätt att dela testet på med varandra. Då får man ett värde som kallas Cronbachs alpha och som uttrycks mellan 0 och 1, där 0 betyder att proven ger slumpmässiga utfall och 1 att provet är helt reliabelt – varje gång vi gör det får vi samma resultat. En vanlig uppfattning är att Cronbach alpha bör ligga på 0.7 och uppåt om testet ska vara användbart, men det beror givetvis på vad det faktiskt är man mäter. För att förstå vilken effekt olika grader av reliabilitet faktiskt kan få t.ex. för vilket provbetyg en elev får behöver vi kombinera Cronbach alpha med ett mått på elevens sanna resultat (the true score).

För att undersöka hur provets inre konsistens påverkar resultatet för en elev kan Cronbach alpha sättas i relation till standardavvikelsen, dvs. den genomsnittliga avvikelsen från medelvärdet. En bra illustration till hur man kan räkna finns i Black och Wiliam (2011). På en normalfördelningskurva faller 68 procent av resultaten inom en standardavvikelse och 96 procent inom två standardavvikelser. Genom att kombinera dessa mått går det att få fram ett förväntat standardfel, SEM. Standardfelet anger för varje reliabilitetsnivå den förväntade spridningen av felprocent inom en och samma faktiska kunskapsmängd.

Formeln för SEM är X √(1-r)

Om r är reliabilitet så betyder detta att SEM på ett prov med en reliabilitet på 0.85, där man kan få 50 poäng och där standardavvikelsen (X) är 7,5 poäng blir 2,9 poäng (SEM=7,5√(1-0,85)=2,9). Det innebär att den ”sanna poängen” för en elev med 35 provpoäng till 68 procents sannolikhet ligger mellan 32 och 38 poäng. Vill man ha 95 procents säkerhet kan man säga att den ligger mellan 29 och 41. Detta är i själva verket en approximation, men används allmänt i professionell provanalys. Detta innebär hursomhelst att i en klass på 30 elever så är det minst en elev, vi vet aldrig vem, som avviker mer en 12 procent i positiv eller negativ riktning, det kan vi heller inte veta, från sitt riktiga resultat. Minst tio elever avviker 6 procent från sitt sanna resultat relaterat till provens bristande inre konsistens (som i det här exemplet trots allt inte var så farligt hög). Effekten för den enskilda individen kan dock bli stor varför professionella testkonstruktörer gärna är extra försiktiga med vilka slutsatser de drar från ett prov. Black och Wiliam skriver:

even the best tests can be widly inaccurate for a few individual students /…/ This is why testing experts invariably say that high-stakes decisions should never be based solely on the results of a single test. (Black & Wiliam 2011, s. 252)

Det är också av detta och likande skäl som nationella prov inte ska styra elevernas betyg. Om de gör det kommer vissa elever ändå att få fel betyg. Staten har därför valt att lita också på lärarnas omdömen. Frågan som uppstår är emellertid om lärares betyg hamnar ännu mer fel. Det kan vi inte veta med mindre än att vi forskar mer om hur lärare tänker när de ger eleverna deras betyg. Vi vet alltså inte vilken bedömning det är som är mest construct relevant, provbetyget eller lärarnas betyg. Men om vi bara håller oss till reliabiliteten i bedömningarna av proven går den att förbättra med olika medel. Ett sätt har varit att erbjuda elevexempel för olika betygsnivåer så att lärarna vet vad de ska titta efter. Det kvarstår dock fortfarande en stor del bristande bedömaröverensstämmelse, särskilt i uppsatsdelarna. Ett rimligt nästa steg är att låta lärare rätta proven tillsammans i grupp. Man rättar alltså sina egna elevers resultat och de andra lärarnas gemensamt. Det skulle göra att lärarna ”skrapar av” varandras extremer och därigenom, om gruppen är någorlunda heterogen, men inte nödvändigtvis större än 4-5 lärare, når en norm som skulle likna den liknande grupper skulle komma fram till (för en bra beskrivning av hur det praktiskt kan gå till se här och här). Det krävs alltså inte en särskilt stor kritisk massa för att enas om den mest rimliga tolkningen. I en sådan process skulle lärarna också utveckla sin ämneskompetens i det att de lära av varandra vad som är viktigt att fästa uppmärksamhet vid i olika moment av ämnet. Att låta lärare kontrollrätta varandras elevers anonymiserade prov menar jag däremot är en sämre väg att gå. Det förstärker misstroendet till lärarna och det blir inte nödvändigtvis rättvisare för eleven. Framförallt tar det bort ett tillfälle för lärare att lära av varandra. Bedömning av elevers kunskaper kan aldrig ske helt objektivt – däremot kan det utföras med en tillräckligt hög grad av intersubjektivitet för att tillfredsställa både individens och samhällets krav på likvärdighet!

Referenser

Black, Paul and Wiliam, Dylan (2011). The reliability of assessments. In John Gardner (ed.). Assessment and Learning. 2nd edition Los Angeles and London: Sage Publications, p. 243–263.

Koretz, Daniel M. (2008). Measuring up: what educational testing really tells us. Cambridge, Mass.: Harvard University Press

Messick, Samuel (1989). Validity. In Robert L. Linn (ed.): Educational Measurement. 3d edition 1993. Phoenix: The Oryx Press, p. 13–103.