Kolik je tedy chyb v Hodnocení slohů?

V rámci odborné diskuse o podobě letošní státní maturity a smysluplnosti změn, které nově schválila Sněmovna, publikujeme text Oldřicha Botlíka. Vysvětluje, jakým způsobem se zjišťuje míra chybovosti při hodnocení maturitních písemných prací, a dokládá, proč je tvrzení, že letos byla chybovost jen půlprocentní, chybné.

 

Předprázdninová diskuse o rozsahu a závažnosti pochybení při hodnocení slohů v jarním kole státní maturity 2012 se nemohla opřít o téměř žádná relevantní data. Veřejnost totiž měla k dispozici jen několik náhodně získaných prací a jejich hodnocení. EDUin proto 8. června 2012 navrhl provedení tzv. slepé zkoušky. Té jsme se sice nedočkali, ale dnes už přece jen víme o něco málo víc než na jaře. Zkusme tedy aspoň odhadnout, jak by slepá zkouška dopadla.

 

Slepá zkouška a chybovost hodnocení

Slepá zkouška je standardní postup, kterým se prověřuje kvalita pokynů pro hodnocení a spolehlivost hodnotitelů. Vychází z jednoduché úvahy: jsou-li pokyny kvalitní a hodnotitelé je dodržují, měla by být stejná práce hodnocena vždy stejně. Kdyby totiž vyškolení hodnotitelé posuzovali příliš mnoho slohů pokaždé s jiným výsledkem, ztratila by tato část státní maturity věrohodnost. A tedy i smysl. Ani úplná shoda hodnotitelů ovšem sama o sobě nic neznamená: kdyby se například předem dohodli a všichni ohodnotili všechny práce dejme tomu maximálním počtem bodů (nebo naopak nulou), neměly by výsledky zkoušky také žádný smysl. Je tedy třeba současně posuzovat, zda kritéria hodnocení odpovídají tomu, co chce zkouška zjistit, a nakolik je hodnotitelé opravdu dodržují. Vždy je přitom například na pováženou, když se výsledky zkoušky u více maturantů diametrálně liší od toho, jak tyto své žáky znají jejich učitelé.

Míra shody mezi hodnotiteli je velmi důležitým ukazatelem kvality zkoušky. Statistické hodnoty, které ji popisují, by (například podle amerických standardů) měly být součástí informací o výsledcích každého hromadně prováděného hodnocení, protože mají zásadní význam při interpretaci výsledků. Cermat byl o tento ukazatel požádán několikrát. Dosud ho neposkytl, což je zvlášť závažné kvůli tomu, že u maturity hodnotil každý sloh jediný hodnotitel. Slepá zkouška je postup, který simuluje dvojí nezávislé hodnocení na náhodně vybraném vzorku prací. Umožňuje tak dospět aspoň k údajům o míře shody mezi hodnotiteli, která by velmi pravděpodobně nastala, kdyby se každý sloh hodnotil dvakrát.

Podle Jany Strakové, dlouholeté koordinátorky české účasti v mezinárodních průzkumech výsledků vzdělávání, se v nich pohybuje míra shody mezi hodnotiteli kolem 95 % u jedné úlohy. Jinak řečeno, kdyby odpovědi na tuto úlohu nezávisle hodnotily dvojice hodnotitelů u všech testovaných žáků, jejich hodnocení by se lišila u každého dvacátého. Protože se v souvislosti s hodnocením slohů u státní maturity objevilo několik velmi dílčích údajů o počtu chyb v hodnocení, dám pohledu z této strany přednost i já a budu používat termín chybovost: chybovost = 100 % – míra shody mezi hodnotiteli.

Chybovost u hodnocení písemných prací tedy vyjadřuje „vzdálenost od ideálu“ představovaného stavem, kdy dvojí nezávislé hodnocení dopadne u všech slohů stejně, případně „skoro stejně“. Není přitom vůbec rozhodující, o jak kvalitní práce jde (zda získaly např. maximum bodů, taktak prošly ap.). Vzdálenost od ideálu by neměla být příliš velká – jinak by pak s výsledkem nemohli rozumně pracovat zaměstnavatelé, vysoké a střední školy, krajské úřady a koneckonců ani maturanti a jejich rodiče. Nízká vypovídací schopnost školního maturitního vysvědčení byla, jak si jistě všichni pamatujeme, hlavním oficiálním důvodem, proč se státní maturita zaváděla.

 

Co tedy víme o výsledcích hodnocení slohů dnes?

Vyhledal jsem si tiskovou zprávu Cermatu z 15. 8. k počtu žádostí o přezkum výsledku či průběhu společné části maturitní zkoušky konané v jarním zkušebním období 2012. „CERMAT zpracoval oponentní posouzení ke všem podaným žádostem a v 540 případech vydal kladné doporučení. To odpovídá 6,63 % všech žádostí,“ uvedl ředitel Cermatu Jiří Zíka a doplnil, že u nejčetnějšího podání, písemné práce z českého jazyka základní úrovně obtížnosti, se jedná o něco málo přes 0,4 % z celkového počtu odvolání k výsledkům takto konaných dílčích zkoušek. (konec citátu; zdůraznil O. Botlík)

Jiří Kostečka uvádí ve svém „Rekviem za státní maturitu z češtiny“, převzatém po autorských úpravách Českou školou z Učitelských novin č. 31/115: „Bylo podáno 4 718 odvolání týkajících se slohu, z toho 4 614 na základní úrovni a 104 na vyšší úrovni. Vyhověno bylo 452 z nich, z toho 29 na VÚ a 423 na ZÚ. Všechny povinné zkoušky přitom vykonalo v jarním termínu 93 256 žáků. Z toho vyplývá, že prokázaných chybových hodnocení – vztáhnuto k celkovému počtu odevzdaných maturitních slohových prací – bylo 0,48 %. Necelé půl procento! To je snad fiasko či debakl? I tehdy, přičteme-li eventuální úspěšné žaloby proti výsledku odvolání a určitý počet potenciálně chybně hodnocených prací, jež navzdory masivní anticermatovské kampani napadeny nebyly, protože to studentům z nějakého důvodu nestálo za to, je zjevné, že celkově dopadlo centrální hodnocení maturitních slohů uspokojivě.“ (konec citátu)

Zavádějící a manipulativní charakter výpočtu Jiřího Kostečky komentovala na stránkách EDUin jedna diskutující zhruba takto: „Řekněme, že chceme zkoumat opilství za volantem. Ze 4 718 kontrolovaných řidičů bylo opilých 452 řidičů. Vydělíme číslo 452 počtem všech řidičů v republice. A rázem je po problému!“ Mně naopak z čísel uvedených v článku Jiřího Kostečky vychází – na rozdíl od Jiřího Zíky –, že mezi přezkoumávanými hodnoceními slohů na základní úrovni našel Cermat chybu v každém jedenáctém. Bylo jich přibližně 9 % z počtu maturantů, kteří žádost o přezkoumání podali, na vyšší úrovni obtížnosti pak dokonce cca 29 %. Ukážu, že skutečná chybovost u slohů nižší obtížnosti (tj. pravděpodobná vzdálenost od ideální shody na úplném souboru) se mohla namísto úrovně desetin pohybovat na úrovni desítek procent.

 

Proč?

Za prvé, sloh je výrazně složitější útvar než odpověď na úlohu třeba v mezinárodním průzkumu PISA. Mnohem složitější je i struktura a provázanost znaků, které hodnotitelé vyhledávají a posuzují. Porovnání složitosti nevylučuje, že chybovost hodnocení slohů státní maturity mohla být při stejné kvalitě hodnotitelů i několikrát vyšší než průměrná chybovost hodnocení jedné úlohy PISA.

Za druhé, procedura, během níž Cermat zpracoval svá vyjádření k odvolání a dospěl k počtům těch, která byla podle něj oprávněná, má se slepou zkouškou pramálo společného. Druhý posuzovatel se totiž (nejspíš – procedurální detaily neznám) může dozvědět výsledek prvního hodnocení i argumenty stěžovatele. Určitě však ví, že nejde o druhé nezávislé hodnocení – vyjadřuje se naopak nejen k práci maturanta, ale také k práci svých kolegů. To je vždycky problém, stačí se podívat do lékařského prostředí.

Za třetí, Cermat má zjevnou tendenci popírat své chyby, případně je bagatelizovat. Například v roce 2011 prohlásil za správné dvě úlohy v testu základní obtížnosti z češtiny, jejichž závadnost uznali kromě jeho současné hlavní metodičky vlastně všichni, včetně dvou nejhlasitějších obhájců státní maturity v její současné podobě. V roce 2012 dopadly stejně například dvě jiné neoddiskutovatelné chyby: jedna v testu z fyziky, druhá v testu vyšší obtížnosti z matematiky. Nevidím důvod, proč by se Cermat choval u hodnocení slohů jinak. Každá taková mocenská facka maturantům a vědecké pravdě je ovšem vítězstvím Pyrrhovým: Cermat za ně bude ještě dlouho platit ztrátou důvěry veřejnosti. Odborné, školské i laické.

Za čtvrté, vzorek tvořený pracemi žáků, kteří se proti výsledku hodnocení odvolali, je velmi nenáhodný. Nevím jistě, zda se odvolávali především ti, kteří ve slohu propadli. Je to však vysoce pravděpodobné, neboť těm výsledek vadil nejvíc. Pokud tomu tak bylo, pak šlo převážně o práce, jimž hodnotitelé podle vlastních vyjádření věnovali větší pozornost než ostatním a konzultovali svá hodnocení s vedoucími hodnotitelských týmů. V náhodně vybraném vzorku by potom mohlo být chybných hodnocení podstatně víc. Jiří Zíka by měl v rámci vstřícnější komunikace s veřejností, kterou vyhlásil, doplnit svou tiskovou zprávu také o rozložení počtu podaných odvolání podle dosaženého bodového zisku při prvním hodnocení – potřebné údaje v Cermatu jistě evidují.

Za páté. Lze samozřejmě namítnout, že ti, kteří si nestěžovali, žádné poškození necítili, a tak je jejich hodnocení v pořádku. Nemyslím si to – při současné pověsti státní maturity šlo většině žáků pouze o to, aby prošli. Kromě propadlíků si nejspíš stěžovali už jen ti, kterým výsledná špatná známka bránila v přijetí na zahraniční univerzitu. A možná několik dalších, kterým jde o princip. Ostatním zatím mohly být detaily hodnocení zcela lhostejné. Navíc by bylo metodicky nesprávné uvažovat jen o těch hodnoceních, která žáky poškodila. Pochybením hodnotitele je samozřejmě i hodnocení, které naopak žákovi „nadržuje“, přidává mu body, které by získat neměl. Neoprávněně ho totiž zvýhodňuje před ostatními například v konkurenci na pracovním trhu či při přijímání na vysokou školu.

Za šesté. Přečetl jsem si zhruba před měsícem veřejné vyjádření Jiřího Zíky o tom, že Cermat musel ukončit spolupráci s „dvaceti až čtyřiceti hodnotiteli“ pro hrubé chyby, kterých se dopustili. Pamatuji-li si správně celkový počet hodnotitelů, rozloučili se tedy s každým desátým až dvacátým. Nevíme ovšem, jak Cermat tyto nekvalitní hodnotitele odhalil: dopadl je plošným pátráním, anebo jsou to pouze ti, na které se přišlo jen díky poškozenému maturantovi, tj. při posuzování žádostí o přezkum výsledků hodnocení? „Vstřícnější komunikace Cermatu“ je tak jen dalším matením veřejnosti. Kolik těch ukončených smluv s hodnotiteli bylo ve skutečnosti? Jak je možné, že to ředitel Cermatu neví přesně? Neskrývá před námi něco? Cermat se dopustil chyb, které vedly k odvolání původního ředitele. A jeho nástupce si vzápětí troufá takhle mlžit o číslech, které jasně souvisejí s některými příčinami?

A konečně za sedmé. Objevují se zprávy, že maturanti, kteří na jaře ve slohu propadli, na podzim při opakování zkoušky obstáli na výbornou. Až při opakování zkoušky v ní tedy dopadli tak, jak si obvykle vedli ve škole. Jistě, někteří z nich o prázdninách tvrdě trénovali, a napravili tak podceněnou přípravu na jarní termín (smažili třeba palačinky a postup si průběžně zapisovali). Jiným nejspíš stačilo, že podruhé napsali zprávu v minulém čase, a vyhnuli se tak uplatnění nulovacího pravidla za nedodržení stylu. Podstatné však je, že výsledky této části maturitní zkoušky nejsou stabilní v čase: opakování zkoušky po krátké době může vést u téhož žáka na úplně jiný výsledek. Velkou váhu při hodnocení zřejmě mají i ty znaky slohových prací, které vypovídají o skutečných kvalitách žáka jen málo. Je to příklad toho, o čem jsem se zmiňoval na začátku: neshody mezi hodnotícími kritérii či jejich váhou a tím, co jako kvalitu žáka vnímají například jeho dlouholetí učitelé. Upřesnit míru nestability nedokážu – chybějí mi data. Cermat má ale veškeré podklady k tomu, aby tak co nejdříve učinil sám a s výsledkem seznámil veřejnost.

 

ZÁVĚR

Na základě výše uvedených argumentů docházím k závěru, že chybovost hodnocení slohů v letošním jarním kole státní maturity mohla dosáhnout i hodnoty řekněme kolem 20 %. Upřesnit můj odhad je nepochybně možné – Cermat ovšem zatím (čtvrt roku po skončení hodnocení slohů) nesdělil veřejnosti nic, co by umožnilo postoupit dále.

Nemám tedy potřebná data, abych svůj odhad mohl dokázat. Kdo s ním nesouhlasí, ať ho vyvrátí pomocí autentických dat. Pokládám ho však na základě argumentů za podstatně lepší, než jsou velmi nízké hodnoty uváděné jako výsledek dalších zveřejněných výpočtů a úvah. Budu se proto držet svých čísel, dokud Cermat nezveřejní data, která prokážou něco jiného. Připouštím přitom, že Cermat může s takovými daty přijít. Je to pro mě dokonce přijatelnější varianta než nevědět s jistotou, jak to je doopravdy.

Důkazní břemeno, že zkouška je v pořádku, nese Cermat. Nekončící spory o chybovost hodnocení slohů se budou opakovat do té doby, než se údaje o tzv. reliabilitě hodnocení písemných prací stanou závaznou součástí výsledků. Jejich dnešní absence je zásadním systémovým nedostatkem státní maturity.

Nespolehlivost výsledku hodnocení slohů (prozatím tedy značnou) za uspokojivou rozhodně nepokládám. Naopak, je zcela nepřijatelná u zkoušky, který má pro další životní osudy mladých lidí tak velký význam. Ministr školství doporučil centralizované hodnocení slohů zrušit. I když nejspíš ani on neměl pro své rozhodnutí k dispozici prakticky žádná „tvrdá“ data, rozhodl podle mého názoru naprosto správně. Měl se však postarat o to, aby se veřejnost konečně dozvěděla pravdu o rozsahu a závažnosti pochybení hodnotitelů písemných prací. Ať je jakákoli.

Představoval jsem si naivně, že Cermat i MŠMT budou aspoň dodatečně věnovat pozornost systematické analýze problému, který se týká téměř celého populačního ročníku, byl jednou z hlavních příčin odvolání dlouholetého ředitele a vedl k rozhodnutí bezodkladně novelizovat ustanovení školského zákona upravující společnou část maturitní zkoušky. Nestalo se tak.

Od okamžiku, kdy problém hodnocení slohů začal být medializován, jsem takový postup doporučoval, abych debatu posunul do věcné roviny. Vadí mi především skutečnost, že rozhodnutí vrátit hodnocení písemných prací z českého jazyka na úroveň školy není – alespoň pokud vím – podloženo relevantními daty. Možnost získat taková data existovala a nadále existuje. Pokud by data byla k dispozici, bylo by možné poučit se do budoucna a třeba i výrazně zlepšit kvalitu pokynů pro hodnocení a metodiku výběru a přípravy hodnotitelů.

Chci se v této souvislosti zmínit ještě o jedné věci, kterou pokládám za naprosto zásadní. Státní maturita není soukromý komerční projekt. Jistě má smysl utajit výsledky jednotlivých žáků a škol. Utajování anonymizovaných záznamů o odpovědích žáků v testech a o výsledcích hodnocení jejich písemných prací je však z hlediska důvěryhodnosti celého projektu velmi kontraproduktivní.

Novelizovaný zákon by měl Cermatu naopak uložit povinnost vypočítat z pořízených dat přesně specifikované ukazatele včetně statistických charakteristik použitých testů a výsledků hodnocení písemných prací. A poté je zveřejnit. Současně s tím by měl Cermat zveřejnit úplnou anonymizovanou verzi prvotních záznamů. Aby si každý, kdo o to stojí, mohl zveřejněné hodnoty ukazatelů zkontrolovat a případně spočítat cokoli dalšího.

Pořízená data ze společné části maturitní zkoušky jsou – po anonymizaci – informačním zdrojem, k němuž by veřejnost měla mít neomezený přístup. Z technického ani legislativního hlediska to nepředstavuje problém – zákon o svobodném přístupu k informacím toto právo občanům zaručuje už dnes. Než bude školský zákon novelizován, může to Cermatu nařídit ministr školství. Dokud ale Cermat zachází s pořízenými daty tak, jako by byla jeho majetkem, může veřejnost vodit za nos, kdykoli se mu to hodí.

A jen velmi obtížně ji přesvědčí, že to nedělá.

 

Google+Tweet about this on TwitterShare on Facebook

Přidat komentář

351 komentářů k "Kolik je tedy chyb v Hodnocení slohů?"

Upozorňovat mě na
avatar
Seřadit dle:   nejnovějších | nejstarších | nejoblíbenějších
wpDiscuz