Celoplošné testování v systému evaluace (Učitelské listy, 30.1.2006)
Celoplošné testování v systému evaluace
V poslední době se objevila řada kritik směřujících proti testování vedoucí až k různým doporučením testování odmítnout nebo minimálně odkládat či rozdrobit celoplošné testování mezi různé subjekty.
Mám na mysli materiál dr. Strakové a Mgr. Simonové Rizikové kroky vzdělávací politiky v oblasti evaluace uveřejněný na stránkách SKAV, vlastní stanovisko SKAV Připomínky Stálé konference asociací ve vzdělávání k materiálu "Dlouhodobý záměr vzdělávání a rozvoje vzdělávací soustavy ČR 2005" nebo čilou mediální aktivitu společnosti SCIO, resp. dr. Šteffla. Musím na tyto snahy reagovat a věřím, že se nám podaří nalézt společnou řeč a že se budeme pohybovat výhradně na poli odborné argumentace. Nebudu adresný k jednotlivým aktivitám, ale vyjádřím se celkově k danému problému, o který nám všem společně jde. Věřím, že se do budoucna vyvarujeme různých invektiv o "neodbornosti" našich souputníků na cestě hledání funkčního evaluačního systému a budeme se držet výhradně věcných hledisek.
Je celoplošné testování ohrožením kurikulární reformy?
Je užitečné se dívat na proces testování v kontextu pedagogické evaluace skrze určité fáze, o jejichž kvalitě se lze bavit odděleně.
1) Příprava testů
2) Realizace šetření
3) Zpracování výsledků
4) Interpretace
5) Vyvození konkrétních opatření
Dosud jsem se nesetkal s dostatečnými důvody pro odmítnutí testování jako takového, ale pouze s poukazy na rizika spojená s chybnými interpretacemi a jejich využitím pro vyvození konkrétních opatření. Neodmítejme tedy testování jako takové, ale soustřeďme se na kvalitu prvních tří fází, snažme se porozumět výsledkům testů v kontextu individuálních specifik žáka, školy i vzdělávacího systému jako celku. Nedovolme, aby se výsledky jakýchkoliv testů staly jednoduchým nástrojem zbavujícím různé aktéry zodpovědnosti za rozhodování a řízení.
Stoletá historie testování v psychologii nevedla k odmítnutí testů, ale ke kultivaci s jejich zacházením. Přirozeným vyústěním zkušeností jsou i Standardy pro pedagogické a psychologické testování, které vydávají společně Americká asociace pedagogického výzkumu, Americká psychologická společnost a Národní centrum pro hodnocení výsledků ve vzdělávání (v originále Standards for Educational and Psychological Testing z roku 1999, v českém překladu vydalo Testcentrum v roce 2001). Mimo jiné došlo k posunu pojetí validity, na kterou již není nahlíženo jako na "objektivní" vlastnost testu. Zodpovědnost za ni nese kromě autorů testů i jejich uživatel a ten, kdo interpretuje výsledky pro konkrétního jedince.
Různé způsoby hodnocení žáků mají svá pozitiva i omezení. Mezi odbornou veřejností jsou obecně známá, nicméně si připomeňme ta hlavní, která se vztahují k didaktickým testům plošně zadávaným.
Výhody testování
Tradovaná objektivita znamená ve skutečnosti srovnatelnost podmínek pro všechny testované žáky a dále nezávislost (nebo omezení závislosti) výsledků na osobě, která vyhodnocuje výsledky. Výsledky jsou tedy "spravedlivé" a "srovnatelné" pro všechny žáky.
Omezení testování
Didaktické testy nemohou z principu měřit klíčové kompetence tak, jak jsou koncipovány v rámcových vzdělávacích programech. Ke zvládnutí testů je potřeba vždy kromě testovaných znalostí a dovedností i schopnost vypořádat se s danou formou zkoušky.
Testy však mohou zjišťovat určité znalosti a určitou úroveň dovedností. Rámcové vzdělávací programy nejsou rezignací na obsah vzdělávání a didaktické testy tedy mohou přispět k monitoringu výsledků vzdělávání v této oblasti. Rámcové vzdělávací programy jsou koncipovány tak, že kromě klíčových kompetencí, které stojí v ústředí, jsou zde i vzdělávací oblasti se svojí znalostní a dovednostní specifikací.
Vzhledem k tomu, že by nám všem mělo jít o porozumění výsledkům testů v kontextu různých kompetencí a specifických schopností konkrétních žáků a dále konkrétních podmínek školy, je odkládání testování na pozdější dobu rezignací na možnost získávat toto porozumění již nyní. Nedokáži pochopit odkládání testování na pozdější dobu jinak, než jako snahu přisuzovat výsledkům testování tak silný význam, který si podle mého soudu nemohou zasloužit ani v budoucnu.
Příklad - přijímací řízení
Přijímací řízení je tím konkrétním opatřením, které vede k ovlivnění vzdělávací dráhy žáka, a měla by mu být tedy věnována zvýšená pozornost. Pokud máme nastavený vzdělávací systém v relativně vysoké míře selektivity, o to větší důraz by měl být dán na přijímací řízení, abychom nemrhali individuální spokojeností našich dětí ani lidským potenciálem pro rozvoj společnosti, který je v našich dětech uložen. Oč se tedy máme v přijímacím řízení snažit? Je to optimalizace výběru žáků taková, aby na dané škole studovali pouze ti, kteří si to zaslouží, a aby nám pokud možno nevypadl nikdo, kdo by mohl patřit k těm nejlepším. Nechme prosím stranou diskuse zjednodušená tvrzení "zaslouží" a "k těm nejlepším". Berme tato označení pracovně, protože tak jako tak o ně v každém přijímacím řízení běží a konkrétně se realizují i bez předchozího dostatečného vyjasnění.
Jak to vypadá, když se při přijímacím řízení použije pouze didaktický test? Pokud se spolehneme na absolutní validitu testu (obecně test identifikuje u žaků ty znalosti a dovednosti, jejichž nositele chci mít na své škole - jak vidíme, už tato premisa je problematická), pak test má i určitou chybu měření (souvisí s reliabilitou). Tzn., že žáci s nejlepšími výsledky testu byli přijati správně, ti s nejhoršími výsledky byli nepřijati správně. Pro ty, kteří se vyskytují kolem hranice bodů pro přijetí se jedná o loterii (ale těžko si mohou stěžovat, protože v této loterii měli stejné podmínky). Z tohoto rozboru by mělo vyplynout, že přijímací řízení je bohužel velmi zodpovědný proces, ve kterém by neměla být hledána nejjednodušší řešení, ale měly by být navrženy a ředitelům nabídnuty určité modely, ve kterých by měly být komplexněji zohledněny žákovy znalosti, dovednosti, kompetence, individuální specifika znevýhodnění či výjimečného nadání. Tedy to, co mohou nabídnout nejen jednorázově realizované didaktické testy, ale i dosavadní známky, žákovské portfolio i slovně psané výstupní hodnocení.
Dva možné případy:
a) škola s velkým zájmem uchazečů.
V takovém případě je vysoce pravděpodobné, že se na školu nedostane celá řada žáků, která by si to nepochybně zasloužila, takže se hledá způsob "spravedlivé loterie". Tu mohou didaktické testy poskytnout. Škola, která však takto vybírá své uchazeče pouze na základě testů, se již profiluje směrem k výkonnosti zaměřené na zvládání jednorázových zkoušek písemného charakteru v časově velmi omezeném intervalu. Kdyby se škola nechtěla profilovat právě tímto způsobem, mohli bychom nahradit pouhé testování předvýběrem na základě dosavadních vynikajících studijních výsledků a následným vylosováním. Oč by byl tento výběr horší? Nehledejme nejjednodušší řešení!
b) škola s relativně malým zájmem uchazečů - zkušenost z Matematicko-fyzikální fakulty UK
Na různých vysokých školách, ba na různých fakultách či oborech téže vysoké školy existují různé modely přijímacího řízení. Mohu mluvit ze zkušenosti z MFF UK, kde se pravidelně sleduje kvalita přijímacího řízení (dalo by se říci, že je realizována evaluace přijímacího řízení). Z různých analýz vyplývá, že přijímací řízení je nastaveno tak, že se MFF UK nepřipravuje o potenciálně výborné studenty a rovněž, že těm nejslabším uchazečům "rozmluví" na této fakultě studovat. Existuje zde systém přijetí bez přijímacích zkoušek (výjimečnost studentů ať už dána úspěchem v olympiádě matematické nebo fyzikální, či výborným prospěchem na SŠ celkově a z klíčových předmětů nebo předložením jiných vynikajících výsledků k individuálnímu posouzení vedení fakulty) a dále přijímací testy. Ukazuje se, že studenti přijatí bez přijímacího řízení jsou studijně úspěšnější, a dále, že studenti přijatí s nejnižšími počty bodů u přijímacího řízení mají studijní problémy. Dalo by se říci, že na MFF UK je systém přijímacího řízení nastaven dobře. Jen ve zkratce jsem představil určitý funkční model přijímacího řízení. Ale pozor, nedá se zobecňovat a záleží především na požadavcích a profilaci školy a dále na počtu uchazečů a limitech pro přijetí.
Model přijímacího řízení by měl být součástí školního vzdělávacího programu, protože významně udává profilaci školy. Přijímací řízení jako takové by mělo být rovněž podrobováno evaluaci.
Celoplošné testování v kontextu evaluačního systému
1) Pokládám za rozumné zařadit celoplošné testování jako stabilní prvek vytvářeného evaluačního systému (týká se vzdělávacích výsledků a tento proces měření je jako jediný objektivní ve výše zmíněném smyslu). O významu tohoto typu monitoringu v obsahově dosti decentralizovaném vzdělávacím systému není potřeba dále diskutovat.
2) Užitečné by bylo pravidelné každoroční opakování tohoto šetření. Pouze v takovém případě lze mít alespoň nějakou kontrolu nad zaváděnými opatřeními ve vzdělávání a jejich efektivitou, po které se stále volá. Lze pak sledovat nejen stav, ale i dynamiku našeho vzdělávacího systému ve směru, který lze testy sledovat.
3) Rozumné je zajistit monitoring vzdělávacích výsledků v uzlových bodech vzdělávání žáků (5. třída, 9. třída, konec SŠ). Pouze v takovém případě lze vytvářet indikátory typu přidaná hodnota a realizovat na nich založené analýzy. Pouze celoplošné testování jedním realizátorem ve všech třech úrovních zabezpečí tyto možnosti. Pokud by se nejednalo o celoplošné testování jedním subjektem, byla by ohrožena validita přidané hodnoty díky vysoké "úmrtnosti" a výběrovému efektu.
4) Nelze drobit tento monitoring pod heslem trhu mezi různé subjekty, protože se tím zbavíme jedné z výhod testů a sice srovnatelnosti výsledků mezi všemi žáky.
5) Celoplošné testování by mělo být stabilním prvkem v systému evaluace, ne však jediným a ani by nemělo stát v ústředí, ale na výsledky by se mělo vždy nahlížet v širším kontextu kvality, kde výsledky testů mají své místo. Snažme se tomuto místu rozumět.
Odmítnutí některého z těchto bodů bude vždy znamenat významný pokles poměru informační přínos vs. náklady na jeho získání. V obecné rovině je to zřejmé a věřím, že brzy budeme schopni tento poměr a jeho varianty i kvalifikovaně odhadnout.
Je zde prostor i pro jiné společnosti nabízející kvalitní testy? Rozhodně ano. Stále bude dost škol, které budou klást důraz na výsledky žáků v testech. Je testům přirozeně vlastní (stejně jako i jiným nástrojům měření), že stejný žák v jednom testu dosáhne trochu jiného výsledku než v testu jiném. Použití více testů snižuje chybná rozhodnutí ať už v hodnocení žáka či rozhodování o jeho budoucí dráze. Odlišnost vyplývá nejen z případné jiné konstrukce testů, ale i z aktuálního stavu žáka v čase testu. Podle zmiňovaných Standardů by bylo užitečné najít určité způsoby sdílení databází výsledků, díky kterému bychom se navzájem učili rozumět validitě používaných testů, bez vzájemného osočování a s respektem ke kvalitě nabízené jiným subjektem. Toto je velmi dobrý prostor pro spolupráci a je i motivací k růstu kvality testů u všech subjektů.
Rovněž bude potřeba vycházet školám vstříc a podle potřeby pomáhat při ověřování specifických cílů vzdělávání formulovaných ve školních vzdělávacích programech.
Pokud budeme opatrní při interpretacích výsledků testování a nebudeme ulehčovat svědomí při rozhodování tím, že zodpovědnost přeneseme na číslo jakožto výsledek "objektivního" testu, není důvod se testování obávat a vidět v něm ohrožení probíhající kurikulární reformy. Pojďme přemýšlet nad vytvořením funkčního evaluačního systému, ale testy z něho apriori nevylučujme, protože mají určité kvality, které bychom do tohoto systému jinak zavést nemohli.
***
"Validita je definována jako míra, ve které empirické důkazy a teorie podporují interpretaci testových skóre při doporučeném způsobu užívání testu. Validita je proto nejdůležitějším hlediskem při tvorbě a hodnocení testu. Provést validizaci znamená shromáždit výzkumné nálezy a získat tak přesvědčivé vědecké důkazy pro navrhovaný způsob interpretace testových skóre získaných při jejich administraci. Navrhovanou interpretací je myšlen konstrukt nebo koncept, který má test měřit." Standardy pro pedagogické a psychologické testování. Praha: Testcentrum, 2001. ISBN 80-86471-07-1.
O autorovi| PhDr. Martin Chvál, Ph. D., autor je ředitelem Centra pro zjišťování výsledků vzdělávání

Čeština
English
E-shop s produkty


