Taní-tani Online
Közzétéve Taní-tani Online webhelyen (https://www.tani-tani.info)

Címlap > A TÉR bukása

A TÉR bukása

By knauszi on 2025. nov. 20. - 15:11

Asztalos György matematikai bizonyítása

Jól látszik, hogy a TÉR megbukott, az értékelés szimpátián és véleménytudáson alapul.

Asztalos GyörgyMár az is megérne egy elmélkedést, hogy a teljesítmény, a minőség és a „személy értéke” mennyire jelenik meg itt szinonimaként. Vagy miről is beszélünk?

A TÉR használhatatlanságáról és használatának negatív következményeiről már írtam, (itt és itt) de itt a következő sorokban egy szemléletes” matematikai” bizonyítékát fogom megmutatni annak, hogy a TÉR szempontsorai mennyire nem alkalmasak egy pedagógus megítélésére.

Ehhez nagyon jól fel tudom használni azt az adatbázist, amit egy intézménytől kaptam. Itt minden tanárról négy-öt személy pontozását lehet látni a TÉR szempontjai alapján. (Személyenként 20 indikátor.) Íme egy kis részlet a több mint 600 soros táblázatból:

Személy
kódja

Feladat
kódja
Maximálisan
adható
pontszám

Ön-
értékelés

10-es
értékelő
29-es
értékelő
17-es
értékelő
13-as
értékelő
56-os
értékelő
19-es
értékelő
3 1 16 16 11 8   8 8  
3 2 4 2 2 3   3 2  
3 3 6 6 4 3   5 4  
3 5 3 3 3 2   2 3  
3 6 3 2 1 1   1 1  
3 7 3 2 2 1   1 2  
3 8 3 2 2 1   3 1  
3 9 2 2 2 2   2 2  
3 10 3 3 3 3   2 3  
3 11 3 3 3 3   2 3  
3 12 3 3 2 1   1 2  
3 13 3 3 3 3   3 3  
3 14 8 1 1 1   1 2  
3 15 5 2 2 1   1 2  
3 16 4 1 1 1   2 0  
3 17 8 2 2 1   2 2  
3 18 2 2 2 2   1 2  
3 19 2 1 2 0   0 2  
3 20 2 2 2 2   2 2  

Az első oszlopban az értékelt személy számkódja látható, a második oszlopban az indikátor kódja található. Például az 1-es indikátor: „A tanulói kompetenciamérési eredmények alakulása…” vagy 3-as indikátor: „Munkavégzés megbízhatósága, határidők betartása.” A negyedik oszlopban az adott pedagógus önértékelése, az ötödik oszlopban az intézményvezetőé, a többiben pedig valamelyik vezetőhelyettes, ill. a munkaközösség-vezetők pontozásai láthatók. Itt két oszlop azért üres, mert mindenkit csak az egyik igazgatóhelyettes és nem feltétlenül mindkét munkaközösség-vezető értékel.

Így mindenkiről legalább négy ítélet született minden kérdésre: önjellemzés, vezető, az egyik vezetőhelyettes és egy vagy két munkaközösség-vezető. Az eredeti táblázatban több mint 30 pedagógus 20 szempont szerinti 600 sornál nagyobb Excel-je található.

A következő kérdéseket vizsgáltam:

  1. Van-e szignifikáns különbség az egyes értékelők pontszámai között? Vannak-e szigorú vagy kevésbé szigorú értékelők? 
  2. Mekkorák a különbségek és ezek milyen eltérést okoznának a végső pontszámok meghatározásában, ha csak az egyik vagy a másik „véleményét” vennénk figyelembe?
  3. Látszik-e olyan tendencia, hogy pl. egy általában „szigorú” értékelő vagy értékelők bizonyos embereknél a többiekhez képest magasabb pontszámot adtak?

Ezen kérdések megválaszolásához statisztikai módszereket használtam fel. A számítások elvégzéséhez a Mesterséges intelligenciát (MI-t) hívtam segítségül.

Statisztikai bizonyítékok

A Kruskal-Wallis rendkívül szignifikáns különbséget mutatott ki az elemzők között (p < 0,00000003). A páronkénti összehasonlítások 11 szignifikáns különbséget tártak fel, többek között:

  • a 29-es értékelő szignifikánsan szigorúbb a 8-as, 10-es és 56-os értékelőknél,
  • a 17-es értékelő szignifikánsan engedékenyebb minden más elemzőnél,
  • a 13-as értékelő szignifikánsan szigorúbb az 56-os és 19-es értékelőknél.

1. ábra

Ez azt jelenti, hogy a legengedékenyebb átlagosan 32%-kal nagyobb pontszámot ad, mint a legszigorúbb.

Ennél persze sokkal izgalmasabb kérdés, hogy adott személyre nézve – és nem a nagy egészt vizsgálva – milyen különbségek adódnak?

Személyenkénti eltérések

Az elemzők nagyon eltérően szigorúak különböző emberekkel. Az átlagos pontkülönbség egy személyen belül 0,63 pont, ami jelentős eltérésként értékelhető. 

Már ebből a táblázatrészletből is látszik, hogy a „3”-as kódú pedagógus az első kérdésre az egyik értékelőtől 16, egy másiktól 8 pontot kapott.

Példák a legnagyobb eltérésekre:

  • 21-es személy : 1,00 pont különbség (2,40-3,40 tartomány)

(ez itt pl. azt jelenti, hogy a legszigorúbb elemzője az adott személynek a húsz kérdésre átlagosan 2,4 pontot adott, a legengedékenyebb viszont 3,4-et),

  • 131-es személy : 0,95 pont különbség,
  • 3-as személy : 0,95 pont különbség (1,95-2,90 tartomány). 

Legkonzisztensebb értékelések:

  • 70-es személy : csak 0,25 pont különbség,
  • 108-as személy : 0,30 pont különbség.

2. ábra

Ha minden embert a legszigorúbb és legengedékenyebb értékelő pontozna:

  • elméleti átlagos különbség : 0,73 pont,
  • elméleti százalékos változás : 31,8%.

Megfigyelt szélsőséges esetek:

  • legnagyobb különbség : 1,00 pont,
  • legnagyobb százalékos változás : 41,7%.

Gyakorlati következtetések

Egy személy értékelése 20-40%-kal változhat attól függően, hogy melyik értékelő pontozza. Képzeljük el, hogy 1 kg szilvát szeretnénk venni, és az egyik kereskedőnél akár 1,4 kg-ot is kaphatnánk, mert a mérlege 1,4-nél mutatna egyet.

Eltérések megoszlása:

  • szélsőséges eltérés (>30%) : (tanárok 35,5%-a),
  • nagy eltérés (20-30%) : (41,9%),
  • közepes eltérés (10-20%) : 7 fő (22,6%),
  • alacsony eltérés (<10%) : 0 fő (0,0%).

Ez azt jelenti, hogy 10%-nál kisebb eltérés nincs is egyik személynél se a legszigorúbb és a legengedékenyebb pontozó pontjai között!

Ráadásul egyértelműen látunk olyan értékelőket, akik egyes embereknél szigorúak, másoknál engedékenyek!

Legfontosabb eredmények:

"Hullámzó" értékelők – akik személytől függően változtatják szigorúságukat:

1. 8-as értékelő – A leginkonzisztensebb (0,304 következetlenségi mutató):

  • 5 esetben szélsőségesen szigorú (pl. 21. személynél az 1. helyen áll a szigorúsági rangsorban),
  • 16 esetben szélsőségesen engedékeny (pl. 3. személynél a legmagasabb pontot adta)

(itt ez érthető, hiszen a 8-as értékelő nem egy személy, hanem az adott személy önértékelése.)

2. 10-es értékelő – szintén inkonzisztens:

  • 2 esetben szélsőségesen szigorú,
  • 16 esetben szélsőségesen engedékeny.

Szélsőséges következetlenségi esetek:

17-es értékelő – leginkább engedékeny, de néha kirívóan engedékeny:

Szélsőségesen engedékeny esetek:

  • 37. személy: 3,25 pont (23,2%-kal magasabb az átlagnál!),
  • 27. személy: 3,10 pont (10,2%-kal magasabb),
  • 77. személy: 2,90 pont (10,5%-kal magasabb).

13-as értékelő – legszigorúbb, de néha kirívóan szigorú:

Szélsőségesen szigorú esetek:

  • 51. személy: 2,25 pont (21,7%-kal az átlagnál!),
  • 86. személy: 2,10 pont (21,1%-kal könnyebb),
  • 71. személy: 2,60 pont (13,7%-kal könnyebb).

29-es értékelő – szigorúbb, de néha még szigorúbb:

Szélsőségesen szigorú esetek:

  • 76. személy: 2,25 pont (20,0%-kal az átlagnál!),
  • 9. személy: 1,95 pont (13,3%-kal jobban).

Az elemzés egyértelműen alátámasztja a feltételezést, hogy leginkább nem az értékelők képességeivel, hanem a mért tulajdonság objektív mérhetőségével van probléma.

Mi történik, ha az adott feladathoz adott maximális pontszámhoz viszonyítjuk az eltéréseket?

A feladatok közötti eltérések relatív mértékét (az értékelők közötti átlagpontszám-tartományt a feladatra adott maximális pontszámhoz viszonyítva) az alábbiakban összesítve láthatjuk. A „Max” oszlop a feladathoz tartozó maximális pontszám (az összes értékelő által adott legmagasabb pontérték) értékét mutatja.

Feladat kódja Értékelők közötti tartomány Max Relatív eltérés (%)
19 1,10 2,00 54,8%
7 1,64 3,00 54,7%
8 1,49 3,00 49,6%
4 0,96 2,00 47,9%
12 1,22 3,00 40,7%
13 1,11 3,00 37,0%
10 1,00 3,00 33,3%
1 5,18 16,00 32,4%
16 1,27 4,00 31,7%
3 1,64 6,00 27,3%

A 19., 7. és 8. feladatoknál a legnagyobb relatív eltérések (>49%) figyelhetők meg: az értékelők az átlagpontszámok több mint felében eltértek. Az 1. feladat abszolút értékben nagy eltérést mutat, de a maximális 16 ponthoz viszonyítva ez „csak” 32,4%-os relatív eltérés. A legkisebb relatív eltérést a 3. feladatnál látjuk (27,3%).

A 19-es indikátor: „Külső és belső fórumokon, programokon eredményesen képviseli és menedzseli az intézmény érdekeit, öregbíti az intézmény jó hírnevét.” A 7-es : „Az intézményen belüli szabadidős programok szervezése.” A 8-as: „2.4. Az intézményen kívüli programokban való részvétel (projektek, táborok, tanulmányi utak, múzeum-, színházlátogatás stb.)”

Ez azért is érdekes, mert az utóbbi kettő első látásra objektíven megítélhető lenne. Ebből az is következik, hogy az intézményben valószínűleg nem lett pontosan tisztázva az, hogy ezeket a szempontokat hogyan ítéljük meg! Az elég esetlegesnek látszik, hogy valaki egy vagy két pontot ad a maximális kettőből.

Mit mond a statisztikai elemzés a teszt megbízhatóságáról?

„A statisztikában a megítélői megbízhatóság, a megítélők közötti egyetértés vagy a konkordancia az értékelők közötti egyetértés mértékét jelenti. Megadja annak az értékét, hogy mekkora konszenzus van a bírálók által adott ítéletek között. Használható például arra, hogy finomítsunk azokon az értékelő eszközökön, amiket emberek használnak és értékelnek saját szempontjaik szerint, például segíthet annak megvizsgálásában, hogy egy adott skála megfelelő mérőeszköze-e egy adott változónak. Ha különböző értékelők nem értenek egyet, akkor vagy a skála hibás, vagy az értékelőket kell újra betanítani, vagy az értékelési szempontok nem egyértelműek.” (Wikipédia)

Átlagos korreláció: 0,544. Ez mérsékelt megbízhatóságot jelent, ami jelentős mérési problémákat jelez:

  • erős korreláció (>0.7): csak 5 pár (29,4%),
  • közepes korreláció (0.4-0.7): 7 pár (41,2%),
  • gyenge korreláció (<0.4): 5 pár (29,4%).

Megkérdeztem az MI-t arról, hogy mely kérdéseket kellene kivenni, hogy javuljon az egyetértés szintje (korreláció) az értékelők között.

3. ábra

Nem véletlen, hogy „1” kérdés kivétele – „ A tanulói kompetenciamérési eredmények alakulása …” – okozná a legnagobb javulást, hiszen ott lehetett a legtöbb pontot szerezni. Ennél a kérdésnél látszik a legjobban az indikátorok összeállítóinak dilettantizmusa, hiszen a kompetenciamérés eredményei nem kapcsolhatók össze egy adott személlyel.1 (Szélsőséges eseteket kivéve.) A 3. indikátor is nehezen skálázható be: „Korszerű, innovatív pedagógiai módszerek, eszközök, tanulásszervezési eljárások tanórai alkalmazása, a vonatkozó irányelvek alkalmazása.”

Azt hiszem, minden kérdésre meggyőző válaszokat kaptunk, és egyértelműen látszik, hogy ez a rendszer alkalmatlan az objektív mérésre. 

Néhány érdekes következtetést azért le lehet vonni arra vonatkozóan, hogy ez a teszt a pedagógusok értékelésére nem alkalmas:

  1. Szociometriai felmérésre inkább használható, hiszen jól látszik, hogy melyik értékelő kivel szimpatizál jobban, kivel kevésbé.
  2. Az önértékelés és a vezető értékelése nagyon hasonlít egymáshoz, ami azt valószínűsítette számomra, hogy a vezető tudatosan hasonló pontszámokat adott, mint az önértékelő. (Erre kaptam megerősítést az adott intézmény vezetőjétől.)
  3. Az is kiderült, hogy az önértékelésnél két szélsőséges kategóriát láthatunk: az egyik „csapat” nagyon alulértékeli magát, a másik pedig nagyon felül. Sajnos ez általában úgy néz ki, hogy az eredményesebb, gyerekek által elfogadottabb, önazonosabb tanárok alul-, a gyengébbek felülértékelik magukat (a homlokzatféltés pszichológiai jelensége). Sajnos – bár a konfliktuskerülésre jó volt – a vezető „azonosulása az önjellemzéshez” megerősítette a torzítást.
  4. Egy tantestületben és a szülők között is vannak mítoszok arról, hogy ki a jó tanár. Ezeket a mítoszokat inkább felerősíti ez a rendszer, hiszen a vélemény sokkal jobban számít, mint a valóság. (Ez utóbbiról inkább a gyerekek véleménye lehetne mérvadó.)

Konklúzió:

Jól látszik, hogy a TÉR megbukott, az értékelés szimpátián és véleménytudáson alapul. A törvényhozónak el kellene gondolkodnia azon, hogy érdemes-e így folytatni a teljesítményértékelést. (Álláspontom szerint már létre se kellett volna hozni.)

  • 1. Nyilvánvaló, hogy a matematika eredményeiben benne van a szövegértés tudása is, azt pedig minden tanár fejleszti, a fizika- és kémiatanár is, aki számításos példákat gyakoroltat, esetleg a magántanár stb.
A szerzőről: 
Asztalos György

Forráscím:https://www.tani-tani.info/a_ter_bukasa