Mesterséges intelligencia vs. irodalom érettségi: Csúnyán elbukott az AI

Gyakran hallani, hogy hamarosan átveszi a helyünket a mesterséges intelligencia. A Telex újságírói ezért kitöltették az idei irodalom érettségit két chatbottal, de az eredmények nem lettek túl fényesek. Alább az ő cikküket közöljük változatlanul.

Kövesd Telegram csatornánkat!
Folyamatosan frissítjük a közel-keleti háború híreivel
és az orosz-ukrán konfliktus rövid híreivel is

Bizony, hétfőn elindult a 2025-ös érettségiszezon, idén is a magyarral kezdtek a végzősök. Kovács Péter, a Budapesti Fazekas Mihály Gyakorló Általános Iskola és Gimnázium tanára nem sokkal az írásbeli vége után élőben oldotta meg a középszintű érettségi néhány feladatát a Telexen, utána pedig közösen leérettségiztettük a ChatGPT-t és a Google Geminit.

Egyszer megpróbálkoztunk már ezzel, és akkor arra jutottunk, hogy van, ami megy a mesterséges intelligenciának (AI), de azért nem érdemes teljesen digitális kezébe helyezni a sorsunkat. Viszont az elmúlt két évben mást sem hallottunk a fejlesztőcégektől, mint hogy a csetbotjaik sokkal profibbak, okosabbak, gyakorlatilag már mindent nagyon jól tudnak, úgyhogy lássuk, jobb diák-e (magyarból) az AI, mint két éve. Mindkét csetbot legjobb, de ingyenes verzióját használtuk, így a ChatGPT-nél a GPT-4o modellt, a Gemininél pedig a 2.5 Prót.

Rövidebb, egyszerűbb feladatok

Idén mindkét esszét megírattuk a csetbotokkal, de bemelegítésként két rövidebb feladatot adtunk nekik.

Az egyikhez (a 8. feladathoz) tartozott egy rövid szöveg, amiben Raátz Judit nyelvész azt részletezte, hogyan érdemes nevet adni a gyerekeknek. Ezt a feladatot Kovács a videón is megoldotta, de a lényeg az volt, hogy a vizsgálónak el kellett döntenie, hogy a kapott információ alapján egy-egy vezetéknévhez melyik keresztnév illik:

Szoboszló Domonkos vagy Dániel?
Tóth Ada vagy Veronika?
Parázs Olivér vagy Simon?

Emellett egy példával azt is el kellett magyarázni, hogy miért gondolja a vizsgázó, hogy az a jó megoldás, amit választott.

A ChatGPT a Parázsnál hibázott, mert a Simont választotta, de a többi megoldás és azok indoklása jó volt, így 4-ből 3 pontot kapott. A Gemini hibátlanul teljesítette a feladatot, neki járt a 4-ből 4.

A következő feladat a 3. volt (nem sorrendben haladtunk), ami így hangzott:

Korstílusok, stílusirányzatok jellemző jegyeit olvashatja az alábbiakban. Mindhárom esetben egy-egy téves információ is bekerült a jellemző jegyek közé. Húzza alá a hibás információt!

a) Barokk
– a művészet célja tanítás és gyönyörködtetés egysége
– világ- és emberképe a humanizmus
– kedveli a hatáskeltést, a monumentalitást, a túlzást
– jellemzője a retorikus stílus, kedveli a körmondatos szerkezeteket

b) Romantika
– az egyéniség kultuszát hirdeti
– az alkotók célja az eredetiség
– a kor drámái megfelelnek a hármas egység követelményeinek
– nagyfokú érdeklődést mutat a történelem iránt (pl. történelmi regény)

c) Szimbolizmus
– azt vallja, hogy a világot csak megsejteni, érzékelni lehet a művészet révén, nem megismerni
– a nyelvi kifejezés áttételessé, metaforikussá, jelképessé válik
– a megjelenített dolgok önmaguknál többre utalnak, „holdudvaruk” van
– a felvilágosodás egyik stílusirányzata a klasszicizmus mellett

Mindkét csetbot probléma nélkül vette az akadályt, és pontosan tudták, hogy a barokknál a humanizmus, a romantikánál a hármas egység, a szimbolizmusnál pedig a felvilágosodás stílusirányzata volt a kakukktojás, így jár nekik a 3-3 pont.

Történelem, irodalom és hallucináció

Az várható volt, hogy ezek a feladatok jól fognak menni nekik, az egyszerű szövegek szó szerinti értelmezésében általában jó a mesterséges intelligencia, főleg, ha olyan témákról van szó, amiket lelkes netezők már rég alaposan kiveséztek terjedelmes Wikipédia-szócikkekben. A mesterséges intelligenciánál a puding igazi próbája a kreatív szövegalkotás.

A diákok idén két esszéfeladat közül választhattak, de mivel a mesterséges intelligencia megúszta az írásbeli nagy részét, cserébe a két chatbotnak mindkét esszét meg kellett írnia. Első feladatként ezt kapták:

A történelmi események irodalmi feldolgozása egyidős az európai irodalommal. Fejtse ki véleményét, ön szerint a történelem miért visszatérő témája az irodalomnak! Mutassa be 500-800 szóban, 3-5 szabadon választott alkotás alapján, hogyan jelennek meg a történelem eseményei az irodalmi hagyományban! Dolgozatában különböző történelmi korok szerzőinek műveiből válogasson bármely műnemből!

A két csetbot válaszát ebben a dokumentumban olvashatja el. Az első válasz a ChatGPT-jé, a második a Gemini-é.

Kovács szerint mindkét esszéről teljesen egyértelmű, hogy mesterséges intelligencia írta őket. A 2023-as érettségi során és tavaly, a mesterséges intelligencia és a közoktatás aktuális viszonyát körbejáró cikkben is beszélt már arról, hogy nagyon könnyű kiszúrni, hogy valamit például az ő diákja írt-e, mert a legtöbbször már évek óta tanítja a vizsgázókat, így pontosan tudja, hogyan beszél, hogyan ír. Úgy tűnik, hogy hiába egyre okosabb az MI, ezt az akadályt még nem tudta megugrani.

„Nem személyes, nem látom benne a személyes látásmódot. Egyébként igaz, amit ír, de csak felületes lózungokat pakol egymás mögé. Egyértelműen Wikipédia-szócikkeket ollóz össze”

– mondta Kovács.

Az egyik jellegzetesség, amit a tanár azonnal kiszúr, az, hogy míg egy diák, akire valahogy hatott egy mű, kiemelne egy-egy részletet, a csetbot minden egyes olyan szempontot, motívumot megemlít, amit az adott művekkel kapcsolatban meg szoktak említeni. De egyikben sem mélyül el, mint ahogy általában a diákok szoktak. Ez mindkét esszére igaz, ebből a szempontból semmi különbség a két MI között.

Azonban ha látná, hogy ezt az esszét egy diák ott, előtte írná meg, és beadná, akkor igazából nem tudja lepontozni, mert tartalmilag alapvetően semmi baj nincs vele. A ChatGPT-nek Kovács emiatt a 40-ből 32 pontot adna, a Gemininek viszont 33-at, mert kicsit jobb a Google-bot felütése.

Mindezt még össze lehetett ollózni az interneten fellelt információkból, de az utolsó feladat, a műelemzés már nagyobb falat, hiszen meg kell felelni egy csomó kritériumnak, miközben a saját gondolatokat, benyomásokat is be kell vinni az esszébe. A feladat így szólt:

Értelmezze Örkény István Meddig él egy fa című novelláját! Dolgozatában bizonyítsa és értelmezze a mű ellenpontozó szerkezetét! Elemzésében térjen ki a novella motívumainak jelentésteremtő szerepére! Mutassa be az alkotás elbeszélésmódjának sajátosságait! Megoldása 500-800 szó terjedelmű legyen!

A válaszokat ebben a dokumentumban találja meg, és kérem, hogy ha olvasta a novellát, vagy tudja, miről szól, olvassa el őket. Ugyanis Kovács szemöldöke a második-harmadik bekezdésnél mindkét dolgozat esetében megugrott, hiszen mindkét csetbot behallucinált egy-egy olyan novellát, amiknek sem az eredeti Örkény-műhöz, sem egymáshoz nincs semmi közük.

Az Örkény-novella röviden arról szól, hogy egy nő bekopog egy faiskolába, de a tulajdonos nincs ott, csak a felesége. A látogató egy fát akar venni, kinéz magának egy 15 éves hársfát, és kifizet érte egy csomó pénzt, el nem viszi, de a feleség, Bánné lelkére köti, hogy még legalább három évig gondozzák. Tehát ha van főszereplő, az a vásárló, Bánné és a hársfa.

Ehhez képest a ChatGPT meg van győződve arról, hogy a főszereplő egy férfi, aki a feleségével beszélget. A felesége növényhatározót keres, és a férj teszi fel a címbéli kérdést, hogy meddig él egy fa. A csetbot szerint később kiderül, hogy a férfi megjárta Auschwitzot is, míg az eredetiben disznóvágáson van. De ami még fontosabb, néhány említésen kívül Bán úr nem jelenik meg a novellában – ahogy a diófa sem, amiről a ChatGPT váltig állítja, hogy az a címben szereplő fa fajtája. Az egész esszé tele van hasonló hibákkal és a mesterséges intelligenciára jellemző hallucinációval, így Kovács hamar kijelentette, hogy nincs tématartás, ez 0 pont a 40-ből.

A Gemini semmivel nem szerepelt jobban, pont ugyanezeket a hibákat követte el – azzal a kis különbséggel, hogy egy teljesen más művet hazudott be. Valamiért vasutasokról, állomásfőnökökről, civilizációról és bürokráciáról hadovál, de ezeknek sincs semmi közük az Örkény-novellához, így neki is 0 pont járt. Arról nem is beszélve, hogy a maximális 800 szó helyett több mint 900-at írt, ami még a megengedett 10 százalékos túllépésnél is több.

„Ha nem a Wikipédiából kell kiemelnie, akkor nem tud művet elemezni. Egyszerűen költött egy szöveget. Inkább írjon a diák magától egy 15-20 pontos esszét a 40-ből, mint hogy egy ilyen 0 pontosat adjon be. Ha lehet, a diákok inkább támaszkodjanak saját gondolataikra”

– mondta Kovács Péter.

Bónusz: melyik hazudik jobban?

Látszik, hogy a műelemzés terén az ember egyelőre veri a gépet. De mi a helyzet akkor, ha egymásnak ugrasztjuk a két MI-t? Mindkettővel leellenőriztettük a másik Örkény-elemzését, és egészen bizarr eredményt kaptunk.

A ChatGPT egyik ámulatból a másikba esett a Gemini munkájától (ami ugye egy óriási, 900 szavas kamu), és részletesen levezette, hogy ilyen-olyan szempontok alapján 100-ból 98 pontot, azaz ötöst adna a Google csetbotjának.

Gondolhatnánk, hogy látta, hogy a konkurencia is kamuzik, de nem akarta, hogy ez rossz fényt vessen az MI-kre, ezért tartotta a hátát. Ha ez a helyzet, akkor a Gemini nem volt ilyen jó fej, nincs betyárbecsülete:

„Sajnálatos módon a dolgozat alapvető tárgyi tévedése miatt nem fogadható el a feladat megoldásaként. Az irodalmi elemzés első és legfontosabb lépése a mű pontos ismerete és megértése. Bár látszanak próbálkozások az elemzési szempontok alkalmazására és a szakszerű fogalmazásra, ezek egy rossz alapra épülnek. Ezért a dolgozatot elégtelen (1) érdemjeggyel kell értékelnem.”

Tehát jól látható, hogy ha az információ könnyen elérhető, akkor a népszerű csetbotok gyors és jó munkát végeznek, de amint szükség van egy kis kreativitásra, elvéreznek – pontosabban kreatívak, de nem úgy, ahogy kéne. Kovács ma is elismételte, hogy ő azért mutat meg műveket a diákjainak, hogy valamiféle reakciót váltson ki belőlük. Az se baj, ha negatív, ha valami nem tetszik nekik, a lényeg az, hogy a szöveg kiváltson bennük valamilyen érzést, és aztán azt szavakba öntsék. Ez az, amire a mesterséges intelligencia nagyon nem képes.

Ha valaki a pontokra kíváncsi: a ChatGPT a kiválasztott feladatokra összesen kapható 87 pontból 38-at kapott, ami 43 százalék, tehát gyenge közepes. A Gemini két egész ponttal többet, 40-et kapott, ami 46 százalék, így továbbra is csak közepes.

A rábízott feladat 24%-át tudta csak teljesíteni a legjobb mesterséges intelligencia

Kína szerint jó ötlet egy ezer éves épület felügyeletét egy „robotkutyára” bízni

(Telex nyomán Szent Korona Rádió)

Gyorsan eszkalálódik a közel-keleti helyzet; Szijjártó Péter bejelentette, hogy lemond a mandátumáról; a világűr az új hadszíntér!? – Telegram-posztjaink (2026.07.15.)

A Szent Korona Rádió weboldalán csak a legfontosabb és legbővebb ...

Hírek

2026. 07. 16.

A magyar nevek miatt leszerelik az utcanévtáblákat Sepsiszentgyörgyön

Újabb csapás a magyar nyelvi jogokra Erdélyben. Leszerelik a kétnyelvű ...

Elszakított területeink

2026. 07. 16.

Történelmi egyházat támad a Tisza-kormány; több NATO-ország is ellenzi Ukrajna támogatását; az EU-ban már kötelező lesz a vezetőt figyelő kamera minden új autóban – Telegram-posztjaink (2026.07.14.)

A Szent Korona Rádió weboldalán csak a legfontosabb és legbővebb ...

Hírek

2026. 07. 15.

Transzlobbista kampányt indít a Háttér Társaság

A nemzetbiztonsági kockázatot jelentő Háttér Társaság kampányt indít, amellyel be ...

LMBTQP

2026. 07. 15.

Nyolcéves kislányt mészárolt le Izrael; jöhet a privát üzenetek tömeges megfigyelése; utasokkal teli autóbuszt ért csapás Luhanszk megyében – Telegram-posztjaink (2026.07.13.)

A Szent Korona Rádió weboldalán csak a legfontosabb és legbővebb ...

Hírek

2026. 07. 13.

Saját házában gyilkoták meg a volt brit konzervatív minisztert

Sokkban a brit közélet, miután délnyugat-angliai otthonában holtan találták a ...

Hírek

2026. 07. 13.