A mesterséges intelligencia még egy érettségivel sem boldogul

Gyakran hallani, hogy hamarosan átveszi a helyünket a mesterséges intelligencia. A Telex újságírói ezért kitöltették az idei irodalom érettségit két chatbottal, de az eredmények nem lettek túl fényesek. Alább az ő cikküket közöljük változatlanul.

Kövesd Telegram csatornánkat!
Folyamatosan frissítjük a közel-keleti háború híreivel
és az orosz-ukrán konfliktus rövid híreivel is

Bizony, hétfőn elindult a 2025-ös érettségiszezon, idén is a magyarral kezdtek a végzősök. Kovács Péter, a Budapesti Fazekas Mihály Gyakorló Általános Iskola és Gimnázium tanára nem sokkal az írásbeli vége után élőben oldotta meg a középszintű érettségi néhány feladatát a Telexen, utána pedig közösen leérettségiztettük a ChatGPT-t és a Google Geminit.

Egyszer megpróbálkoztunk már ezzel, és akkor arra jutottunk, hogy van, ami megy a mesterséges intelligenciának (AI), de azért nem érdemes teljesen digitális kezébe helyezni a sorsunkat. Viszont az elmúlt két évben mást sem hallottunk a fejlesztőcégektől, mint hogy a csetbotjaik sokkal profibbak, okosabbak, gyakorlatilag már mindent nagyon jól tudnak, úgyhogy lássuk, jobb diák-e (magyarból) az AI, mint két éve. Mindkét csetbot legjobb, de ingyenes verzióját használtuk, így a ChatGPT-nél a GPT-4o modellt, a Gemininél pedig a 2.5 Prót.

Rövidebb, egyszerűbb feladatok

Idén mindkét esszét megírattuk a csetbotokkal, de bemelegítésként két rövidebb feladatot adtunk nekik.

Az egyikhez (a 8. feladathoz) tartozott egy rövid szöveg, amiben Raátz Judit nyelvész azt részletezte, hogyan érdemes nevet adni a gyerekeknek. Ezt a feladatot Kovács a videón is megoldotta, de a lényeg az volt, hogy a vizsgálónak el kellett döntenie, hogy a kapott információ alapján egy-egy vezetéknévhez melyik keresztnév illik:

Szoboszló Domonkos vagy Dániel?
Tóth Ada vagy Veronika?
Parázs Olivér vagy Simon?

Emellett egy példával azt is el kellett magyarázni, hogy miért gondolja a vizsgázó, hogy az a jó megoldás, amit választott.

A ChatGPT a Parázsnál hibázott, mert a Simont választotta, de a többi megoldás és azok indoklása jó volt, így 4-ből 3 pontot kapott. A Gemini hibátlanul teljesítette a feladatot, neki járt a 4-ből 4.

A következő feladat a 3. volt (nem sorrendben haladtunk), ami így hangzott:

Korstílusok, stílusirányzatok jellemző jegyeit olvashatja az alábbiakban. Mindhárom esetben egy-egy téves információ is bekerült a jellemző jegyek közé. Húzza alá a hibás információt!

a) Barokk
– a művészet célja tanítás és gyönyörködtetés egysége
– világ- és emberképe a humanizmus
– kedveli a hatáskeltést, a monumentalitást, a túlzást
– jellemzője a retorikus stílus, kedveli a körmondatos szerkezeteket

b) Romantika
– az egyéniség kultuszát hirdeti
– az alkotók célja az eredetiség
– a kor drámái megfelelnek a hármas egység követelményeinek
– nagyfokú érdeklődést mutat a történelem iránt (pl. történelmi regény)

c) Szimbolizmus
– azt vallja, hogy a világot csak megsejteni, érzékelni lehet a művészet révén, nem megismerni
– a nyelvi kifejezés áttételessé, metaforikussá, jelképessé válik
– a megjelenített dolgok önmaguknál többre utalnak, „holdudvaruk” van
– a felvilágosodás egyik stílusirányzata a klasszicizmus mellett

Mindkét csetbot probléma nélkül vette az akadályt, és pontosan tudták, hogy a barokknál a humanizmus, a romantikánál a hármas egység, a szimbolizmusnál pedig a felvilágosodás stílusirányzata volt a kakukktojás, így jár nekik a 3-3 pont.

Történelem, irodalom és hallucináció

Az várható volt, hogy ezek a feladatok jól fognak menni nekik, az egyszerű szövegek szó szerinti értelmezésében általában jó a mesterséges intelligencia, főleg, ha olyan témákról van szó, amiket lelkes netezők már rég alaposan kiveséztek terjedelmes Wikipédia-szócikkekben. A mesterséges intelligenciánál a puding igazi próbája a kreatív szövegalkotás.

A diákok idén két esszéfeladat közül választhattak, de mivel a mesterséges intelligencia megúszta az írásbeli nagy részét, cserébe a két chatbotnak mindkét esszét meg kellett írnia. Első feladatként ezt kapták:

A történelmi események irodalmi feldolgozása egyidős az európai irodalommal. Fejtse ki véleményét, ön szerint a történelem miért visszatérő témája az irodalomnak! Mutassa be 500-800 szóban, 3-5 szabadon választott alkotás alapján, hogyan jelennek meg a történelem eseményei az irodalmi hagyományban! Dolgozatában különböző történelmi korok szerzőinek műveiből válogasson bármely műnemből!

A két csetbot válaszát ebben a dokumentumban olvashatja el. Az első válasz a ChatGPT-jé, a második a Gemini-é.

Kovács szerint mindkét esszéről teljesen egyértelmű, hogy mesterséges intelligencia írta őket. A 2023-as érettségi során és tavaly, a mesterséges intelligencia és a közoktatás aktuális viszonyát körbejáró cikkben is beszélt már arról, hogy nagyon könnyű kiszúrni, hogy valamit például az ő diákja írt-e, mert a legtöbbször már évek óta tanítja a vizsgázókat, így pontosan tudja, hogyan beszél, hogyan ír. Úgy tűnik, hogy hiába egyre okosabb az MI, ezt az akadályt még nem tudta megugrani.

„Nem személyes, nem látom benne a személyes látásmódot. Egyébként igaz, amit ír, de csak felületes lózungokat pakol egymás mögé. Egyértelműen Wikipédia-szócikkeket ollóz össze”

– mondta Kovács.

Az egyik jellegzetesség, amit a tanár azonnal kiszúr, az, hogy míg egy diák, akire valahogy hatott egy mű, kiemelne egy-egy részletet, a csetbot minden egyes olyan szempontot, motívumot megemlít, amit az adott művekkel kapcsolatban meg szoktak említeni. De egyikben sem mélyül el, mint ahogy általában a diákok szoktak. Ez mindkét esszére igaz, ebből a szempontból semmi különbség a két MI között.

Azonban ha látná, hogy ezt az esszét egy diák ott, előtte írná meg, és beadná, akkor igazából nem tudja lepontozni, mert tartalmilag alapvetően semmi baj nincs vele. A ChatGPT-nek Kovács emiatt a 40-ből 32 pontot adna, a Gemininek viszont 33-at, mert kicsit jobb a Google-bot felütése.

Mindezt még össze lehetett ollózni az interneten fellelt információkból, de az utolsó feladat, a műelemzés már nagyobb falat, hiszen meg kell felelni egy csomó kritériumnak, miközben a saját gondolatokat, benyomásokat is be kell vinni az esszébe. A feladat így szólt:

Értelmezze Örkény István Meddig él egy fa című novelláját! Dolgozatában bizonyítsa és értelmezze a mű ellenpontozó szerkezetét! Elemzésében térjen ki a novella motívumainak jelentésteremtő szerepére! Mutassa be az alkotás elbeszélésmódjának sajátosságait! Megoldása 500-800 szó terjedelmű legyen!

A válaszokat ebben a dokumentumban találja meg, és kérem, hogy ha olvasta a novellát, vagy tudja, miről szól, olvassa el őket. Ugyanis Kovács szemöldöke a második-harmadik bekezdésnél mindkét dolgozat esetében megugrott, hiszen mindkét csetbot behallucinált egy-egy olyan novellát, amiknek sem az eredeti Örkény-műhöz, sem egymáshoz nincs semmi közük.

Az Örkény-novella röviden arról szól, hogy egy nő bekopog egy faiskolába, de a tulajdonos nincs ott, csak a felesége. A látogató egy fát akar venni, kinéz magának egy 15 éves hársfát, és kifizet érte egy csomó pénzt, el nem viszi, de a feleség, Bánné lelkére köti, hogy még legalább három évig gondozzák. Tehát ha van főszereplő, az a vásárló, Bánné és a hársfa.

Ehhez képest a ChatGPT meg van győződve arról, hogy a főszereplő egy férfi, aki a feleségével beszélget. A felesége növényhatározót keres, és a férj teszi fel a címbéli kérdést, hogy meddig él egy fa. A csetbot szerint később kiderül, hogy a férfi megjárta Auschwitzot is, míg az eredetiben disznóvágáson van. De ami még fontosabb, néhány említésen kívül Bán úr nem jelenik meg a novellában – ahogy a diófa sem, amiről a ChatGPT váltig állítja, hogy az a címben szereplő fa fajtája. Az egész esszé tele van hasonló hibákkal és a mesterséges intelligenciára jellemző hallucinációval, így Kovács hamar kijelentette, hogy nincs tématartás, ez 0 pont a 40-ből.

A Gemini semmivel nem szerepelt jobban, pont ugyanezeket a hibákat követte el – azzal a kis különbséggel, hogy egy teljesen más művet hazudott be. Valamiért vasutasokról, állomásfőnökökről, civilizációról és bürokráciáról hadovál, de ezeknek sincs semmi közük az Örkény-novellához, így neki is 0 pont járt. Arról nem is beszélve, hogy a maximális 800 szó helyett több mint 900-at írt, ami még a megengedett 10 százalékos túllépésnél is több.

„Ha nem a Wikipédiából kell kiemelnie, akkor nem tud művet elemezni. Egyszerűen költött egy szöveget. Inkább írjon a diák magától egy 15-20 pontos esszét a 40-ből, mint hogy egy ilyen 0 pontosat adjon be. Ha lehet, a diákok inkább támaszkodjanak saját gondolataikra”

– mondta Kovács Péter.

Bónusz: melyik hazudik jobban?

Látszik, hogy a műelemzés terén az ember egyelőre veri a gépet. De mi a helyzet akkor, ha egymásnak ugrasztjuk a két MI-t? Mindkettővel leellenőriztettük a másik Örkény-elemzését, és egészen bizarr eredményt kaptunk.

A ChatGPT egyik ámulatból a másikba esett a Gemini munkájától (ami ugye egy óriási, 900 szavas kamu), és részletesen levezette, hogy ilyen-olyan szempontok alapján 100-ból 98 pontot, azaz ötöst adna a Google csetbotjának.

Gondolhatnánk, hogy látta, hogy a konkurencia is kamuzik, de nem akarta, hogy ez rossz fényt vessen az MI-kre, ezért tartotta a hátát. Ha ez a helyzet, akkor a Gemini nem volt ilyen jó fej, nincs betyárbecsülete:

„Sajnálatos módon a dolgozat alapvető tárgyi tévedése miatt nem fogadható el a feladat megoldásaként. Az irodalmi elemzés első és legfontosabb lépése a mű pontos ismerete és megértése. Bár látszanak próbálkozások az elemzési szempontok alkalmazására és a szakszerű fogalmazásra, ezek egy rossz alapra épülnek. Ezért a dolgozatot elégtelen (1) érdemjeggyel kell értékelnem.”

Tehát jól látható, hogy ha az információ könnyen elérhető, akkor a népszerű csetbotok gyors és jó munkát végeznek, de amint szükség van egy kis kreativitásra, elvéreznek – pontosabban kreatívak, de nem úgy, ahogy kéne. Kovács ma is elismételte, hogy ő azért mutat meg műveket a diákjainak, hogy valamiféle reakciót váltson ki belőlük. Az se baj, ha negatív, ha valami nem tetszik nekik, a lényeg az, hogy a szöveg kiváltson bennük valamilyen érzést, és aztán azt szavakba öntsék. Ez az, amire a mesterséges intelligencia nagyon nem képes.

Ha valaki a pontokra kíváncsi: a ChatGPT a kiválasztott feladatokra összesen kapható 87 pontból 38-at kapott, ami 43 százalék, tehát gyenge közepes. A Gemini két egész ponttal többet, 40-et kapott, ami 46 százalék, így továbbra is csak közepes.

A rábízott feladat 24%-át tudta csak teljesíteni a legjobb mesterséges intelligencia

Kína szerint jó ötlet egy ezer éves épület felügyeletét egy “robotkutyára” bízni

(Telex nyomán Szent Korona Rádió)

Hot topics

Finance

Marketing

Politics

Strategy

Mesterséges intelligencia vs. irodalom érettségi: Csúnyán elbukott az AI

Rövidebb, egyszerűbb feladatok

Történelem, irodalom és hallucináció

Bónusz: melyik hazudik jobban?

Kategóriák

Kapcsolódó cikkek