Gyakran hallani, hogy hamarosan átveszi a helyünket a mesterséges intelligencia. A Telex újságírói ezért kitöltették az idei irodalom érettségit két chatbottal, de az eredmények nem lettek túl fényesek. Alább az ő cikküket közöljük változatlanul.
Kövesd Telegram csatornánkat!
Folyamatosan frissítjük a közel-keleti háború híreivel
és az orosz-ukrán konfliktus rövid híreivel is
Bizony, hétfőn elindult a 2025-ös érettségiszezon, idén is a magyarral kezdtek a végzősök. Kovács Péter, a Budapesti Fazekas Mihály Gyakorló Általános Iskola és Gimnázium tanára nem sokkal az írásbeli vége után élőben oldotta meg a középszintű érettségi néhány feladatát a Telexen, utána pedig közösen leérettségiztettük a ChatGPT-t és a Google Geminit.
Egyszer megpróbálkoztunk már ezzel, és akkor arra jutottunk, hogy van, ami megy a mesterséges intelligenciának (AI), de azért nem érdemes teljesen digitális kezébe helyezni a sorsunkat. Viszont az elmúlt két évben mást sem hallottunk a fejlesztőcégektől, mint hogy a csetbotjaik sokkal profibbak, okosabbak, gyakorlatilag már mindent nagyon jól tudnak, úgyhogy lássuk, jobb diák-e (magyarból) az AI, mint két éve. Mindkét csetbot legjobb, de ingyenes verzióját használtuk, így a ChatGPT-nél a GPT-4o modellt, a Gemininél pedig a 2.5 Prót.
Rövidebb, egyszerűbb feladatok
Idén mindkét esszét megírattuk a csetbotokkal, de bemelegítésként két rövidebb feladatot adtunk nekik.
Az egyikhez (a 8. feladathoz) tartozott egy rövid szöveg, amiben Raátz Judit nyelvész azt részletezte, hogyan érdemes nevet adni a gyerekeknek. Ezt a feladatot Kovács a videón is megoldotta, de a lényeg az volt, hogy a vizsgálónak el kellett döntenie, hogy a kapott információ alapján egy-egy vezetéknévhez melyik keresztnév illik:
- Szoboszló Domonkos vagy Dániel?
- Tóth Ada vagy Veronika?
- Parázs Olivér vagy Simon?
Emellett egy példával azt is el kellett magyarázni, hogy miért gondolja a vizsgázó, hogy az a jó megoldás, amit választott.
A ChatGPT a Parázsnál hibázott, mert a Simont választotta, de a többi megoldás és azok indoklása jó volt, így 4-ből 3 pontot kapott. A Gemini hibátlanul teljesítette a feladatot, neki járt a 4-ből 4.
A következő feladat a 3. volt (nem sorrendben haladtunk), ami így hangzott:
Történelem, irodalom és hallucináció
Az várható volt, hogy ezek a feladatok jól fognak menni nekik, az egyszerű szövegek szó szerinti értelmezésében általában jó a mesterséges intelligencia, főleg, ha olyan témákról van szó, amiket lelkes netezők már rég alaposan kiveséztek terjedelmes Wikipédia-szócikkekben. A mesterséges intelligenciánál a puding igazi próbája a kreatív szövegalkotás.
A diákok idén két esszéfeladat közül választhattak, de mivel a mesterséges intelligencia megúszta az írásbeli nagy részét, cserébe a két chatbotnak mindkét esszét meg kellett írnia. Első feladatként ezt kapták:
A két csetbot válaszát ebben a dokumentumban olvashatja el. Az első válasz a ChatGPT-jé, a második a Gemini-é.
Kovács szerint mindkét esszéről teljesen egyértelmű, hogy mesterséges intelligencia írta őket. A 2023-as érettségi során és tavaly, a mesterséges intelligencia és a közoktatás aktuális viszonyát körbejáró cikkben is beszélt már arról, hogy nagyon könnyű kiszúrni, hogy valamit például az ő diákja írt-e, mert a legtöbbször már évek óta tanítja a vizsgázókat, így pontosan tudja, hogyan beszél, hogyan ír. Úgy tűnik, hogy hiába egyre okosabb az MI, ezt az akadályt még nem tudta megugrani.
„Nem személyes, nem látom benne a személyes látásmódot. Egyébként igaz, amit ír, de csak felületes lózungokat pakol egymás mögé. Egyértelműen Wikipédia-szócikkeket ollóz össze”
– mondta Kovács.
Az egyik jellegzetesség, amit a tanár azonnal kiszúr, az, hogy míg egy diák, akire valahogy hatott egy mű, kiemelne egy-egy részletet, a csetbot minden egyes olyan szempontot, motívumot megemlít, amit az adott művekkel kapcsolatban meg szoktak említeni. De egyikben sem mélyül el, mint ahogy általában a diákok szoktak. Ez mindkét esszére igaz, ebből a szempontból semmi különbség a két MI között.
Azonban ha látná, hogy ezt az esszét egy diák ott, előtte írná meg, és beadná, akkor igazából nem tudja lepontozni, mert tartalmilag alapvetően semmi baj nincs vele. A ChatGPT-nek Kovács emiatt a 40-ből 32 pontot adna, a Gemininek viszont 33-at, mert kicsit jobb a Google-bot felütése.
Mindezt még össze lehetett ollózni az interneten fellelt információkból, de az utolsó feladat, a műelemzés már nagyobb falat, hiszen meg kell felelni egy csomó kritériumnak, miközben a saját gondolatokat, benyomásokat is be kell vinni az esszébe. A feladat így szólt:
A válaszokat ebben a dokumentumban találja meg, és kérem, hogy ha olvasta a novellát, vagy tudja, miről szól, olvassa el őket. Ugyanis Kovács szemöldöke a második-harmadik bekezdésnél mindkét dolgozat esetében megugrott, hiszen mindkét csetbot behallucinált egy-egy olyan novellát, amiknek sem az eredeti Örkény-műhöz, sem egymáshoz nincs semmi közük.
Az Örkény-novella röviden arról szól, hogy egy nő bekopog egy faiskolába, de a tulajdonos nincs ott, csak a felesége. A látogató egy fát akar venni, kinéz magának egy 15 éves hársfát, és kifizet érte egy csomó pénzt, el nem viszi, de a feleség, Bánné lelkére köti, hogy még legalább három évig gondozzák. Tehát ha van főszereplő, az a vásárló, Bánné és a hársfa.
Ehhez képest a ChatGPT meg van győződve arról, hogy a főszereplő egy férfi, aki a feleségével beszélget. A felesége növényhatározót keres, és a férj teszi fel a címbéli kérdést, hogy meddig él egy fa. A csetbot szerint később kiderül, hogy a férfi megjárta Auschwitzot is, míg az eredetiben disznóvágáson van. De ami még fontosabb, néhány említésen kívül Bán úr nem jelenik meg a novellában – ahogy a diófa sem, amiről a ChatGPT váltig állítja, hogy az a címben szereplő fa fajtája. Az egész esszé tele van hasonló hibákkal és a mesterséges intelligenciára jellemző hallucinációval, így Kovács hamar kijelentette, hogy nincs tématartás, ez 0 pont a 40-ből.
A Gemini semmivel nem szerepelt jobban, pont ugyanezeket a hibákat követte el – azzal a kis különbséggel, hogy egy teljesen más művet hazudott be. Valamiért vasutasokról, állomásfőnökökről, civilizációról és bürokráciáról hadovál, de ezeknek sincs semmi közük az Örkény-novellához, így neki is 0 pont járt. Arról nem is beszélve, hogy a maximális 800 szó helyett több mint 900-at írt, ami még a megengedett 10 százalékos túllépésnél is több.
„Ha nem a Wikipédiából kell kiemelnie, akkor nem tud művet elemezni. Egyszerűen költött egy szöveget. Inkább írjon a diák magától egy 15-20 pontos esszét a 40-ből, mint hogy egy ilyen 0 pontosat adjon be. Ha lehet, a diákok inkább támaszkodjanak saját gondolataikra”
– mondta Kovács Péter.
Bónusz: melyik hazudik jobban?
Látszik, hogy a műelemzés terén az ember egyelőre veri a gépet. De mi a helyzet akkor, ha egymásnak ugrasztjuk a két MI-t? Mindkettővel leellenőriztettük a másik Örkény-elemzését, és egészen bizarr eredményt kaptunk.
A ChatGPT egyik ámulatból a másikba esett a Gemini munkájától (ami ugye egy óriási, 900 szavas kamu), és részletesen levezette, hogy ilyen-olyan szempontok alapján 100-ból 98 pontot, azaz ötöst adna a Google csetbotjának.
Gondolhatnánk, hogy látta, hogy a konkurencia is kamuzik, de nem akarta, hogy ez rossz fényt vessen az MI-kre, ezért tartotta a hátát. Ha ez a helyzet, akkor a Gemini nem volt ilyen jó fej, nincs betyárbecsülete:
„Sajnálatos módon a dolgozat alapvető tárgyi tévedése miatt nem fogadható el a feladat megoldásaként. Az irodalmi elemzés első és legfontosabb lépése a mű pontos ismerete és megértése. Bár látszanak próbálkozások az elemzési szempontok alkalmazására és a szakszerű fogalmazásra, ezek egy rossz alapra épülnek. Ezért a dolgozatot elégtelen (1) érdemjeggyel kell értékelnem.”
Tehát jól látható, hogy ha az információ könnyen elérhető, akkor a népszerű csetbotok gyors és jó munkát végeznek, de amint szükség van egy kis kreativitásra, elvéreznek – pontosabban kreatívak, de nem úgy, ahogy kéne. Kovács ma is elismételte, hogy ő azért mutat meg műveket a diákjainak, hogy valamiféle reakciót váltson ki belőlük. Az se baj, ha negatív, ha valami nem tetszik nekik, a lényeg az, hogy a szöveg kiváltson bennük valamilyen érzést, és aztán azt szavakba öntsék. Ez az, amire a mesterséges intelligencia nagyon nem képes.
Ha valaki a pontokra kíváncsi: a ChatGPT a kiválasztott feladatokra összesen kapható 87 pontból 38-at kapott, ami 43 százalék, tehát gyenge közepes. A Gemini két egész ponttal többet, 40-et kapott, ami 46 százalék, így továbbra is csak közepes.
A rábízott feladat 24%-át tudta csak teljesíteni a legjobb mesterséges intelligencia
Kína szerint jó ötlet egy ezer éves épület felügyeletét egy “robotkutyára” bízni
(Telex nyomán Szent Korona Rádió)