A hallucináció típusai a generatív AI rendszerekben

A hallucináció típusainak megértése elengedhetetlen a RAG rendszerek megbízhatóságának értékeléséhez és javításához. Ez a cikk a hallucináció hét jól azonosítható formáját mutatja be, azok mechanizmusait és gyakorlati megjelenési formáit.

A nagy nyelvmodellek (LLM-ek) azáltal váltak népszerűvé, hogy összetett szövegeket tudnak generálni, válaszolni kérdésekre és információt szintetizálni. Az olyan alkalmazások, mint a retrieval-augmented generation (RAG) rendszerek, még összetettebb feladatokat kísértenek meg: kontextusból kinyert információra alapozva megbízható válaszokat adni. Azonban létezik egy kritikus probléma: az olyan hallucináció, amikor a modell látszólag megbízható, de részben vagy teljesen kitalált információt generál.

A hallucináció típusok

1. Pure Hallucination (Tiszta hallucináció)

Definíció: Teljesen kitalált információ, amely nem vezethető vissza a dokumentumcorpushoz.

A modelnek ebben az esetben nincs támpont az adott válasz kialakításához. Nem extrapolál, nem következtet – egyszerűen generál egy tényt, amely az adatbázisban nem létezik. Ez a legnyilvánvalóbb hallucináció-típus.

Megjelenési forma: A válasz egyetlen relevancia nélküli chunk-ra sem hivatkozik.

Gyakorlati példa: A triatlonról szóló dokumentáció hiányában a rendszer azt állítja: „A cikk szerint heti 60 km futás ajánlott az átlagos sportoló számára." Valójában ilyen információ sehol sincs a corpusban.

Kockázat szintje: Kritikus. Az első hallacináció-típus, amely azonnal veszélyeztet a megbízhatóságban.

2. Faithful Hallucination (Hű hallucináció)

Definíció: A válasz valós kontextusból indul ki, de azt túlértelmezi vagy hibás következtetésre alapoz.

A modell megtalálja a releváns információkat, azonban a logikai lépés, amely a végső állításhoz vezet, nem indokolt. Ez az extrapoláció egy veszélyes formája: a válasz plausibilis, de nem támogatott.

Megjelenési forma: A válasz alapja egy valós chunk, de az abból levont konklúzió hibás vagy meggondolatlan.

Gyakorlati példa: A dokumentum azt említi, hogy „A Brooks futócipő jó lengéskontrollra alkalmas." A modell ebből azt extrapolál: „A Brooks cipő ezért ajánlott minden futó számára." Az első állítás tény, a második már egy nem támogatott ajánlás.

Kockázat szintje: Magas. Különösen veszélyes, mert a felhasználó úgy érzi, hogy kontextuson alapuló válaszhoz jut.

3. Entity Anchoring Hallucination (Entitás-horgonyzás hallucináció)

Definíció: Egy konkrét entitás (termék, személy, módszer) egyszerű említése miatt a modell indokolatlanul következtet annak tulajdonságaira vagy ajánlottságára.

Az LLM feltételezi, hogy ha egy entitást megemlítenek, annak valamilyen releváns szerepe vagy tulajdonsága kell lennie az aktuális kontextusban. Ez az „anchoring" kognitív bias digitális megfelelője.

Megjelenési forma: Egy konkrét cipőmodell vagy termék említése azt eredményezi, hogy a modell ajánlást vagy tulajdonságot rendel hozzá.

Gyakorlati példa: A dokumentum csupán azt említi, hogy „a Garmin 945 óra használható triatlonhoz." Ebből a modell azt generálja: „az órát ajánlott használni ahhoz, hogy a legjobb teljesítményt érjük el." Az óra megemlítése aktivál egy ajánlási sémát.

Kockázat szintje: Közepes-magas. A hallucináció nem önmagában keletkezik, hanem egy valós entitáshoz kötödik, így megbízhatóbbnak tűnik.

4. Citation Hallucination (Hivatkozás hallucináció)

Definíció: A modell nem létező forrásokat, tanulmányokat vagy cikkeket idéz.

Ez a hallucináció-típus különösen veszélyes, mert a modell egy formális idézést generál. Az olvasó azt feltételezi, hogy egy valós, ellenőrizhető forrás mögött van az információ. A valóságban azonban sem a tanulmány, sem az idézet nem létezik.

Megjelenési forma: A modell konkrét publikációkat, szerzőket vagy dátumokat említ, amelyek a corpusban nem szerepelnek.

Gyakorlati példa: „A Smith és Jones 2023-as tanulmánya szerint az alacsony cadence edzés javítja az erőállóképességet." Pedig se a tanulmány, se a szerzők nincsenek a forrásban.

Kockázat szintje: Kritikus. A hivatkozás hallucináció súlyosan károsítja a rendszer credibility-jét.

5. Recommendation Hallucination (Ajánlás hallucináció)

Definíció: A modell explicit forrás nélkül generál ajánlásokat, amelyeket úgy mutat be, mintha dokumentumokból eredne.

Ez a hallucináció-típus jellegzetes a tanácsadó és ajánló rendszerekre. A modell egy olyan tanácsot ad, amely nem létezik a documentumban, de olyan stílusban fogalmaz, amely azt sugallja, hogy a dokumentáció ezt támogatja.

Megjelenési forma: „A cikk azt javasolja…" vagy „ajánlott…" állítások, amelyek a corpusban nem találhatók.

Gyakorlati példa: „A cikk azt javasolja, hogy az edzés előtt garantáltan 3 órát kell várni az étkezés után." Valójában nem létezik ilyen konkrét ajánlás a dokumentációban.

Kockázat szintje: Magas. Az ajánlás-hallucináció különösen problematikus egészség- és teljesítmény-orientált alkalmazásokban.

6. Numerical Hallucination (Numerikus hallucináció)

Definíció: A modell statisztikai adatokat, százalékokat vagy számokat generál anélkül, hogy azok a kontextusban léteznének.

A numerikus hallucináció különösen trickös, mert a számok konkrét és hitelesen hangzanak. Az olvasó nem könnyen kérdőjelezi meg egy konkrét statisztikát, amely matematikailag konzisztensnek tűnik.

Megjelenési forma: Konkrét számok, százalékok, időtartamok, amelyek nem szerepelnek az eredeti dokumentumban.

Gyakorlati példa: „Az intenzív edzés 30%-kal javítja a VO2max-ot 4 hét alatt." A dokumentáció nem tartalmaz semmilyen konkrét mérőszámot vagy időskálát.

Kockázat szintje: Magas. A számok vélt konkrétsége miatt a hallucináció különösen meggyőzőnek tűnik.

7. Implicit Hallucination (Implicit hallucináció)

Definíció: A modell logikai következtetésből generál új információt, amely részben a dokumentumban gyökerezik, de nem explicit módon szerepel.

Ez az inference-alapú hallucináció típusa. A modell helyes logikai lépéseket tehet, de egy olyan konklúziót hoz, amely túllépi a dokumentáció határait.

Megjelenési forma: Logikailag érvelő, de nem bizonyított állítások.

Gyakorlati példa: A dokumentáció azt mondja: „az aerob edzés javítja az autonóm idegrendszert, amely fontos a triatlonban." A modell ebből ezt generálja: „az aerob edzés ajánlott hetente 5-ször az optimális teljesítmény eléréséhez." Az első rész igaz, a második az inference, amely nincs támogatva.

Kockázat szintje: Közepes-magas. A hallucináció logikainak tűnik, ezért nehéz azonosítani.

Gyakorlati implikációk

Ezek a hallucináció-típusok nem izoláltan fordulnak elő. Egy komplex RAG válaszban több típus is jelen lehet. Az effektív hallucináció-csökkentéshez:

Validáció: Minden numerikus és faktikus claim forrásmegjelöléssel kell rendelkezni.
Scope korlátozás: Az ajánlások explicit dokumentációban kell, hogy szerepeljenek.
Entitás kezelés: Az entitások megemlítése nem implikál automatikusan relevanciát.
Inference awareness: A modell által végzett logikai lépéseket különösen felül kell vizsgálni.

Összefoglalás

A hallucináció nem egyetlen jelenség, hanem egy spektrum, amely a teljesen kitalált információtól az implicit, logikai alapú hibáig terjed. Az RAG és egyéb kontextus-alapú AI rendszerek megbízhatóságának javításához meg kell érteni ezen hallucináció-típusok belső mechanizmusait. Csak így lehet olyan értékelési és javítási stratégiákat desenvolálni, amelyek valóban hatékonyak.