A “legokosabb” chunking stratégia elbukott egy nagy bank Tudástárán. A legegyszerűbb nyert. Na de mi történt?
4 chunking stratégiát teszteltem egy valós help centeren — kifejezetten retrieval szempontból. Nem az volt a cél, hogy a modell mennyire jó válaszokat ad, hanem hogy megtalálja-e a megfelelő kontextust.
Az eredmény: → Fixed Token nyert — 0.95 context recall (azaz az esetek 95%-ában benne volt a helyes válasz a visszaadott chunkokban)
A kísérlet: - Egy nagy nemzetközi bank magyar Tudástára (21 dokumentum, 43 általam generált kérdés)
4 stratégia: - Paragraph baseline - Tighter paragraph - Semantic - Fixed token
RAGAS metrikák, amikkel értékeltem őket: - faithfulness → mennyire marad a válasz a kontextuson belül - context recall → megtaláljuk-e a szükséges információt - context precision → mennyi a “zaj” a visszaadott kontextusban - answer relevancy → mennyire válaszol ténylegesen a kérdésre (Ezekről külön posztban írok majd nemsokára részletesebben.)
A meglepetés: - A Semantic chunking — ami “érti” a tartalmat — csak 3. lett. - A Fixed Token — ami semmit nem ért — nyert.
Miért? A Tudástár FAQ-alapú. Egy kérdés–válasz blokk ≈ 200–300 token.
A Fixed Token (250 token + overlap): → pontosan egy ilyen egységet kap el → egy chunk = egy intent Ez ideális.
A Semantic chunking viszont hibázik. Egy oldalon: - számlanyitás - diákkedvezmény - kártyalimit
Ezek nem csak egy URL-en vannak, hanem ugyanahhoz a termékhez tartoznak → ezért szemantikusan hasonlónak tűnnek. A chunking ezt “összerántja” → kevesebb, de elmosódott chunkok
Eredmény: → precision esik (0.69 vs 0.87)
A baseline paragraph chunking más miatt bukik: → nincs overlap (ez tudatos döntés volt a baseline-nál, hogy lássuk a hatását) → egy kérdés és válasz könnyen két chunkba kerül Ez nem “hiba” a rendszerben - hanem természetes következménye annak, hogy a chunk határok nem követik a logikai egységeket.
Eredmény: → egyik chunk sem elég erős találat
Tanulság: Nem az számít, melyik algoritmus “okosabb”.
Hanem hogy: - a chunkolás követi-e a tartalom struktúráját.
FAQ tartalom → Fixed Token (overlap-pel) Folyó szöveg / policy → Paragraph vagy Semantic Vegyes tartalom → kísérletezz
A retrieval nem modell probléma.
A legtöbbször: chunking probléma.
Te is láttál már példát ilyen esetekre?