A “legokosabb” chunking stratégia elbukott egy nagy bank Tudástárán.
A legegyszerűbb nyert.
Na de mi történt?
4 chunking stratégiát teszteltem egy valós help centeren — kifejezetten retrieval szempontból.
Nem az volt a cél, hogy a modell mennyire jó válaszokat ad, hanem hogy megtalálja-e a megfelelő kontextust.
Az eredmény: Fixed Token nyert — 0.95 context recall
(azaz az esetek 95%-ában benne volt a helyes válasz a visszaadott chunkokban)
A kísérlet:
- Egy nagy nemzetközi bank magyar Tudástára (21 dokumentum, 43 általam generált kérdés)
4 stratégia:
- Paragraph baseline
- Tighter paragraph
- Semantic
- Fixed token
RAGAS metrikák, amikkel értékeltem őket:
- faithfulness → mennyire marad a válasz a kontextuson belül
- context recall → megtaláljuk-e a szükséges információt
- context precision → mennyi a “zaj” a visszaadott kontextusban
- answer relevancy → mennyire válaszol ténylegesen a kérdésre
(Ezekről külön posztban írok majd nemsokára részletesebben.)
A meglepetés:
- A Semantic chunking — ami “érti” a tartalmat — csak 3. lett.
- A Fixed Token — ami semmit nem ért — nyert.
Miért?
A Tudástár FAQ-alapú.
Egy kérdés–válasz blokk ≈ 200–300 token.
A Fixed Token (250 token + overlap): → pontosan egy ilyen egységet kap el → egy chunk = egy intent Ez ideális.
A Semantic chunking viszont hibázik. Egy oldalon: - számlanyitás - diákkedvezmény - kártyalimit
Ezek nem csak egy URL-en vannak, hanem ugyanahhoz a termékhez tartoznak → ezért szemantikusan hasonlónak tűnnek. A chunking ezt “összerántja” → kevesebb, de elmosódott chunkok
Eredmény: → precision esik (0.69 vs 0.87)
A baseline paragraph chunking más miatt bukik: → nincs overlap (ez tudatos döntés volt a baseline-nál, hogy lássuk a hatását) → egy kérdés és válasz könnyen két chunkba kerül Ez nem “hiba” a rendszerben - hanem természetes következménye annak, hogy a chunk határok nem követik a logikai egységeket.
Eredmény: → egyik chunk sem elég erős találat
Tanulság: Nem az számít, melyik algoritmus “okosabb”.
Hanem hogy: - a chunkolás követi-e a tartalom struktúráját.
FAQ tartalom → Fixed Token (overlap-pel)
Folyó szöveg / policy → Paragraph vagy
Semantic Vegyes tartalom → kísérletezz
A retrieval nem modell probléma.
A legtöbbször: chunking probléma.