Hogy válasszunk chunking stratégiát?

Egy valós banki Tudástáron teszteltem 4 különböző chunking stratégiát — és meglepő módon nem a “legokosabb” semantic chunking nyert, hanem a legegyszerűbb Fixed Token megoldás. A kísérlet jól megmutatta, hogy retrievalnél nem az számít, melyik algoritmus hangzik intelligensebben, hanem hogy a chunkolás mennyire illeszkedik a tartalom valódi struktúrájához.

A “legokosabb” chunking stratégia elbukott egy nagy bank Tudástárán. A legegyszerűbb nyert. Na de mi történt?

4 chunking stratégiát teszteltem egy valós help centeren — kifejezetten retrieval szempontból. Nem az volt a cél, hogy a modell mennyire jó válaszokat ad, hanem hogy megtalálja-e a megfelelő kontextust.

Az eredmény: → Fixed Token nyert — 0.95 context recall (azaz az esetek 95%-ában benne volt a helyes válasz a visszaadott chunkokban)

A kísérlet: - Egy nagy nemzetközi bank magyar Tudástára (21 dokumentum, 43 általam generált kérdés)

4 stratégia: - Paragraph baseline - Tighter paragraph - Semantic - Fixed token

RAGAS metrikák, amikkel értékeltem őket: - faithfulness → mennyire marad a válasz a kontextuson belül - context recall → megtaláljuk-e a szükséges információt - context precision → mennyi a “zaj” a visszaadott kontextusban - answer relevancy → mennyire válaszol ténylegesen a kérdésre (Ezekről külön posztban írok majd nemsokára részletesebben.)

A meglepetés: - A Semantic chunking — ami “érti” a tartalmat — csak 3. lett. - A Fixed Token — ami semmit nem ért — nyert.

Miért? A Tudástár FAQ-alapú. Egy kérdés–válasz blokk ≈ 200–300 token.

A Fixed Token (250 token + overlap): → pontosan egy ilyen egységet kap el → egy chunk = egy intent Ez ideális.

A Semantic chunking viszont hibázik. Egy oldalon: - számlanyitás - diákkedvezmény - kártyalimit

Ezek nem csak egy URL-en vannak, hanem ugyanahhoz a termékhez tartoznak → ezért szemantikusan hasonlónak tűnnek. A chunking ezt “összerántja” → kevesebb, de elmosódott chunkok

Eredmény: → precision esik (0.69 vs 0.87)

A baseline paragraph chunking más miatt bukik: → nincs overlap (ez tudatos döntés volt a baseline-nál, hogy lássuk a hatását) → egy kérdés és válasz könnyen két chunkba kerül Ez nem “hiba” a rendszerben - hanem természetes következménye annak, hogy a chunk határok nem követik a logikai egységeket.

Eredmény: → egyik chunk sem elég erős találat

Tanulság: Nem az számít, melyik algoritmus “okosabb”.

Hanem hogy: - a chunkolás követi-e a tartalom struktúráját.

FAQ tartalom → Fixed Token (overlap-pel) Folyó szöveg / policy → Paragraph vagy Semantic Vegyes tartalom → kísérletezz

A retrieval nem modell probléma.

A legtöbbször: chunking probléma.

Te is láttál már példát ilyen esetekre?