A “legokosabb” chunking stratégia elbukott egy nagy bank Tudástárán.
A legegyszerűbb nyert. 

Na de mi történt?

4 chunking stratégiát teszteltem egy valós help centeren — kifejezetten retrieval szempontból. 
Nem az volt a cél, hogy a modell mennyire jó válaszokat ad, hanem hogy megtalálja-e a megfelelő kontextust.

Az eredmény:  Fixed Token nyert — 0.95 context recall 
(azaz az esetek 95%-ában benne volt a helyes válasz a visszaadott chunkokban)

A kísérlet: 

- Egy nagy nemzetközi bank magyar Tudástára (21 dokumentum, 43 általam generált kérdés)

4 stratégia: 
- Paragraph baseline 
- Tighter paragraph 
- Semantic 
- Fixed token

RAGAS metrikák, amikkel értékeltem őket: 

- faithfulness → mennyire marad a válasz a kontextuson belül 
- context recall → megtaláljuk-e a szükséges információt 
- context precision → mennyi a “zaj” a visszaadott kontextusban 
- answer relevancy → mennyire válaszol ténylegesen a kérdésre 
(Ezekről külön posztban írok majd nemsokára részletesebben.)

A meglepetés: 
- A Semantic chunking — ami “érti” a tartalmat — csak 3. lett. 
- A Fixed Token — ami semmit nem ért — nyert.

Miért? 

A Tudástár FAQ-alapú. 
Egy kérdés–válasz blokk ≈ 200–300 token.
A Fixed Token (250 token + overlap): → pontosan egy ilyen egységet kap el → egy chunk = egy intent Ez ideális.
A Semantic chunking viszont hibázik. Egy oldalon: - számlanyitás - diákkedvezmény - kártyalimit
Ezek nem csak egy URL-en vannak, hanem ugyanahhoz a termékhez tartoznak → ezért szemantikusan hasonlónak tűnnek. A chunking ezt “összerántja” → kevesebb, de elmosódott chunkok
Eredmény: → precision esik (0.69 vs 0.87)

A baseline paragraph chunking más miatt bukik: → nincs overlap (ez tudatos döntés volt a baseline-nál, hogy lássuk a hatását) → egy kérdés és válasz könnyen két chunkba kerül Ez nem “hiba” a rendszerben - hanem természetes következménye annak, hogy a chunk határok nem követik a logikai egységeket.

Eredmény: → egyik chunk sem elég erős találat
Tanulság: Nem az számít, melyik algoritmus “okosabb”.

Hanem hogy: - a chunkolás követi-e a tartalom struktúráját.
FAQ tartalom → Fixed Token (overlap-pel) 
Folyó szöveg / policy → Paragraph vagy 
Semantic Vegyes tartalom → kísérletezz

A retrieval nem modell probléma.
A legtöbbször: chunking probléma.