A biológiai neuron: az inspiráció forrása

Az emberi agyban minden egyes neuron dendriteken keresztül fogadja a jeleket a szomszédos idegsejtektől. Ezek a bejövő ingerek az axon dombján összegződnek, és ha az összesített feszültség meghalad egy bizonyos küszöbértéket, a neuron „tüzel" — elektromos impulzust küld tovább a szinapszisokon át a következő neuronokhoz.

Kulcsfontosságú, hogy a szinapszisok erőssége nem egyforma. Egyes kapcsolatok erősek (sokat nyomnak a latban), mások gyengék vagy éppen gátló jellegűek. Tanulás során ezek az erősségek változnak — ezt nevezzük szinaptikus plaszticitásnak. Ez az egyszerű mechanizmus áll az egész emberi gondolkodás mögött.

Súlyok: a tudás tárolói

A súlyok a neurális hálózat „memóriáját" alkotják. Tanítás előtt véletlenszerű értékeket kapnak, majd az úgynevezett visszaterjesztési algoritmus (backpropagation) fokozatosan finomítja őket, amíg a hálózat ki nem tanulja a kívánt feladatot.

Egy nagy pozitív súly azt jelenti: „ez a bemenet nagyon fontos, és erős hatással van a kimenetemre." Egy negatív súly éppen ellenkezőleg hat — gátolja az aktivációt, akárcsak a gátló szinapszisok az agyban. Ha egy súly nullára csökken, a kapcsolat gyakorlatilag megszűnik — a neuron egyszerűen figyelmen kívül hagyja azt a bemenetet.

Egy modern nagy nyelvi modellben — mint a GPT-4 — több százmilliárd ilyen súly tanulja meg az emberi nyelv statisztikai mintáit. Minden egyes szó, összefüggés, tény ezekben a számokban tárolódik.

Bias: a rugalmasság kulcsa

A bias egy egyszerű, de nélkülözhetetlen elem. Képzelj el egy olyan neuront, amelynek feladata az, hogy akkor aktiválódjon, ha valami sötét. Ha az összes bemeneti pixelérték épp nulla (tökéletes fekete kép), a súlyokkal vett szorzatösszeg is nulla lenne — a neuron sosem tüzelne. A bias ezt az eltolást korrigálja.

Geometriailag fogalmazva: a súlyok meghatározzák egy döntési határ irányát, a bias pedig eltolják azt el a koordinátarendszer origójától. Enélkül a hálózat döntési határai mindig az origón átmenő egyenesek lennének — rendkívül korlátolva a modell képességeit.

Aktivációs függvények: a nemlinearitás ereje

Ha nem lenne aktivációs függvény, egy mélyhálózat bármennyi réteggel sem lenne több egyetlen lineáris transzformációnál. Az aktivációs függvény viszi be a nemlinearitást — ez az, ami a hálózatot képessé teszi összetett mintákat megtanulni.

Minden együtt: egy példa

Tegyük fel, hogy egy neuron azt döntse el, hogy egy kép tartalmaz-e macskát. Három bemenet: fül mérete (x₁ = 0.8), szőrzet sűrűsége (x₂ = 0.6), szemek mérete (x₃ = 0.9). A súlyok: w₁ = 1.2, w₂ = 0.4, w₃ = 1.5. A bias: b = −1.0.

A számítás: z = 1.2·0.8 + 0.4·0.6 + 1.5·0.9 − 1.0 = 0.96 + 0.24 + 1.35 − 1.0 = 1.55. Sigmoid aktiváció: σ(1.55) ≈ 0.825 — vagyis a neuron 82.5%-os valószínűséggel mondja, hogy macska van a képen.