A token egy szövegben egy olyan egység, amelyet a modell a szövegfeldolgozás során kezel. A tokenizáció folyamata során a szöveg szavakra, karakterekre vagy más jelentős részekre van felosztva, amelyeket a modell külön-külön kezelhet.
A pontos tokenizáció függ a használt modelltől és az alkalmazott tokenizációs stratégiától. Például, egy egyszerű szó alapú tokenizáció során a szöveget szavakra bontják, és minden szó egy tokenként kezelendő. Ez azt jelenti, hogy a „Ez egy példa mondat” szövegben négy különálló szót tartalmaz, és négy tokenből áll.
Azonban a token nem mindig jelent szót. Néhány tokenizációs stratégia esetén a tokenek lehetnek részletek a szavakon belül, például karakterek, aláhúzásjelek vagy speciális jelölések. Ebben az esetben a tokenizáció finomabb részleteket is tartalmazhat.
Mint ChatGPT, a tokenizáció folyamata során a szöveget előzetesen tokenekre bontják, amelyek a modell bemenetét képezik. A pontos tokenizációs stratégiák és a tokenek jelentése a modell architektúrájától és a tanulás során alkalmazott módszerektől függhetnek.