A tokenek az eredeti szöveg egységei, amelyekre feloszthatók a feldolgozás során. A tokenizáció folyamata során a szöveget diszkrét részekre, vagyis tokenekre bontják.
A tokenek általában a szavak, vagy akár a szavakhoz hasonló egységek, például a szótagok vagy a karakterek lehetnek. A pontos tokenek meghatározása a feladat és a modell specifikus, valamint a nyelv sajátosságaitól is függ.
Például egy mondatot tokenekre bontva a következőképpen nézhet ki:
Eredeti mondat: „A vektorizálás a tokenek számokká alakítására utal, hogy neurális hálózatba táplálhatók legyenek.”
Tokenek: [„A”, „vektorizálás”, „a”, „tokenek”, „számokká”, „alakítására”, „utal”, „,”, „hogy”, „neurális”, „hálózatba”, „táplálhatók”, „legyenek”, „.”]
Ezután a tokeneket általában numerikus reprezentációkká, vagyis számokká alakítják, hogy táplálhatók legyenek a neurális hálózatokba. Ez lehetővé teszi a gépi tanulási algoritmusok számára, hogy manipulálják és feldolgozzák ezeket az adatokat.