L'IA ne traite pas directement les mots mais des unités appelées "tokens" :
- Tokenisation : Le texte est découpé en unités (tokens) qui peuvent être des mots entiers, des parties de mots ou des caractères.
- Vocabulaire limité : L'IA possède un vocabulaire fixe de tokens qu'elle connaît (généralement entre 30 000 et 100 000).
- Vecteurs d'embeddings : Chaque token est converti en un vecteur numérique qui capture son sens et ses relations avec d'autres mots.
- Distribution de probabilité : Pour chaque position, l'IA calcule une probabilité pour chaque token possible de son vocabulaire.
Analogie : La bibliothèque codée
Imaginez une immense bibliothèque où chaque livre est représenté par un code numérique unique qui capture son contenu et ses relations avec d'autres livres. Pour trouver le prochain livre à lire, un bibliothécaire utilise un système qui calcule, en fonction des livres que vous avez déjà lus, quels sont les codes les plus probables pour votre prochain livre. L'IA fonctionne de manière similaire avec les tokens.
Exemple de tokenisation :
Le mot "incroyable" pourrait être divisé en tokens comme "in" + "croy" + "able"
La phrase "J'aime l'IA" pourrait devenir ["J'", "aime", " l'", "IA"]
Application pédagogique : Cette compréhension des tokens explique pourquoi les IA peuvent parfois mal orthographier des mots rares ou techniques - ils sont composés de tokens moins fréquents avec des probabilités plus faibles.