Les modèles d'intelligence artificielle apprennent à partir des données qu'on leur fournit. La qualité, la diversité et les caractéristiques de ces données déterminent directement ce que le modèle sera capable de produire.
Trois principes fondamentaux à comprendre :
- Le modèle reproduit les motifs qu'il observe - Si certains motifs sont surreprésentés dans les données d'entraînement, ils seront surreprésentés dans les résultats.
- Le modèle ne peut pas générer ce qu'il n'a jamais vu - Les lacunes dans les données d'entraînement créent des angles morts dans les capacités du modèle.
- Les biais dans les données deviennent des biais dans les résultats - Les préjugés ou déséquilibres présents dans les données se reflètent dans les sorties du modèle.
Analogie : Le chef cuisinier et son livre de recettes
Imaginez un chef qui apprend à cuisiner uniquement à partir d'un livre de recettes :
- Si le livre ne contient que des recettes françaises, le chef ne saura pas préparer de plats japonais.
- Si 90% des recettes contiennent du beurre, le chef aura tendance à en mettre dans presque tous ses plats.
- Si les instructions sont parfois imprécises, le chef développera des habitudes approximatives.
De la même façon, une IA est limitée par ce qu'elle a "lu" pendant son entraînement et reproduira les tendances dominantes de ces données.
Cet outil vous permet d'explorer visuellement la relation entre les données d'entraînement et les résultats générés par l'IA :
- Choisissez un type de contenu (texte, image ou distribution de données) pour voir différents exemples.
- Observez les caractéristiques des données d'entraînement et comment elles se reflètent dans le résultat généré.
- Utilisez le curseur de biais (pour la distribution) pour voir comment les déséquilibres dans les données affectent les prédictions.
- Générez de nouveaux exemples pour explorer différentes situations et comprendre les tendances.
Essayez de repérer les motifs, styles et caractéristiques qui sont transmis des données d'entraînement aux résultats générés.