Sous-représentation

Terme Débutant 🛡️ Sécurité et éthique

Mis à jour le 13 juillet 2026

La sous-représentation désigne l’absence ou la rareté de certains segments de la population dans les ensembles de données d’entraînement, provoquant ainsi une invisibilité numérique et des biais algorithmiques qui pénalisent les groupes minoritaires tout en renforçant les positions dominantes au sein des systèmes d’intelligence artificielle.

📖 Définition

La sous-représentation survient lorsque certains groupes de personnes, des cultures ou des régions du monde sont absents ou trop rares dans les données utilisées pour entraîner une IA. Pour un algorithme, ce qui n’est pas documenté ou présent massivement dans sa base de données n’existe tout simplement pas. Ce phénomène est une source majeure de biais algorithmique, car l’IA finit par privilégier les réalités des groupes majoritaires. On parle alors d’un véritable « plafond de verre algorithmique » qui peut exclure des citoyens des bénéfices du progrès technologique. Par exemple, si une IA médicale n’est entraînée que sur des hommes, elle pourrait mal diagnostiquer les femmes. Il est donc crucial d’exiger des ensembles de données diversifiés et inclusifs pour que l’IA reflète la richesse de l’ensemble de l’humanité.

💬 En termes simples

C’est comme si on écrivait un livre d’histoire sur le Canada, mais qu’on oubliait totalement de mentionner le Québec et les peuples autochtones dans le récit.

🎯 Exemple concret

Un parent remarque qu’un générateur d’images d’IA ne propose que des médecins hommes lorsqu’on lui demande d’illustrer un hôpital, ignorant la réalité des femmes médecins.

💡 Le saviez-vous ?

Le français québécois a longtemps souffert de sous-représentation dans l’IA, ce qui expliquait pourquoi les premiers assistants vocaux ne nous comprenaient pas toujours bien.

❓ Questions fréquentes

D’où vient ce problème ?

Il vient du fait que la majorité des données sur Internet proviennent de certains pays et de certaines langues plus dominantes que d’autres.

Pourquoi est-ce dangereux ?

Parce que l’IA peut ainsi nier l’existence de certaines cultures ou besoins spécifiques, créant une forme de discrimination par omission.

Comment corriger la sous-représentation ?

En collectant activement des données auprès des groupes moins visibles et en les intégrant de façon équitable dans les modèles.

L’IA peut-elle inventer ce qu’elle ne connaît pas ?

Non, elle va souvent combler les trous avec des stéréotypes basés sur ce qu’elle connaît déjà le mieux.

Les enfants sont-ils concernés ?

Oui, si les données d’IA sont purement américaines, les références culturelles et linguistiques de nos jeunes pourraient disparaître des outils.

Que dit l’UNESCO à ce sujet ?

L’organisation demande aux États de protéger la diversité culturelle et linguistique dans le développement de l’intelligence artificielle mondiale.

📚 Sources

UNESCO — Recommandation sur l’éthique de l’intelligence artificielle (UNESCO, 2021)
NIST — Towards a Standard for Identifying and Managing Bias in AI (SP 1270) (NIST, 2022)
UNESCO — Éthique de l’intelligence artificielle (présentation) (UNESCO, 2021)

🔗 Termes liés

🏷️ Catégorie parente

Biais algorithmique

Accueil

Outils

Annuaire

Apprendre