« Consanguinité de l’IA » : ChatGPT, Gemini et Grok sont menacés par un phénomène inquiétant

Depuis plusieurs mois, les images générées par des IA, comme ChatGPT ou Grok, ont une teinte jaunâtre qui inquiète les spécialistes. Et pour cause, la technologie pourrait être menacée par une sorte de dégénérescence que l’on pourrait qualifier de « consanguinité de l’IA ».

ChatGPT Gemini Grok
© Image IA d’illustration générée avec GPT-5

Autant dire un phénomène inquiétant alors que ChatGPT propose depuis peu son modèle GPT-5.  On parle d’une uniformisation au niveau de la couleur qui n’est qu’une partie immergée d’une menace sérieuse. Pour faire simple, les modèles s’entraînent de plus en plus sur des contenus eux-mêmes produits par d’autres IA, d’où cette « consanguinité numérique » qui impacte la fiabilité.

À lire : Voici comment vérifier que l’IA n’est pas en train d’halluciner

L’IA se dégrade à cause des données générées par d’autres modèles

Alain Goudey, directeur général adjoint en charge du numérique à Neoma Business School, explique qu’« entraîner de futures générations de modèles sur des générations antérieures finira par provoquer un effondrement de modèles« . 

Ce phénomène a même un nom officiel, « Habsburg IA », une référence aux conséquences de la consanguinité dans la célèbre dynastie en Europe. Le chercheur Jathan Sadowski a choisi ce nom, et des chercheurs britanniques et canadiens ont montré cette dégénérescence dans la revue Nature. Les experts ont entraîné un modèle d’IA à reproduire des chiffres manuscrits, puis ont répété l’opération en réutilisant ce qui avait été généré juste avant. Et au bout de 20 générations, les chiffres viraient au flou, puis après 30, ils étaient juste totalement illisibles et fusionnés. 

Cette étude montre qu’en seulement 5 générations d’entraînement sur des données autogénérées, on amplifie déjà les biais et les défauts des modèles. La variance diminue, c’est-à-dire la diversité mais aussi la précision des réponses, précise Alain Goudey. Mais le texte est aussi touché, puisqu’un chatbot à qui on a demandé de compléter la phrase : « Pour cuisiner une dinde pour Thanksgiving, vous… » s’est enlisé dans des répétitions absurdes jusqu’à tenir des propos incohérents comme « …Vous devez savoir ce que vous allez faire de votre vie si vous ne le savez pas ». 

Mais alors pourquoi une telle dégénérescence ? L’IA se recentre sur la moyenne statistique et les cas minoritaires disparaissent. Les réponses s’appauvrissent donc et s’éloignent de la réalité avec cet effondrement. Mais si ce phénomène a lieu, c’est aussi parce qu’il n’y a plus de données humaines à exploiter. ChatGPT, qui propose de nouveau le modèle GPT-4o, Gemini et Claude ont déjà digéré l’essentiel du contenu en ligne. Les entreprises se tournent donc vers des données synthétiques, plus abondantes, moins coûteuses et libres de droits, sauf que leur qualité est très inférieure. 

« Le simple fait d’avoir 0.01% de données empoisonnées peut entraîner une chute drastique de performance, que ce soit en termes d’images, de textes ou de vidéos » explique Alain Goudey. Une toute petite contamination suffit donc à corrompre l’ensemble de l’IA. Quant au filtre jaunâtre des images générées par ChatGPT, cela s’explique par la popularité des images « style Ghibli » qui se sont répandues sur les réseaux sociaux. Sauf que cette popularité cache « une homogénéisation, une perte de créativité et une augmentation des biais » des modèles. 

OpenAI tente de trouver des sources de qualité humaine

Mais ce n’est pas tout puisque la dégradation s’accompagne d’un coût énergétique qui ne cesse de grimper puisque l’entraînement est très énergivore en puissance de calcul et la diversité des résultats s’effrite. « C’est comme si la 9ème édition d’un guide touristique sur l’île de France ne parlait plus que de l’arc de triomphe et de la tour Eiffel », explique Alain Goudey. Et les solutions disponibles peinent à freiner ce phénomène. 

OpenAI et Mistral AI nouent des partenariats avec des banques d’images et agences de presse pour privilégier le contenu humain diversifié. D’autres entreprises utilisent plutôt la détection puis le marquage de contenu généré par l’IA. Toutefois, Alain Goudey prévient : « On ne peut pas garantir qu’un contenu soit entièrement humain ». Les watermarks sont loin d’être fiables et les utilisateurs malveillants sont en mesure de contourner ces sécurités. 

Plusieurs pistes se dessinent comme le nettoyage des corpus d’entraînement, la constitution de bases de données humaines de qualité ou encore le partenariat avec des grands éditeurs. Les grands éditeurs comme OpenAI avec la société de presse ou Mistral AI avec l’AFP cherchent à garantir que les futures générations de modèles seront entraînées sur des données authentiques. Toutefois, « on ne sait pas garantir qu’un contenu est entièrement humain » clarifie Alain Goudey.  Selon les experts, il s’agit d’un « phénomène exponentiel ». L’IA pourrait sombrer dans une ère aux nombreux biais avec des résultats monotones et souvent étranges.

  • Les IA subissent une « consanguinité numérique » : elles s’entraînent de plus en plus sur des données générées par d’autres IA, ce qui réduit la diversité, amplifie les biais et dégrade progressivement la qualité des réponses (images jaunâtres, textes incohérents).
  • Ce phénomène, appelé « Habsburg IA », est documenté par des études montrant qu’après plusieurs générations d’entraînement sur données autogénérées, les résultats deviennent flous, illisibles ou absurdes. La cause principale est la raréfaction des données humaines et l’usage accru de contenus synthétiques, moins fiables.
  • Les solutions envisagées incluent le nettoyage des corpus, l’utilisation de bases de données humaines et des partenariats avec des éditeurs, mais il est impossible de garantir à 100 % qu’un contenu soit entièrement humain, et les biais risquent de s’accentuer de façon exponentielle.

Réagissez à cet article !