GeneBench-Pro : le nouveau benchmark IA d'OpenAI pour la biologie

4 min de lecture · Le Big Data · Ny Ando A. · 01/07/2026 IA générative 9/10 Élevé

OpenAI a créé GeneBench-Pro, un benchmark de 129 problèmes en génomique et biologie quantitative pour tester le raisonnement scientifique des IA. GPT-5.6 Sol obtient 31,5% de réussite, loin devant les autres modèles comme Opus 4.8 (16%) ou Gemini 3.5 Flash (8,1%).

« We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on. » — Le Big Data

Que faut-il retenir ?

GeneBench-Pro contient 129 problèmes en génomique, biologie quantitative et médecine translationnelle.
GPT-5.6 Sol atteint 28,7% de réussite en mode standard et 31,5% en mode Pro.
Opus 4.8 obtient 16%, Gemini 3.5 Flash 8,1%, et Grok 4.3 seulement 1,5%.
Un problème typique prendrait 20-40 heures à un humain, coûtant plusieurs milliers de dollars.

Pourquoi cette nouvelle compte-t-elle ?

Ce benchmark permet d'évaluer les capacités de raisonnement scientifique des IA, un enjeu clé pour les applications en recherche biomédicale. Les performances actuelles montrent que même les modèles avancés comme GPT-5.6 Sol ont encore des limites, ce qui guide les priorités de R&D. L'open sourcing partiel favorise la transparence et l'évaluation indépendante.

31,5% de réussite pour GPT-5.6 Sol en mode Pro

💬 Alexander Strudwick Young

Public concerné : développeurs, entreprises

Quel est l'objectif de GeneBench-Pro ?

GeneBench-Pro vise à évaluer la capacité des IA à raisonner scientifiquement sur des problèmes complexes de biologie computationnelle, en simulant des scénarios de recherche réels avec des jeux de données et des questions précises.

Voir l'article original →

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre