ByteDance lance iLLaDA, un modèle de langage à diffusion innovant
ByteDance et des chercheurs de l'Université Renmin ont développé iLLaDA, un modèle de langage à diffusion de 8B. Il rivalise avec Qwen2.5 en base mais est moins performant après ajustement. Il utilise une approche bidirectionnelle différente des modèles autoregressifs.
« iLLaDA-Base improves sharply over LLaDA, jumping 21.6 points on the reasoning test BBH, for example. » — The Decoder
Que faut-il retenir ?
- iLLaDA est un modèle de langage à diffusion de 8B développé par ByteDance et l'Université Renmin.
- Il est pré-entraîné sur 12 000 milliards de tokens, contre 2 300 milliards pour son prédécesseur LLaDA.
- iLLaDA-Base améliore LLaDA de 21,6 points sur le test de raisonnement BBH.
- Il atteint en moyenne 63,9 points, dépassant légèrement Qwen2.5 7B à 63,3.
Pourquoi cette nouvelle compte-t-elle ?
iLLaDA représente une avancée dans les modèles de langage à diffusion, offrant une alternative aux modèles autoregressifs dominants. Cela pourrait influencer le développement de nouvelles applications en IA générative, notamment pour des tâches nécessitant une génération de texte rapide.
12 000 milliards de tokens
Public concerné : développeurs, entreprises
Quelle est la différence entre iLLaDA et les modèles autoregressifs ?
iLLaDA utilise une approche bidirectionnelle, générant du texte via des passes parallèles, contrairement aux modèles autoregressifs qui génèrent mot par mot de gauche à droite.