Nemotron 3.5 ASR : reconnaissance vocale multilingue en temps réel

5 min de lecture · Hugging Face Blog · 4 juin 2026 IA générative 9/10 Élevé

Nemotron 3.5 ASR est un modèle de reconnaissance vocale multilingue en temps réel supportant 40 langues. Il offre une latence de 0,07 secondes et une ponctuation intégrée, sans nécessiter de post-traitement. Le modèle est disponible en open weights sur Hugging Face.

« Nemotron 3.5 ASR, streaming multilingual: a 600M-parameter speech-to-text model that transcribes 40 language-locales from a single checkpoint, in real time, with punctuation and capitalization built in. » — Hugging Face Blog

Que faut-il retenir ?

Nemotron 3.5 ASR supporte 40 langues différentes à partir d'un seul checkpoint.
Le modèle offre une latence de 0,07 secondes pour la transcription finale après la fin de la parole.
Il intègre nativement la ponctuation et la capitalisation, éliminant le besoin d'un post-traitement.
Disponible en open weights sur Hugging Face, permettant une inspection, un fine-tuning et un déploiement sans dépendances API.

Pourquoi cette nouvelle compte-t-elle ?

Nemotron 3.5 ASR révolutionne la reconnaissance vocale en offrant une solution multilingue, rapide et précise. Les professionnels peuvent l'intégrer sans dépendre d'APIs externes, réduisant les coûts et les complexités. Son open weights permet une personnalisation pour des besoins spécifiques, comme des domaines ou accents particuliers.

0,07 secondes de latence pour la transcription finale

Public concerné : développeurs, entreprises

Comment Nemotron 3.5 ASR améliore-t-il la reconnaissance vocale multilingue ?

Nemotron 3.5 ASR supporte 40 langues avec une latence de 0,07 secondes et intègre nativement la ponctuation. Disponible en open weights, il permet un fine-tuning pour des besoins spécifiques sans dépendre d'APIs externes.

Voir l'article original → Lire en français

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre