Nemotron 3.5 ASR : reconnaissance vocale multilingue en temps réel
Nemotron 3.5 ASR est un modèle de reconnaissance vocale multilingue en temps réel supportant 40 langues. Il offre une latence de 0,07 secondes et une ponctuation intégrée, sans nécessiter de post-traitement. Le modèle est disponible en open weights sur Hugging Face.
« Nemotron 3.5 ASR, streaming multilingual: a 600M-parameter speech-to-text model that transcribes 40 language-locales from a single checkpoint, in real time, with punctuation and capitalization built in. » — Hugging Face Blog
Que faut-il retenir ?
- Nemotron 3.5 ASR supporte 40 langues différentes à partir d'un seul checkpoint.
- Le modèle offre une latence de 0,07 secondes pour la transcription finale après la fin de la parole.
- Il intègre nativement la ponctuation et la capitalisation, éliminant le besoin d'un post-traitement.
- Disponible en open weights sur Hugging Face, permettant une inspection, un fine-tuning et un déploiement sans dépendances API.
Pourquoi cette nouvelle compte-t-elle ?
Nemotron 3.5 ASR révolutionne la reconnaissance vocale en offrant une solution multilingue, rapide et précise. Les professionnels peuvent l'intégrer sans dépendre d'APIs externes, réduisant les coûts et les complexités. Son open weights permet une personnalisation pour des besoins spécifiques, comme des domaines ou accents particuliers.
0,07 secondes de latence pour la transcription finale
Public concerné : développeurs, entreprises
Comment Nemotron 3.5 ASR améliore-t-il la reconnaissance vocale multilingue ?
Nemotron 3.5 ASR supporte 40 langues avec une latence de 0,07 secondes et intègre nativement la ponctuation. Disponible en open weights, il permet un fine-tuning pour des besoins spécifiques sans dépendre d'APIs externes.