Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

L'IA locale sur son ordinateur

L'IA locale : faire tourner un modèle de langage sur son ordinateur

On peut aujourd'hui exécuter des modèles de langage (LLM) directement sur son propre ordinateur, sans passer par le cloud. Un bon portable suffit pour des modèles de 7 à 14 milliards de paramètres ; les très gros modèles exigent une machine de bureau puissante. L'IA locale séduit par la confidentialité, le coût et le fonctionnement hors-ligne — au prix de quelques compromis.

Pour les développeurs et les PME sensibles à la protection des données, exécuter un modèle localement permet de garder l'information sur place. Le choix dépend de vos besoins, de votre matériel et du niveau de performance attendu.

Pourquoi exécuter l'IA en local ?

  • Confidentialité : vos données ne quittent pas votre machine.
  • Coût : une fois le matériel et les logiciels en place, l'inférence locale n'entraîne pas de frais par requête.
  • Hors-ligne : aucun accès Internet requis pour générer une réponse.
  • Contrôle : vous choisissez le modèle, sa version et ses réglages.

Les outils pour commencer

  • Ollama : outil libre (Mac, Windows, Linux) qui télécharge et sert des modèles via une ligne de commande et une API compatible « style OpenAI ». Souvent recommandé comme choix par défaut côté développeurs.
  • LM Studio : application de bureau avec interface graphique, façon « ChatGPT hors-ligne » ; expose aussi une API locale.
  • llama.cpp : moteur C++ optimisé (format GGUF), très flexible et bas niveau, idéal pour intégrer l'IA dans ses propres services.
  • GPT4All et Jan : applications tout-en-un orientées débutants et confidentialité.

Quels modèles peut-on exécuter ?

Plusieurs familles de modèles ouverts (« open weights ») s'exécutent localement : Llama (Meta), Mistral / Mixtral, Qwen, Gemma (Google), DeepSeek et Phi, dans des tailles allant de quelques centaines de millions à plusieurs dizaines de milliards de paramètres. Les modèles « mixture-of-experts » (Mixtral, DeepSeek) n'activent qu'une partie de leurs paramètres, ce qui réduit les besoins en mémoire.

Quel matériel ? (repères)

La quantification réduit la mémoire nécessaire : un modèle en 16 bits occupe environ 2 Go par milliard de paramètres ; en 4 bits, environ 0,5 Go. Un modèle de 70 milliards passe ainsi d'environ 140 Go à environ 35 Go. Repères réalistes pour une expérience fluide en 4 bits (format GGUF) :

  • Modèle ~7-8 milliards : environ 8 Go de VRAM + 16 Go de RAM (très jouable sur un portable récent).
  • Modèle ~13-14 milliards : environ 12 à 16 Go de VRAM + 32 Go de RAM (bon compromis local aujourd'hui).
  • Modèle ~70 milliards : environ 40 Go de VRAM ou plus (ou plusieurs GPU), 128 Go de RAM et plus si une partie reste sur le processeur — hors de portée de la plupart des portables.

Les limites à connaître

  • Performance : les modèles locaux sont souvent moins performants que les grands modèles cloud (GPT-4, Claude).
  • Vitesse : la rapidité de génération dépend directement de votre matériel.
  • Maintenance : les mises à jour de modèles se font manuellement.
  • Taille : les très grands modèles restent difficiles, voire impossibles, à exécuter sur un ordinateur grand public.

Par où commencer ?

Commencez par un modèle de 7 à 8 milliards de paramètres avec un outil simple comme Ollama ou LM Studio, testez-le sur vos cas d'usage réels, puis ajustez la taille du modèle selon votre matériel et vos besoins.

Retour au dossier : l'IA pour les développeurs Glossaire IA Explorer les outils

Rester à jour

Double opt-in. Loi 25 / RGPD. Désabonnement 1-clic.

Questions fréquentes

Quel matériel faut-il pour l'IA locale ?

Pour un modèle de 7 à 8 milliards de paramètres quantifié en 4 bits, un ordinateur avec 16 Go de RAM et un GPU de 8 Go de mémoire vidéo suffit généralement. Les modèles de 70 milliards exigent plutôt 40 Go de VRAM ou plusieurs cartes — hors de portée de la plupart des portables.

L'IA locale est-elle aussi performante que ChatGPT ?

Pas toujours. Les modèles exécutables localement sont souvent moins performants que les grands modèles cloud comme GPT-4 ou Claude, et la vitesse dépend de votre matériel. En revanche, vos données restent sur votre machine.

Quels logiciels pour débuter ?

Ollama (en ligne de commande, avec une API) et LM Studio (interface graphique type « ChatGPT hors-ligne ») sont parmi les plus accessibles. GPT4All et Jan visent aussi les débutants.

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !