Ollama en 30 secondes : c’est quoi exactement ?
Ollama est un outil open source qui permet de télécharger et d’exécuter des modèles de langage (LLM) directement sur votre machine, sans connexion internet, sans envoyer vos données à un tiers, sans abonnement. Vous tapez une commande, le modèle se charge, vous chattez. C’est aussi simple que ça.
Concrètement : vous pouvez faire tourner Mistral, Llama 3, Gemma ou Phi-3 sur votre PC ou Mac en moins de 10 minutes. Ce guide vous y amène étape par étape, avec les résultats d’un test terrain de 5 jours sur une machine grand public.
Contexte du test : qui, quoi, combien de temps
Configuration testée : un laptop Windows 11 standard, processeur Intel Core i7 12e génération, 16 Go de RAM, GPU NVIDIA RTX 3060 (6 Go VRAM). Pas une bête de compétition, une machine que beaucoup de lecteurs ont ou peuvent se permettre.
Modèles testés pendant 5 jours : Mistral 7B (le référent qualité/poids), Llama 3 8B (Meta, très polyvalent), Phi-3 Mini (Microsoft, optimisé pour les petites configs). Usages couverts : rédaction, code Python, résumé de documents, questions-réponses.
Installation pas à pas : de zéro au premier prompt
Étape 1 — Télécharger Ollama
Rendez-vous sur ollama.com, cliquez sur « Download ». L’installateur est disponible pour Windows, macOS et Linux. Le fichier pèse environ 500 Mo. Installation classique : suivant, suivant, terminer. Aucune configuration requise à ce stade.
Étape 2 — Ouvrir un terminal et lancer votre premier modèle
Ouvrez PowerShell (Windows) ou le Terminal (Mac/Linux). Tapez :
ollama run mistral
Ollama télécharge automatiquement le modèle Mistral 7B (~4 Go). Premier lancement : 3 à 8 minutes selon votre connexion. Ensuite, le modèle est en cache local — les lancements suivants prennent 5 à 15 secondes.
Dès que le prompt >>> apparaît, vous pouvez taper votre première question. Le modèle répond directement dans le terminal.
Étape 3 — Explorer les modèles disponibles
Pour voir tous les modèles disponibles : ollama list
Pour en télécharger un nouveau : ollama pull llama3
Pour supprimer un modèle (libérer de l’espace) : ollama rm nom-du-modele
La bibliothèque complète est consultable sur ollama.com/library — plus de 100 modèles indexés avec leur taille et leurs spécialités.
Pour comprendre les différences entre ces modèles et la terminologie associée (tokens, paramètres, quantization), consultez notre article LLM, GPT, tokens : les termes IA expliqués simplement. C’est le complément naturel à ce guide technique.
Résultats détaillés : scores par critère
| Critère |
Mistral 7B |
Llama 3 8B |
Phi-3 Mini |
| Vitesse de réponse |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| Qualité rédaction FR |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐ |
| Génération de code |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
| RAM consommée |
~5 Go |
~6 Go |
~3 Go |
| Idéal pour |
Usage général |
Code & analyse |
PC modestes |
Note importante : sans GPU dédié, les modèles tournent sur CPU. C’est fonctionnel mais lent — comptez 5 à 20 secondes par réponse selon la longueur. Avec un GPU NVIDIA ou AMD récent, les réponses sont quasi-instantanées.
Ce qui fonctionne bien — et ce qui déçoit
Points forts
- Confidentialité totale : aucune donnée ne quitte votre machine. Idéal pour les documents sensibles, les données clients, le code propriétaire.
- Zéro abonnement : pas de limite de tokens, pas de quota mensuel, pas de coupure à 23h.
- Installation vraiment simple : trois commandes suffisent pour être opérationnel.
- API locale intégrée : Ollama expose automatiquement une API REST sur
localhost:11434, compatible avec n’importe quelle app qui supporte OpenAI (Open WebUI, Continue.dev, etc.).
- Mise à jour des modèles facile :
ollama pull nom-du-modele suffit.
Points faibles
- Performances bridées sans GPU : sur CPU seul, la latence est frustrante pour un usage intensif.
- Pas de multimodal natif : les modèles vision (LLaVA) sont disponibles mais moins stables.
- Qualité en retrait vs GPT-4 ou Claude : sur des tâches complexes — raisonnement long, nuances stylistiques — les LLM locaux 7B restent en dessous des modèles cloud haut de gamme.
- Interface terminal uniquement par défaut : il faut installer Open WebUI séparément pour avoir une interface graphique comparable à ChatGPT.
Pour qui c’est adapté — et pour qui ça ne l’est pas
Ollama est fait pour vous si :
- Vous travaillez avec des données confidentielles (juridique, médical, RH)
- Vous êtes développeur et voulez intégrer un LLM dans vos projets sans dépendre d’une API externe payante
- Vous voulez comprendre concrètement comment fonctionnent les LLM — pas en théorie, en les touchant
- Vous avez une connexion internet instable ou travaillez souvent hors ligne
Ollama n’est probablement pas adapté si :
- Vous avez besoin des meilleures performances absolues (restez sur ChatGPT, Claude ou Gemini)
- Votre PC a moins de 8 Go de RAM — l’expérience sera vraiment dégradée
- Vous cherchez une solution clé en main sans ligne de commande
Pour aller plus loin sur la culture IA et mieux situer Ollama dans l’écosystème, le Lexique & Culture de l’IA — Guide Complet vous donnera les bases conceptuelles qui manquent souvent quand on commence à explorer ces outils.
FAQ — Les questions que tout le monde se pose
Faut-il une connexion internet pour utiliser Ollama ?
Seulement pour télécharger les modèles la première fois. Une fois en cache local, tout fonctionne 100% hors ligne.
Ollama est-il gratuit ?
Complètement. C’est un projet open source sous licence MIT. Les modèles disponibles sont également gratuits — certains ont des licences d’usage à vérifier pour un usage commercial (Llama 3 notamment).
Quelle est la configuration minimum recommandée ?
8 Go de RAM minimum pour les modèles 7B. 16 Go pour être à l’aise. Un GPU dédié (NVIDIA avec CUDA ou AMD avec ROCm) multiplie la vitesse par 5 à 10 — mais reste optionnel.
Comment avoir une interface graphique avec Ollama ?
Installez Open WebUI (anciennement Ollama WebUI) via Docker. Vous obtenez une interface identique à ChatGPT, connectée à vos modèles locaux. Une commande Docker suffit à le lancer.
Verdict en 3 lignes
Ollama est l’outil le plus simple qui existe pour faire tourner des LLM en local — installation en 5 minutes, premier modèle en 10. Les performances sur machine grand public sont honnêtes pour un usage courant, sans atteindre le niveau des modèles cloud premium. Si la confidentialité ou l’indépendance aux APIs externes comptent pour vous, c’est le point de départ incontournable.