En un coup d'œil
Ollama est l'outil le plus simple pour faire tourner des modèles IA en local. Une commande dans le terminal, et Llama 3, Mistral ou Gemma s'exécutent sur votre machine — sans internet, sans coût, sans données envoyées à un tiers.
Qu'est-ce que c'est ?
Ollama est un gestionnaire de modèles IA open source qui simplifie radicalement l'installation et l'exécution de LLMs en local. Là où configurer Stable Diffusion ou llama.cpp demande des heures, Ollama réduit ça à une commande. Il gère automatiquement le téléchargement, la quantization et l'optimisation selon votre hardware.
Ce que ça fait vraiment
- Bibliothèque de modèles : plus de 100 modèles disponibles (Llama 3.3, Mistral, Gemma 2, Phi-4, Qwen, DeepSeek...)
- API locale : expose une API REST compatible OpenAI sur
localhost:11434 - Multimodal : certains modèles acceptent des images en entrée (LLaVA, Moondream)
- Pas d'internet requis : une fois téléchargé, fonctionne hors ligne
- GPU et CPU : optimisé pour Apple Silicon, NVIDIA et AMD
# Installation
curl -fsSL https://ollama.com/install.sh | sh
Lancer un modèle
ollama run llama3.3
Ou en API
curl http://localhost:11434/api/generate -d '{"model":"llama3.3","prompt":"Bonjour !"}'
Pour qui c'est fait ?
Développeurs qui veulent une API IA locale pour leurs projets, professionnels de secteurs sensibles (santé, droit, finance) qui ne peuvent pas envoyer de données sur des serveurs externes, makers qui construisent des assistants personnels offline.
Les limites à connaître
Les performances dépendent de votre matériel : un Mac M2 avec 16 Go de RAM fait tourner confortablement un modèle 7B. Pour les modèles 70B, il faut au minimum 64 Go de RAM ou un GPU NVIDIA avec 48 Go de VRAM. La qualité des modèles locaux reste légèrement inférieure à GPT-4o ou Claude 3.5 Sonnet sur les tâches complexes.
Comment démarrer
ollama run llama3.2 (modèle léger, ~2 Go)