Déploiement local · Perspective d'ingénierie · Éviter les détours
Devstral 2 · Guide de déploiement local
Cette page fait une chose : faire fonctionner Devstral avec le chemin le plus court, et vous laisser savoir 'quel modèle choisir, quel matériel préparer'
Avant de commencer (Économisez d'abord le temps)
Suggestion
Vérifiez d'abord les recommandations matérielles pour déterminer si vous voulez exécuter 24B ou 123B ; les problèmes liés au nommage/alias sont unifiés dans laFAQ。
Recommandations matérielles (Ne perdez pas d'abord le temps)
Devstral Small 2 (Plus recommandé pour les développeurs personnels)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
Système
Linux / macOS(Apple Silicon peut être quantifié)
Objectif : Vous laisser 'l'utiliser directement' au lieu de vous débattre avec la configuration de l'environnement pendant une semaine
Devstral 2 (123B, Plus pour équipes/serveurs)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
Usage
Service d'inférence d'équipe, tâches lourdes et contexte long
Si vous voulez juste expérimenter le workflow, commencer avec 24B est plus rentable
Ollama (Le plus simple)
Une commande pour le faire fonctionner
ollama run devstral-2Adresse de la bibliothèque de modèles : https://ollama.com/library/devstral-2
Quand Ollama est-il adapté ?
- Vous voulez vérifier rapidement 'si ça semble correct'
- Vous vous souciez plus de 'une commande pour démarrer le service' que de l'optimisation ultime des performances
- Vous promouvez déjà le workflow Ollama dans votre équipe
GGUF / llama.cpp (Communauté commune)
Processus recommandé (copiez tel quel basé sur votre copie)
- Téléchargez le modèle quantifié GGUF depuis Hugging Face
- Utilisez llama.cpp / LM Studio / text-generation-webui
- Ajustez les threads/taille de lot/fenêtre de contexte selon le projet
Paramètres recommandés (pour commencer)
- Température : 0.15
- Contexte : 128k–256k
Note : Ce n'est pas 'la seule bonne réponse', juste une valeur par défaut plus stable