Déploiement local · Perspective d'ingénierie · Éviter les détours

Devstral 2 · Guide de déploiement local

Cette page fait une chose : faire fonctionner Devstral avec le chemin le plus court, et vous laisser savoir 'quel modèle choisir, quel matériel préparer'

Avant de commencer (Économisez d'abord le temps)

Suggestion

Vérifiez d'abord les recommandations matérielles pour déterminer si vous voulez exécuter 24B ou 123B ; les problèmes liés au nommage/alias sont unifiés dans laFAQ。

Recommandations matérielles (Ne perdez pas d'abord le temps)

Devstral Small 2 (Plus recommandé pour les développeurs personnels)

GPU

≥ 24GB VRAM（RTX 3090 / 4090 / L40）

RAM

≥ 32GB

Système

Linux / macOS（Apple Silicon peut être quantifié）

Objectif : Vous laisser 'l'utiliser directement' au lieu de vous débattre avec la configuration de l'environnement pendant une semaine

Devstral 2 (123B, Plus pour équipes/serveurs)

GPU

多卡 / ≥ 128GB VRAM（推理服务器级别）

Usage

Service d'inférence d'équipe, tâches lourdes et contexte long

Si vous voulez juste expérimenter le workflow, commencer avec 24B est plus rentable

Ollama (Le plus simple)

Une commande pour le faire fonctionner

ollama run devstral-2

Adresse de la bibliothèque de modèles : https://ollama.com/library/devstral-2

Quand Ollama est-il adapté ?

Vous voulez vérifier rapidement 'si ça semble correct'
Vous vous souciez plus de 'une commande pour démarrer le service' que de l'optimisation ultime des performances
Vous promouvez déjà le workflow Ollama dans votre équipe

GGUF / llama.cpp (Communauté commune)

Processus recommandé (copiez tel quel basé sur votre copie)

Téléchargez le modèle quantifié GGUF depuis Hugging Face
Utilisez llama.cpp / LM Studio / text-generation-webui
Ajustez les threads/taille de lot/fenêtre de contexte selon le projet

Paramètres recommandés (pour commencer)

Température : 0.15
Contexte : 128k–256k

Note : Ce n'est pas 'la seule bonne réponse', juste une valeur par défaut plus stable