Lokal Distribution · Tekniskt Perspektiv · Undika Omvägar
Devstral 2 · Lokal Distributionsguide
Denna sida gör en sak: få Devstral att köra med kortaste vägen, och låta dig veta 'vilken modell att välja, vilken hårdvara att förbereda'
Innan Du Börjar (Spara Tid Först)
Förslag
Kontrollera först hårdvarurekommendationer för att bestämma om du vill köra 24B eller 123B; namn/alias-relaterade problem är unifierade iFAQ。
Hårdvarurekommendationer (Slösa Inte Tid Först)
Devstral Small 2 (Mer Rekommenderad för Personliga Utvecklare)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
System
Linux / macOS(Apple Silicon kan kvantiseras)
Mål: Låta dig 'använda direkt ur lådan' istället för att kämpa med miljösetup i en vecka
Devstral 2 (123B, Mer för Team/Servrar)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
Användning
Team inferenstjänst, tunga uppgifter och lång kontext
Om du bara vill uppleva workflowet, är det mer kostnadseffektivt att börja med 24B
Ollama (Enklast)
Ett kommando för att få det att köra
ollama run devstral-2Modellbiblioteksadress: https://ollama.com/library/devstral-2
När är Ollama lämpligt?
- Du vill snabbt verifiera 'om det känns rätt'
- Du bryr dig mer om 'ett kommando för att starta tjänsten' än yttersta prestandajustering
- Du redan främjar Ollama workflow i ditt team
GGUF / llama.cpp (Community Vanlig)
Rekommenderad Process (kopiera som baserat på din kopia)
- Ladda ner GGUF kvantiserad modell från Hugging Face
- Använd llama.cpp / LM Studio / text-generation-webui
- Justera trådar/batchstorlek/kontextfönster enligt projekt
Rekommenderade Parametrar (för start)
- Temperatur: 0.15
- Kontext: 128k–256k
Obs: Detta är inte 'det enda korrekta svaret', bara ett mer stabilt standardvärde