Lokal Distribution · Tekniskt Perspektiv · Undika Omvägar

Devstral 2 · Lokal Distributionsguide

Denna sida gör en sak: få Devstral att köra med kortaste vägen, och låta dig veta 'vilken modell att välja, vilken hårdvara att förbereda'

Innan Du Börjar (Spara Tid Först)

Förslag
Kontrollera först hårdvarurekommendationer för att bestämma om du vill köra 24B eller 123B; namn/alias-relaterade problem är unifierade iFAQ

Hårdvarurekommendationer (Slösa Inte Tid Först)

Devstral Small 2 (Mer Rekommenderad för Personliga Utvecklare)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
System
Linux / macOS(Apple Silicon kan kvantiseras)

Mål: Låta dig 'använda direkt ur lådan' istället för att kämpa med miljösetup i en vecka

Devstral 2 (123B, Mer för Team/Servrar)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
Användning
Team inferenstjänst, tunga uppgifter och lång kontext

Om du bara vill uppleva workflowet, är det mer kostnadseffektivt att börja med 24B

Ollama (Enklast)

Ett kommando för att få det att köra
ollama run devstral-2

Modellbiblioteksadress: https://ollama.com/library/devstral-2

När är Ollama lämpligt?
  • Du vill snabbt verifiera 'om det känns rätt'
  • Du bryr dig mer om 'ett kommando för att starta tjänsten' än yttersta prestandajustering
  • Du redan främjar Ollama workflow i ditt team

GGUF / llama.cpp (Community Vanlig)

Rekommenderad Process (kopiera som baserat på din kopia)
  1. Ladda ner GGUF kvantiserad modell från Hugging Face
  2. Använd llama.cpp / LM Studio / text-generation-webui
  3. Justera trådar/batchstorlek/kontextfönster enligt projekt
Rekommenderade Parametrar (för start)
  • Temperatur: 0.15
  • Kontext: 128k–256k

Obs: Detta är inte 'det enda korrekta svaret', bara ett mer stabilt standardvärde

Devstral 2 · Lokal Körning (Hårdvara & Installation)