本地部署 · 工程视角 · 少走弯路

Devstral 2 · 本地运行指南

这页只做一件事:让你用最短路径把 Devstral 跑起来,并且知道'该选哪个体量、该准备什么硬件'

开始之前(先省一次弯路)

建议
先看硬件建议,确定你要跑的是 24B 还是 123B;命名/别名相关问题统一收纳在FAQ

硬件建议(先别浪费时间)

Devstral Small 2(更推荐个人开发者)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
系统
Linux / macOS(Apple Silicon 可量化)

目标:让你'开箱即用'而不是先折腾一周环境

Devstral 2(123B,更偏团队/服务器)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
用途
团队推理服务、重任务与长上下文

如果你现在只是想体验工作流,先从 24B 开始更划算

Ollama(最简单)

一条命令就跑起来
ollama run devstral-2

模型库地址: https://ollama.com/library/devstral-2

什么时候适合用 Ollama?
  • 你想最快验证'对不对味'
  • 你更在意'一条命令起服务',而不是极限性能调参
  • 你已经在团队里推广 Ollama 工作流

GGUF / llama.cpp(社区常用)

推荐流程(按你给的文案先照抄)
  1. 从 Hugging Face 下载 GGUF 量化模型
  2. 使用 llama.cpp / LM Studio / text-generation-webui
  3. 按项目调整线程/批大小/上下文窗口
推荐参数(起步用)
  • temperature: 0.15
  • context: 128k–256k

注:这不是'唯一正确答案',只是更稳的默认值

Devstral 2 · 本地运行指南(硬件与安装)