本地部署 · 工程视角 · 少走弯路
Devstral 2 · 本地运行指南
这页只做一件事:让你用最短路径把 Devstral 跑起来,并且知道'该选哪个体量、该准备什么硬件'
开始之前(先省一次弯路)
建议
先看硬件建议,确定你要跑的是 24B 还是 123B;命名/别名相关问题统一收纳在FAQ。
硬件建议(先别浪费时间)
Devstral Small 2(更推荐个人开发者)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
系统
Linux / macOS(Apple Silicon 可量化)
目标:让你'开箱即用'而不是先折腾一周环境
Devstral 2(123B,更偏团队/服务器)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
用途
团队推理服务、重任务与长上下文
如果你现在只是想体验工作流,先从 24B 开始更划算
Ollama(最简单)
一条命令就跑起来
ollama run devstral-2模型库地址: https://ollama.com/library/devstral-2
什么时候适合用 Ollama?
- 你想最快验证'对不对味'
- 你更在意'一条命令起服务',而不是极限性能调参
- 你已经在团队里推广 Ollama 工作流
GGUF / llama.cpp(社区常用)
推荐流程(按你给的文案先照抄)
- 从 Hugging Face 下载 GGUF 量化模型
- 使用 llama.cpp / LM Studio / text-generation-webui
- 按项目调整线程/批大小/上下文窗口
推荐参数(起步用)
- temperature: 0.15
- context: 128k–256k
注:这不是'唯一正确答案',只是更稳的默认值