Локальное развёртывание · Инженерная перспектива · Избегайте обходных путей
Devstral 2 · Руководство по локальному развёртыванию
Эта страница делает одно дело: запускает Devstral кратчайшим путём, и даёт вам понять 'какую модель выбрать, какое оборудование подготовить'
Перед началом (Сначала сэкономьте время)
Предложение
Сначала проверьте рекомендации по оборудованию, чтобы определить, хотите ли вы запускать 24B или 123B; проблемы, связанные с именованием/псевдонимами, объединены вFAQ。
Рекомендации по оборудованию (Сначала не тратьте время)
Devstral Small 2 (Более рекомендуется для личных разработчиков)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
Система
Linux / macOS(Apple Silicon можно квантизировать)
Цель: Позволить вам 'использовать из коробки' вместо недели борьбы с настройкой окружения
Devstral 2 (123B, больше для команд/серверов)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
Использование
Сервис вывода команды, тяжёлые задачи и длинный контекст
Если вы просто хотите опробовать рабочий процесс, начать с 24B более выгодно
Ollama (Самый простой)
Одна команда для запуска
ollama run devstral-2Адрес библиотеки моделей: https://ollama.com/library/devstral-2
Когда подходит Ollama?
- Вы хотите быстро проверить 'нравится ли вам'
- Вы больше заботитесь о 'одной команде для запуска сервиса', чем об ultimate настройке производительности
- Вы уже продвигаете рабочий процесс Ollama в своей команде
GGUF / llama.cpp (Общинный стандарт)
Рекомендуемый процесс (копируйте как есть на основе вашей копии)
- Скачать квантизированную модель GGUF с Hugging Face
- Использовать llama.cpp / LM Studio / text-generation-webui
- Настроить потоки/размер пакета/окно контекста в соответствии с проектом
Рекомендуемые параметры (для начала)
- Temperature: 0.15
- Context: 128k–256k
Примечание: Это не 'единственный правильный ответ', просто более стабильное значение по умолчанию