Локальное развёртывание · Инженерная перспектива · Избегайте обходных путей

Devstral 2 · Руководство по локальному развёртыванию

Эта страница делает одно дело: запускает Devstral кратчайшим путём, и даёт вам понять 'какую модель выбрать, какое оборудование подготовить'

Перед началом (Сначала сэкономьте время)

Предложение
Сначала проверьте рекомендации по оборудованию, чтобы определить, хотите ли вы запускать 24B или 123B; проблемы, связанные с именованием/псевдонимами, объединены вFAQ

Рекомендации по оборудованию (Сначала не тратьте время)

Devstral Small 2 (Более рекомендуется для личных разработчиков)
GPU
≥ 24GB VRAM(RTX 3090 / 4090 / L40)
RAM
≥ 32GB
Система
Linux / macOS(Apple Silicon можно квантизировать)

Цель: Позволить вам 'использовать из коробки' вместо недели борьбы с настройкой окружения

Devstral 2 (123B, больше для команд/серверов)
GPU
多卡 / ≥ 128GB VRAM(推理服务器级别)
Использование
Сервис вывода команды, тяжёлые задачи и длинный контекст

Если вы просто хотите опробовать рабочий процесс, начать с 24B более выгодно

Ollama (Самый простой)

Одна команда для запуска
ollama run devstral-2

Адрес библиотеки моделей: https://ollama.com/library/devstral-2

Когда подходит Ollama?
  • Вы хотите быстро проверить 'нравится ли вам'
  • Вы больше заботитесь о 'одной команде для запуска сервиса', чем об ultimate настройке производительности
  • Вы уже продвигаете рабочий процесс Ollama в своей команде

GGUF / llama.cpp (Общинный стандарт)

Рекомендуемый процесс (копируйте как есть на основе вашей копии)
  1. Скачать квантизированную модель GGUF с Hugging Face
  2. Использовать llama.cpp / LM Studio / text-generation-webui
  3. Настроить потоки/размер пакета/окно контекста в соответствии с проектом
Рекомендуемые параметры (для начала)
  • Temperature: 0.15
  • Context: 128k–256k

Примечание: Это не 'единственный правильный ответ', просто более стабильное значение по умолчанию

Devstral 2 · Локальный запуск (Оборудование и установка)