Devstral-Small-2505-FP8-dynamic开源模型 - 助力软件工程，支持代码探索与编辑

首页

Devstral Small 2505 FP8 Dynamic

由 nm-testing 开发

Devstral是一款专为软件工程任务打造的智能大语言模型，由Mistral AI和All Hands AI合作开发，擅长代码探索、编辑和软件工程智能体支持。

大型语言模型

Safetensors

支持多种语言开源协议:Apache-2.0 #智能编码助手 #128K长上下文 #SWE-Bench领先

下载量 748

发布时间 : 5/21/2025

模型简介

Devstral是基于Mistral-Small-3.1微调的智能编码模型，拥有128k token上下文窗口，专为软件工程任务设计，支持多种编程语言和开发场景。

模型特点

智能编码

专为智能编码任务设计，是软件工程智能体的理想选择

轻量级

仅240亿参数，可在单张RTX 4090显卡或配备32GB内存的Mac上运行

长上下文

拥有128k token的上下文窗口，适合处理大型代码库

开源许可

采用Apache 2.0许可证，允许商业和非商业用途的使用与修改

模型能力

代码生成

代码编辑

多文件处理

代码库探索

软件工程任务支持

编程问题解答

使用案例

软件开发

待办事项应用开发

构建基于FastAPI和React的待办事项列表应用

生成完整的前后端代码，包括数据库集成

代码重构

自动重构和优化现有代码

提高代码质量和可维护性

开发工具

智能编程助手

作为IDE插件提供代码建议和自动补全

提高开发效率

🚀 Devstral-Small-2505

Devstral是一款专为软件工程任务打造的智能大语言模型（LLM），由Mistral AI和All Hands AI合作开发🙌。它擅长借助工具探索代码库、编辑多个文件，并为软件工程智能体提供强大支持。该模型在SWE-bench基准测试中表现卓越，成为此基准测试排名第一的开源模型。

它基于Mistral-Small-3.1进行微调，因此拥有长达128k token的上下文窗口。作为一个仅处理文本的编码智能体，在从Mistral-Small-3.1微调之前，其视觉编码器已被移除。

对于有特殊需求（如更大上下文窗口、特定领域知识等）的企业，我们将推出超越Mistral AI社区贡献版本的商业模型。

您可以在我们的博客文章中了解更多关于Devstral的信息。

🚀 快速开始

使用LLMCompressor将模型量化为FP8-Dynamic。

vllm serve nm-testing/Devstral-Small-2505-FP8-dynamic --tokenizer_mode mistral

✨ 主要特性

智能编码：专为智能编码任务设计，是软件工程智能体的理想选择。
轻量级：仅240亿参数，体积小巧，可在单张RTX 4090显卡或配备32GB内存的Mac上运行，适合本地部署和设备端使用。
Apache 2.0许可证：开放许可，允许商业和非商业用途的使用与修改。
上下文窗口：拥有128k的上下文窗口。
分词器：采用Tekken分词器，词汇量达131k。

📊 基准测试结果

SWE-Bench

Devstral在SWE-Bench Verified测试中得分46.8%，比之前的开源最优模型高出6%。

模型	测试框架	SWE-Bench Verified (%)
Devstral	OpenHands Scaffold	46.8
GPT-4.1-mini	OpenAI Scaffold	23.6
Claude 3.5 Haiku	Anthropic Scaffold	40.6
SWE-smith-LM 32B	SWE-agent Scaffold	40.2

在相同的测试框架（OpenHands，由All Hands AI提供🙌）下进行评估时，Devstral的表现远超Deepseek-V3-0324和Qwen3 232B - A22B等更大的模型。

SWE Benchmark

📦 安装指南

API

按照这些说明创建Mistral账户并获取API密钥。

然后运行以下命令启动OpenHands Docker容器：

export MISTRAL_API_KEY=<MY_KEY>

docker pull docker.all-hands.dev/all-hands-ai/runtime:0.39-nikolaik

mkdir -p ~/.openhands-state && echo '{"language":"en","agent":"CodeActAgent","max_iterations":null,"security_analyzer":null,"confirmation_mode":false,"llm_model":"mistral/devstral-small-2505","llm_api_key":"'$MISTRAL_API_KEY'","remote_runtime_resource_factor":null,"github_token":null,"enable_default_condenser":true}' > ~/.openhands-state/settings.json

docker run -it --rm --pull=always \
    -e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.39-nikolaik \
    -e LOG_ALL_EVENTS=true \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v ~/.openhands-state:/.openhands-state \
    -p 3000:3000 \
    --add-host host.docker.internal:host-gateway \
    --name openhands-app \
    docker.all-hands.dev/all-hands-ai/openhands:0.39

本地推理

该模型也可以使用以下库进行部署：

vllm (推荐)：详情见此处
mistral-inference：详情见此处
transformers：详情见此处
LMStudio：详情见此处
ollama：详情见此处

OpenHands（推荐）

启动服务器部署Devstral-Small-2505

确保你已经按照上述说明启动了一个兼容OpenAI的服务器，如vLLM或Ollama。然后，你可以使用OpenHands与Devstral-Small-2505进行交互。

在本教程中，我们通过运行以下命令启动一个vLLM服务器：

vllm serve mistralai/Devstral-Small-2505 --tokenizer_mode mistral --config_format mistral --load_format mistral --tool-call-parser mistral --enable-auto-tool-choice --tensor-parallel-size 2

服务器地址应采用以下格式：http://<your-server-url>:8000/v1

启动OpenHands

你可以按照此处的说明安装OpenHands。

启动OpenHands最简单的方法是使用Docker镜像：

docker pull docker.all-hands.dev/all-hands-ai/runtime:0.38-nikolaik

docker run -it --rm --pull=always \
    -e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.38-nikolaik \
    -e LOG_ALL_EVENTS=true \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v ~/.openhands-state:/.openhands-state \
    -p 3000:3000 \
    --add-host host.docker.internal:host-gateway \
    --name openhands-app \
    docker.all-hands.dev/all-hands-ai/openhands:0.38

然后，你可以在http://localhost:3000访问OpenHands用户界面。

连接到服务器

访问OpenHands用户界面时，系统会提示你连接到服务器。你可以使用高级模式连接到之前启动的服务器。

填写以下字段：

自定义模型：openai/mistralai/Devstral-Small-2505
基础URL：http://<your-server-url>:8000/v1
API密钥：token（或者你启动服务器时使用的任何其他令牌）

使用由Devstral驱动的OpenHands

现在你可以通过开始新对话在OpenHands中使用Devstral Small。让我们来构建一个待办事项列表应用程序。

待办事项列表应用程序

让我们使用以下提示要求Devstral生成应用程序：

构建一个满足以下要求的待办事项列表应用程序：
- 使用FastAPI和React构建。
- 使其成为单页应用程序，具备以下功能：
  - 允许添加任务。
  - 允许删除任务。
  - 允许将任务标记为已完成。
  - 显示任务列表。
- 将任务存储在SQLite数据库中。

智能体提示

查看结果你应该会看到智能体构建应用程序，并能够查看它生成的代码。

如果它没有自动完成，你可以要求Devstral部署应用程序，或者手动进行部署，然后访问前端部署URL查看应用程序。

智能体工作应用程序界面

迭代现在你已经得到了第一个结果，可以通过要求智能体进行改进来进行迭代。例如，在生成的应用程序中，我们可以点击任务将其标记为已勾选，但添加一个复选框会提升用户体验。你还可以要求它添加编辑任务的功能，或者添加按状态过滤任务的功能。

享受使用Devstral Small和OpenHands进行开发的乐趣！

vLLM（推荐）

我们建议使用vLLM库来实现生产就绪的推理管道。

安装确保你安装了vLLM >= 0.8.5：

pip install vllm --upgrade

这样做应该会自动安装mistral_common >= 1.5.5。

要进行检查：

python -c "import mistral_common; print(mistral_common.__version__)"

你也可以使用现成的Docker镜像或从Docker Hub获取。

服务器

我们建议在服务器/客户端环境中使用Devstral。

启动服务器：

vllm serve mistralai/Devstral-Small-2505 --tokenizer_mode mistral --config_format mistral --load_format mistral --tool-call-parser mistral --enable-auto-tool-choice --tensor-parallel-size 2

你可以使用一个简单的Python代码片段来测试客户端。

import requests
import json
from huggingface_hub import hf_hub_download

url = "http://<your-server-url>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}

model = "mistralai/Devstral-Small-2505"

def load_system_prompt(repo_id: str, filename: str) -> str:
    file_path = hf_hub_download(repo_id=repo_id, filename=filename)
    with open(file_path, "r") as file:
        system_prompt = file.read()
    return system_prompt

SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")

messages = [
    {"role": "system", "content": SYSTEM_PROMPT},
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "<your-command>",
            },
        ],
    },
]

data = {"model": model, "messages": messages, "temperature": 0.15}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])

Mistral-inference

我们建议使用mistral-inference快速试用Devstral。

安装

确保安装了mistral_inference >= 1.6.0。

pip install mistral_inference --upgrade

下载

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', 'Devstral')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Devstral-Small-2505", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)

Python

你可以使用以下命令运行模型：

mistral-chat $HOME/mistral_models/Devstral --instruct --max_tokens 300

然后你可以输入任何你想要的提示。

Transformers

为了充分利用transformers库使用我们的模型，请确保安装了mistral-common >= 1.5.5以使用我们的分词器。

pip install mistral-common --upgrade

然后加载我们的分词器和模型并进行生成：

import torch

from mistral_common.protocol.instruct.messages import (
    SystemMessage, UserMessage
)
from mistral_common.protocol.instruct.request import ChatCompletionRequest
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.tokens.tokenizers.tekken import SpecialTokenPolicy
from huggingface_hub import hf_hub_download
from transformers import AutoModelForCausalLM

def load_system_prompt(repo_id: str, filename: str) -> str:
    file_path = hf_hub_download(repo_id=repo_id, filename=filename)
    with open(file_path, "r") as file:
        system_prompt = file.read()
    return system_prompt

model_id = "mistralai/Devstral-Small-2505"
tekken_file = hf_hub_download(repo_id=model_id, filename="tekken.json")
SYSTEM_PROMPT = load_system_prompt(model_id, "SYSTEM_PROMPT.txt")

tokenizer = MistralTokenizer.from_file(tekken_file)

model = AutoModelForCausalLM.from_pretrained(model_id)

tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            SystemMessage(content=SYSTEM_PROMPT),
            UserMessage(content="<your-command>"),
        ],
    )
)

output = model.generate(
    input_ids=torch.tensor([tokenized.tokens]),
    max_new_tokens=1000,
)[0]

decoded_output = tokenizer.decode(output[len(tokenized.tokens):])
print(decoded_output)

LMStudio

从Hugging Face下载权重：

pip install -U "huggingface_hub[cli]"
huggingface-cli download \
"mistralai/Devstral-Small-2505_gguf" \
--include "devstralQ4_K_M.gguf" \
--local-dir "mistralai/Devstral-Small-2505_gguf/"

你可以使用LMStudio在本地部署模型。

下载LM Studio并进行安装
安装lms cli ~/.lmstudio/bin/lms bootstrap
在bash终端中，在你下载模型检查点的目录（例如mistralai/Devstral-Small-2505_gguf）中运行lms import devstralQ4_K_M.gguf
打开LMStudio应用程序，点击终端图标进入开发者选项卡。点击选择要加载的模型，选择Devstral Q4 K M。切换状态按钮以启动模型，在设置中切换“在本地网络上服务”为开启状态。
在右侧选项卡中，你会看到一个API标识符（应该是devstralq4_k_m）和一个API地址。记录下这个地址，我们将在下一步使用。

启动Openhands 现在你可以使用Openhands与LM Studio提供的模型进行交互。使用Docker启动Openhands服务器：

docker pull docker.all-hands.dev/all-hands-ai/runtime:0.38-nikolaik
docker run -it --rm --pull=always \
    -e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.38-nikolaik \
    -e LOG_ALL_EVENTS=true \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v ~/.openhands-state:/.openhands-state \
    -p 3000:3000 \
    --add-host host.docker.internal:host-gateway \
    --name openhands-app \
    docker.all-hands.dev/all-hands-ai/openhands:0.38

点击第二行的“查看高级设置”。在新选项卡中，将高级模式切换为开启状态。将自定义模型设置为mistral/devstralq4_k_m，基础URL设置为我们在LM Studio中获取的API地址。将API密钥设置为dummy。点击保存更改。