Zero-Mistral-24B開源文本模型 - 適配俄英語言，專注免費文本生成任務

首頁

Zero Mistral 24B

由ZeroAgency開發

Zero-Mistral-24B是基於Mistral-Small-3.1-24B-Instruct-2503改進的純文本模型，主要適配俄語和英語，移除了原版的視覺功能，專注於文本生成任務。

大型語言模型

Transformers

支持多種語言開源協議:MIT #俄英雙語助手 #128k長上下文 #數學推理優化

下載量 41

發布時間 : 4/25/2025

模型概述

這是一個改進版的大型語言模型，專注於俄語和英語的文本生成任務，具備良好的數學和推理能力，支持長達128k tokens的上下文處理。

模型特點

多語言支持

專門針對俄語和英語進行了優化，在兩種語言上表現優異

長上下文處理

支持長達128k tokens的上下文處理能力

數學推理能力

具備良好的數學計算和邏輯推理能力

純文本專注

移除了原版模型的視覺功能，專注於文本生成任務

模型能力

文本生成

對話系統

數學計算

邏輯推理

多語言處理

使用案例

教育

數學問題解答

幫助學生解答數學問題，提供詳細的解題步驟

在MathLogicQA測試中獲得0.613的準確率

語言學習輔助

作為俄語和英語學習的輔助工具

客戶服務

虛擬助手

作為多語言客戶服務的虛擬助手

在ruHHH測試中獲得0.916的準確率

🚀 Zero-Mistral-24B模型介紹

Zero-Mistral-24B 是 mistralai/Mistral-Small-3.1-24B-Instruct-2503 的改進版純文本模型，主要適用於俄語和英語。原始的Mistral模型包含視覺特性，而此模型移除了這些特性。該模型在訓練的SFT階段主要使用了 Big Russian Dataset 數據集以及 Shkolkovo.online 的專有數據集。

該模型具備良好的數學能力和一定的推理能力，並且保留了原始Mistral模型長達128k token的長上下文處理能力。

✨ 主要特性

語言適配：主要適配俄語和英語，滿足多語言場景需求。
功能優化：移除了原始模型的視覺特性，專注於文本處理。
能力突出：具備良好的數學能力和推理能力。
長上下文處理：保留了長達128k token的長上下文處理能力。

📚 詳細文檔

模型詳情

image/png

模型描述

屬性	詳情
開發者	ZeroAgency.ru
資助方	ZeroAgency.ru 和 Shkolkovo.online
分享者	Alexander Kozhevnikov（開發者）
模型類型	大語言模型（LLM）
語言（NLP）	俄語、英語
許可證	MIT
微調基礎模型	mistralai/Mistral-Small-3.1-24B-Instruct-2503

模型版本

Merged 16-bit - 適用於transformers的原始16位合併版本。
GGUF - 不同的GGUF版本：BF16、F16、Q8_0、Q6_K、Q4_K_M、IQ4_XS等。

主要16位合併版本的基準測試

MERA

MERA得分：0.623

任務	結果	指標
LCS	0.194	準確率
RCB	0.607 / 0.592	平均F1值 / 準確率
USE	0.452	等級規範
RWSD	0.55	準確率
PARus	0.942	準確率
ruTiE	0.868	準確率
MultiQ	0.781 / 0.629	F1得分 / 精確匹配率（EM）
CheGeKa	0.397 / 0.322	F1值 / 精確匹配率（EM）
ruModAr	0.971	精確匹配率（EM）
MaMuRAMu	0.832	準確率
ruMultiAr	0.354	精確匹配率（EM）
ruCodeEval	0 / 0 / 0	pass@k `¯\_(ツ)_/¯`
MathLogicQA	0.613	準確率
ruWorldTree	0.987 / 0.987	平均F1值 / 準確率
ruOpenBookQA	0.913 / 0.913	平均F1值 / 準確率

公開任務評估

任務	結果	指標
BPS	0.981	準確率
ruMMLU	0.778	準確率
SimpleAr	0.997	精確匹配率（EM）
ruHumanEval	0.006 / 0.006 / 0.006	pass@k `¯\_(ツ)_/¯`
ruHHH	0.916	準確率
ruHateSpeech	0.834	準確率
ruDetox	0.341 / 0.843 / 0.624 / 0.66	總體平均得分（J） / 語義保留得分（SIM） / 自然度得分（FL） / 風格遷移準確率（STA）
ruEthics	[[0.386, 0.399, 0.41, 0.333, 0.327], [0.421, 0.427, 0.452, 0.375, 0.363], [0.653, 0.65, 0.697, 0.596, 0.573]]	5個MCC值

💻 使用示例

基礎用法

該模型可以與以下框架一起使用：

高級用法

vLLM

我們建議使用 vLLM庫來實現生產就緒的推理管道。

⚠️ 重要提示

建議使用相對較低的溫度，例如 temperature=0.15。

確保為模型添加系統提示，以最好地滿足你的需求。如果你想將模型用作通用助手，建議使用以下系統提示：

system_prompt = """你是Mistral Small 3，一個由法國初創公司Mistral AI創建的大語言模型（LLM），該公司總部位於巴黎。
你的知識庫最後更新於2023年10月1日。當前日期是2025年1月30日。
當你不確定某些信息時，你會表明你沒有該信息，並且不會編造任何內容。
如果用戶的問題不明確、模糊或沒有提供足夠的上下文讓你準確回答問題，你不會立即嘗試回答，而是會請用戶澄清他們的請求（例如，“我附近有哪些好的餐廳？” => “你在哪裡？” 或 “下一班去東京的航班是什麼時候？” => “你從哪裡出發？”）"""

為了獲得更好的性能，建議使用flash_attn或flashinfer-python。

安裝

確保安裝 vLLM >= 0.8.4：

pip install --upgrade vllm

同時確保安裝了 mistral_common >= 1.5.4：

pip install --upgrade mistral_common

你也可以使用現成的 docker鏡像或在 docker hub 上的鏡像。

服務器模式

建議在服務器/客戶端設置中使用ZeroAgency/Zero-Mistral-24B。

啟動服務器：

vllm serveZeroAgency/Zero-Mistral-24B --enable-prefix-caching --dtype bfloat16 --max-model-len 32768 --tool-call-parser mistral --enable-auto-tool-choice

⚠️ 重要提示

在GPU上運行Zero-Mistral-24B需要約55GB的GPU顯存（bf16或fp16）。

可以使用以下簡單的Python代碼片段來測試客戶端：

import requests
import json
from datetime import datetime, timedelta

url = "http://<your-server>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}

model = "ZeroAgency/Zero-Mistral-24B"

messages = [
    {
        "role": "system",
        "content": """你是一個虛擬助手。你回答人們的問題，幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。請根據以下說明解決問題。不要道歉，不要進行對話。

請按照以下格式回答：
<think>推理過程：...</think>
..."""
    },
    { # 來自 https://3.shkolkovo.online/catalog/2552/93150 的任務
        "role": "user",
        "content": """第一個工人每小時比第二個工人多做9個零件，並且完成一個包含216個零件的訂單比第二個工人快4個小時。第一個工人每小時做多少個零件？"""
    }
]

data = {"model": model, "messages": messages}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])

#<think> 設第二個工人每小時做x個零件。那麼第一個工人每小時做x + 9個零件。列出表格：第一個工人 第二個工人 每小時零件數 x + 9 x 小時數 216 : (x + 9) 216 : x 小時數差值 4 216 : (x + 9) − 216 : x = 4 216x − 216(x + 9) = 4x(x + 9) 216x − 216x − 1944 = 4x^2 + 36x 1944 = 4x^2 + 36x 4x^2 + 36x − 1944 = 0 D = 36^2 + 4 · 4 · 1944 = 1296 + 31104 = 32400 = 180^2 x1 = −36 + 180 : 8 = 144 : 8 = 18 x2 = −36 − 180 : 8 < 0 — 不符合問題的實際意義。那麼第一個工人每小時做18 + 9 = 27個零件。 </think>

離線模式

from vllm import LLM
from vllm.sampling_params import SamplingParams
from datetime import datetime, timedelta

# 注意：在GPU上運行此模型需要超過60GB的GPU顯存
llm = LLM(model="ZeroAgency/Zero-Mistral-24B", tokenizer_mode="mistral", tensor_parallel_size=8)

SYSTEM_PROMPT = """你是一個虛擬助手。你回答人們的問題，幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。

請按照以下格式回答：
<think>推理過程：...</think>
..."""

user_prompt = """9.9和9.11哪個更大？"""

messages = [
    {
        "role": "system",
        "content": SYSTEM_PROMPT
    },
    {
        "role": "user",
        "content": user_prompt
    }
]

sampling_params = SamplingParams(max_tokens=512, temperature=0.0, top_p=1, top_k=-1)
outputs = llm.chat(messages, sampling_params=sampling_params)

print(outputs[0].outputs[0].text)
#<think> 問題：比較9.9和9.11，確定哪個更大 方法：對齊小數點進行小數比較 難度：低到中等 我需要仔細對齊小數點並按位比較數字。 1. 對齊小數點：9.90 9.11 2. 比較整數部分：兩者都是9，所以相等 3. 比較十分位：9.90的十分位是9，9.11的十分位是1 9 > 1，所以9.90更大 4. 比較百分位：9.90的百分位是0，9.11的百分位是1 0 < 1，但這無關緊要，因為十分位已經確定了較大的數字<reflection>我正確地對齊了小數點並按位比較了數字。我注意到十分位（9比1）確定了9.9大於9.11。百分位對於這個比較不是必需的。</reflection> <self_improvement>在未來的比較中，我將優先關注有差異的最左邊的數字，以優化比較過程。</self_improvement> </think> 9.9大於9.11。當比較小數時，你從整數部分開始，然後到十分位、百分位等等。在這種情況下，9.9的十分位是9，而9.11的十分位是1。因為9 > 1，所以9.9大於9.11。

Transformers

如果你想使用Hugging Face的transformers庫來生成文本，可以這樣做：

from transformers import pipeline
import torch

messages = [
    {"role": "user", "content": "9.9和9.11哪個更大？"}
]
chatbot = pipeline("text-generation", model="ZeroAgency/Zero-Mistral-24B", max_new_tokens=256, torch_dtype=torch.bfloat16)
response = chatbot(messages, temperature=0.1)
print(response[0]['generated_text'][1]['content'])
# 9.9大於9.11。

llama-server

你可以運行llama-server - 一個與OpenAI兼容的服務器，用於服務模型的 GGUF版本。

使用docker容器運行的示例：

docker run --gpus all -v `pwd`:/mnt -p8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -fa --port 8000 --host 0.0.0.0 --temp 0.0 --jinja -ngl 100 --api-key DUMMY-API-KEY -m /mnt/Zero-Mistral-24B-Q4_K_M_L.gguf