Zero Mistral 24B
模型概述
這是一個改進版的大型語言模型,專注於俄語和英語的文本生成任務,具備良好的數學和推理能力,支持長達128k tokens的上下文處理。
模型特點
多語言支持
專門針對俄語和英語進行了優化,在兩種語言上表現優異
長上下文處理
支持長達128k tokens的上下文處理能力
數學推理能力
具備良好的數學計算和邏輯推理能力
純文本專注
移除了原版模型的視覺功能,專注於文本生成任務
模型能力
文本生成
對話系統
數學計算
邏輯推理
多語言處理
使用案例
教育
數學問題解答
幫助學生解答數學問題,提供詳細的解題步驟
在MathLogicQA測試中獲得0.613的準確率
語言學習輔助
作為俄語和英語學習的輔助工具
客戶服務
虛擬助手
作為多語言客戶服務的虛擬助手
在ruHHH測試中獲得0.916的準確率
🚀 Zero-Mistral-24B模型介紹
Zero-Mistral-24B 是 mistralai/Mistral-Small-3.1-24B-Instruct-2503 的改進版純文本模型,主要適用於俄語和英語。原始的Mistral模型包含視覺特性,而此模型移除了這些特性。該模型在訓練的SFT階段主要使用了 Big Russian Dataset 數據集以及 Shkolkovo.online 的專有數據集。
該模型具備良好的數學能力和一定的推理能力,並且保留了原始Mistral模型長達128k token的長上下文處理能力。
✨ 主要特性
- 語言適配:主要適配俄語和英語,滿足多語言場景需求。
- 功能優化:移除了原始模型的視覺特性,專注於文本處理。
- 能力突出:具備良好的數學能力和推理能力。
- 長上下文處理:保留了長達128k token的長上下文處理能力。
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
開發者 | ZeroAgency.ru |
資助方 | ZeroAgency.ru 和 Shkolkovo.online |
分享者 | Alexander Kozhevnikov(開發者) |
模型類型 | 大語言模型(LLM) |
語言(NLP) | 俄語、英語 |
許可證 | MIT |
微調基礎模型 | mistralai/Mistral-Small-3.1-24B-Instruct-2503 |
模型版本
- Merged 16-bit - 適用於transformers的原始16位合併版本。
- GGUF - 不同的GGUF版本:BF16、F16、Q8_0、Q6_K、Q4_K_M、IQ4_XS等。
主要16位合併版本的基準測試
MERA
MERA得分:0.623
任務 | 結果 | 指標 |
---|---|---|
LCS | 0.194 | 準確率 |
RCB | 0.607 / 0.592 | 平均F1值 / 準確率 |
USE | 0.452 | 等級規範 |
RWSD | 0.55 | 準確率 |
PARus | 0.942 | 準確率 |
ruTiE | 0.868 | 準確率 |
MultiQ | 0.781 / 0.629 | F1得分 / 精確匹配率(EM) |
CheGeKa | 0.397 / 0.322 | F1值 / 精確匹配率(EM) |
ruModAr | 0.971 | 精確匹配率(EM) |
MaMuRAMu | 0.832 | 準確率 |
ruMultiAr | 0.354 | 精確匹配率(EM) |
ruCodeEval | 0 / 0 / 0 | pass@k ¯\_(ツ)_/¯ |
MathLogicQA | 0.613 | 準確率 |
ruWorldTree | 0.987 / 0.987 | 平均F1值 / 準確率 |
ruOpenBookQA | 0.913 / 0.913 | 平均F1值 / 準確率 |
公開任務評估
任務 | 結果 | 指標 |
---|---|---|
BPS | 0.981 | 準確率 |
ruMMLU | 0.778 | 準確率 |
SimpleAr | 0.997 | 精確匹配率(EM) |
ruHumanEval | 0.006 / 0.006 / 0.006 | pass@k ¯\_(ツ)_/¯ |
ruHHH | 0.916 | 準確率 |
ruHateSpeech | 0.834 | 準確率 |
ruDetox | 0.341 / 0.843 / 0.624 / 0.66 | 總體平均得分(J) / 語義保留得分(SIM) / 自然度得分(FL) / 風格遷移準確率(STA) |
ruEthics | [[0.386, 0.399, 0.41, 0.333, 0.327], [0.421, 0.427, 0.452, 0.375, 0.363], [0.653, 0.65, 0.697, 0.596, 0.573]] | 5個MCC值 |
💻 使用示例
基礎用法
該模型可以與以下框架一起使用:
推薦的系統提示
prompts = {
"generic": "你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。",
"think": """你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。
請按照以下格式回答:
<think>推理過程:...</think>
...""",
"task": "你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。請根據以下說明解決問題。不要道歉,不要進行對話。",
"task_think": """你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。請根據以下說明解決問題。不要道歉,不要進行對話。
請按照以下格式回答:
<think>推理過程:...</think>
...""",
"english_generic": """你是Mistral Small 3,一個由法國初創公司Mistral AI創建的大語言模型(LLM),該公司總部位於巴黎。
你的知識庫最後更新於2023年10月1日。當前日期是2025年1月30日。
當你不確定某些信息時,你會表明你沒有該信息,並且不會編造任何內容。
如果用戶的問題不明確、模糊或沒有提供足夠的上下文讓你準確回答問題,你不會立即嘗試回答,而是會請用戶澄清他們的請求(例如,“我附近有哪些好的餐廳?” => “你在哪裡?” 或 “下一班去東京的航班是什麼時候?” => “你從哪裡出發?”)""",
"english_think": """你是Mistral Small 3,一個由法國初創公司Mistral AI創建的大語言模型(LLM),該公司總部位於巴黎。
你的知識庫最後更新於2023年10月1日。當前日期是2025年1月30日。
當你不確定某些信息時,你會表明你沒有該信息,並且不會編造任何內容。
如果用戶的問題不明確、模糊或沒有提供足夠的上下文讓你準確回答問題,你不會立即嘗試回答,而是會請用戶澄清他們的請求(例如,“我附近有哪些好的餐廳?” => “你在哪裡?” 或 “下一班去東京的航班是什麼時候?” => “你從哪裡出發?”)
請按照以下格式回答:
<think>推理過程:...</think>
"""
}
高級用法
vLLM
我們建議使用 vLLM庫 來實現生產就緒的推理管道。
⚠️ 重要提示
- 建議使用相對較低的溫度,例如
temperature=0.15
。- 確保為模型添加系統提示,以最好地滿足你的需求。如果你想將模型用作通用助手,建議使用以下系統提示:
system_prompt = """你是Mistral Small 3,一個由法國初創公司Mistral AI創建的大語言模型(LLM),該公司總部位於巴黎。
你的知識庫最後更新於2023年10月1日。當前日期是2025年1月30日。
當你不確定某些信息時,你會表明你沒有該信息,並且不會編造任何內容。
如果用戶的問題不明確、模糊或沒有提供足夠的上下文讓你準確回答問題,你不會立即嘗試回答,而是會請用戶澄清他們的請求(例如,“我附近有哪些好的餐廳?” => “你在哪裡?” 或 “下一班去東京的航班是什麼時候?” => “你從哪裡出發?”)"""
- 為了獲得更好的性能,建議使用flash_attn或flashinfer-python。
安裝
確保安裝 vLLM >= 0.8.4
:
pip install --upgrade vllm
同時確保安裝了 mistral_common >= 1.5.4
:
pip install --upgrade mistral_common
你也可以使用現成的 docker鏡像 或在 docker hub 上的鏡像。
服務器模式
建議在服務器/客戶端設置中使用ZeroAgency/Zero-Mistral-24B。
- 啟動服務器:
vllm serveZeroAgency/Zero-Mistral-24B --enable-prefix-caching --dtype bfloat16 --max-model-len 32768 --tool-call-parser mistral --enable-auto-tool-choice
⚠️ 重要提示
在GPU上運行Zero-Mistral-24B需要約55GB的GPU顯存(bf16或fp16)。
- 可以使用以下簡單的Python代碼片段來測試客戶端:
import requests
import json
from datetime import datetime, timedelta
url = "http://<your-server>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}
model = "ZeroAgency/Zero-Mistral-24B"
messages = [
{
"role": "system",
"content": """你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。請根據以下說明解決問題。不要道歉,不要進行對話。
請按照以下格式回答:
<think>推理過程:...</think>
..."""
},
{ # 來自 https://3.shkolkovo.online/catalog/2552/93150 的任務
"role": "user",
"content": """第一個工人每小時比第二個工人多做9個零件,並且完成一個包含216個零件的訂單比第二個工人快4個小時。第一個工人每小時做多少個零件?"""
}
]
data = {"model": model, "messages": messages}
response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])
#<think> 設第二個工人每小時做x個零件。那麼第一個工人每小時做x + 9個零件。列出表格:第一個工人 第二個工人 每小時零件數 x + 9 x 小時數 216 : (x + 9) 216 : x 小時數差值 4 216 : (x + 9) − 216 : x = 4 216x − 216(x + 9) = 4x(x + 9) 216x − 216x − 1944 = 4x^2 + 36x 1944 = 4x^2 + 36x 4x^2 + 36x − 1944 = 0 D = 36^2 + 4 · 4 · 1944 = 1296 + 31104 = 32400 = 180^2 x1 = −36 + 180 : 8 = 144 : 8 = 18 x2 = −36 − 180 : 8 < 0 — 不符合問題的實際意義。那麼第一個工人每小時做18 + 9 = 27個零件。 </think>
離線模式
from vllm import LLM
from vllm.sampling_params import SamplingParams
from datetime import datetime, timedelta
# 注意:在GPU上運行此模型需要超過60GB的GPU顯存
llm = LLM(model="ZeroAgency/Zero-Mistral-24B", tokenizer_mode="mistral", tensor_parallel_size=8)
SYSTEM_PROMPT = """你是一個虛擬助手。你回答人們的問題,幫助並支持他們。你被設計為有用、無害且誠實。你用提問者所使用的語言或用戶要求的語言進行回答。
請按照以下格式回答:
<think>推理過程:...</think>
..."""
user_prompt = """9.9和9.11哪個更大?"""
messages = [
{
"role": "system",
"content": SYSTEM_PROMPT
},
{
"role": "user",
"content": user_prompt
}
]
sampling_params = SamplingParams(max_tokens=512, temperature=0.0, top_p=1, top_k=-1)
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
#<think> 問題:比較9.9和9.11,確定哪個更大 方法:對齊小數點進行小數比較 難度:低到中等 我需要仔細對齊小數點並按位比較數字。 1. 對齊小數點:9.90 9.11 2. 比較整數部分:兩者都是9,所以相等 3. 比較十分位:9.90的十分位是9,9.11的十分位是1 9 > 1,所以9.90更大 4. 比較百分位:9.90的百分位是0,9.11的百分位是1 0 < 1,但這無關緊要,因為十分位已經確定了較大的數字<reflection>我正確地對齊了小數點並按位比較了數字。我注意到十分位(9比1)確定了9.9大於9.11。百分位對於這個比較不是必需的。</reflection> <self_improvement>在未來的比較中,我將優先關注有差異的最左邊的數字,以優化比較過程。</self_improvement> </think> 9.9大於9.11。當比較小數時,你從整數部分開始,然後到十分位、百分位等等。在這種情況下,9.9的十分位是9,而9.11的十分位是1。因為9 > 1,所以9.9大於9.11。
Transformers
如果你想使用Hugging Face的transformers庫來生成文本,可以這樣做:
from transformers import pipeline
import torch
messages = [
{"role": "user", "content": "9.9和9.11哪個更大?"}
]
chatbot = pipeline("text-generation", model="ZeroAgency/Zero-Mistral-24B", max_new_tokens=256, torch_dtype=torch.bfloat16)
response = chatbot(messages, temperature=0.1)
print(response[0]['generated_text'][1]['content'])
# 9.9大於9.11。
llama-server
你可以運行llama-server - 一個與OpenAI兼容的服務器,用於服務模型的 GGUF版本。
使用docker容器運行的示例:
docker run --gpus all -v `pwd`:/mnt -p8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -fa --port 8000 --host 0.0.0.0 --temp 0.0 --jinja -ngl 100 --api-key DUMMY-API-KEY -m /mnt/Zero-Mistral-24B-Q4_K_M_L.gguf
🔧 技術細節
碳排放可以使用 Lacoste等人(2019) 提出的 機器學習影響計算器 進行估算。
屬性 | 詳情 |
---|---|
硬件類型 | 8x H200 |
使用時長 | 29.5小時 |
雲服務提供商 | Runpod |
計算區域 | US-DE |
碳排放 | ¯\_(ツ)_/¯ |
📄 許可證
本模型使用MIT許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98