Zero Mistral 24B
Zero-Mistral-24BはMistral-Small-3.1-24B-Instruct-2503を改良した純粋なテキストモデルで、主にロシア語と英語に適応し、元の視覚機能を削除し、テキスト生成タスクに焦点を当てています。
ダウンロード数 41
リリース時間 : 4/25/2025
モデル概要
これは改良版の大規模言語モデルで、ロシア語と英語のテキスト生成タスクに特化し、優れた数学と推論能力を備え、最大128kトークンのコンテキスト処理をサポートします。
モデル特徴
多言語サポート
ロシア語と英語に特化して最適化され、両言語で優れたパフォーマンスを発揮
長文コンテキスト処理
最大128kトークンのコンテキスト処理能力をサポート
数学推論能力
優れた数学計算と論理的推論能力を備えている
純粋テキスト特化
元のモデルの視覚機能を削除し、テキスト生成タスクに集中
モデル能力
テキスト生成
対話システム
数学計算
論理的推論
多言語処理
使用事例
教育
数学問題解答
学生の数学問題を解答し、詳細な解法ステップを提供
MathLogicQAテストで0.613の精度を獲得
言語学習支援
ロシア語と英語学習の補助ツールとして
カスタマーサービス
仮想アシスタント
多言語カスタマーサービスの仮想アシスタントとして
ruHHHテストで0.916の精度を獲得
🚀 Zero-Mistral-24B
Zero-Mistral-24B は、mistralai/Mistral-Small-3.1-24B-Instruct-2503 の改良版のテキスト専用バージョンです。主にロシア語と英語に適応されています。元のMistralモデルに含まれるビジョン機能はこのモデルから削除されています。トレーニングには、主に Big Russian Dataset データセットと Shkolkovo.online の独自データセットを使用したSFT段階が含まれています。
このモデルは、良好な数学能力とある程度の推論能力を持っています。また、元のMistralの長文脈対応能力を最大128kトークンまで維持しています。
🚀 クイックスタート
このモデルは、以下のフレームワークで使用できます。
✨ 主な機能
- ロシア語と英語に最適化されたテキスト生成
- 良好な数学能力と推論能力
- 最大128kトークンの長文脈対応
📦 インストール
vLLMを使用する場合
以下のバージョンのインストールを確認してください。
pip install --upgrade vllm
pip install --upgrade mistral_common
また、dockerイメージ や docker hub を利用することもできます。
💻 使用例
推奨されるシステムプロンプト
prompts = {
"generic": "あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。",
"think": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。
以下の形式で回答してください。
<think>Reasoning: ...</think>
...""",
"task": "あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。",
"task_think": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。
以下の形式で回答してください。
<think>Reasoning: ...</think>
...""",
"english_generic": """You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
Your knowledge base was last updated on 2023-10-01. The current date is 2025-01-30.
When you're not sure about some information, you say that you don't have the information and don't make up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")
""",
"english_think": """You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
Your knowledge base was last updated on 2023-10-01. The current date is 2025-01-30.
When you're not sure about some information, you say that you don't have the information and don't make up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")
Answer in the following format:
<think>Reasoning: ...</think>
""",
}
vLLMの使用例
サーバーの起動
vllm serveZeroAgency/Zero-Mistral-24B --enable-prefix-caching --dtype bfloat16 --max-model-len 32768 --tool-call-parser mistral --enable-auto-tool-choice
注意:Zero-Mistral-24BをGPUで実行するには、bf16またはfp16で約55GBのGPU RAMが必要です。
クライアントからのリクエスト
import requests
import json
from datetime import datetime, timedelta
url = "http://<your-server>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}
model = "ZeroAgency/Zero-Mistral-24B"
messages = [
{
"role": "system",
"content": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。
以下の形式で回答してください。
<think>Reasoning: ...</think>
..."""
},
{ # Task from https://3.shkolkovo.online/catalog/2552/93150
"role": "user",
"content": """最初の労働者は1時間あたり、2番目の労働者よりも9個多くの部品を製造し、216個の部品からなる注文を、2番目の労働者が同じ注文を実行するよりも4時間早く完了します。最初の労働者は1時間あたり何個の部品を製造しますか?"""
},
]
data = {"model": model, "messages": messages}
response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])
#<think> 2番目の労働者が1時間あたり製造する部品の数をxとしましょう。すると、最初の労働者は1時間あたりx + 9個の部品を製造します。表を作成します。最初の労働者 2番目の労働者 1時間あたりの部品数 x + 9 x 時間数 216 : (x + 9) 216 : x 時間数の差 4 216 : (x + 9) − 216 : x = 4 216x − 216(x + 9) = 4x(x + 9) 216x − 216x − 1944 = 4x^2 + 36x 1944 = 4x^2 + 36x 4x^2 + 36x − 1944 = 0 D = 36^2 + 4 · 4 · 1944 = 1296 + 31104 = 32400 = 180^2 x1 = −36 + 180 : 8 = 144 : 8 = 18 x2 = −36 − 180 : 8 < 0 — 問題の意味からは適していません。すると、最初の労働者は18 + 9 = 27個の部品を1時間あたり製造します。 </think>
#27
オフラインでの使用
from vllm import LLM
from vllm.sampling_params import SamplingParams
from datetime import datetime, timedelta
# note that running this model on GPU requires over 60 GB of GPU RAM
llm = LLM(model="ZeroAgency/Zero-Mistral-24B", tokenizer_mode="mistral", tensor_parallel_size=8)
SYSTEM_PROMPT = """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。
以下の形式で回答してください。
<think>Reasoning: ...</think>
..."""
user_prompt = """9.9と9.11のどちらが大きいですか?"""
messages = [
{
"role": "system",
"content": SYSTEM_PROMPT
},
{
"role": "user",
"content": user_prompt
},
]
sampling_params = SamplingParams(max_tokens=512, temperature=0.0, top_p=1, top_k=-1)
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
#<think> 問題: 9.9と9.11を比較して、どちらが大きいかを判断する アプローチ: 小数点を揃えての小数比較 難易度: 低から中 私は小数点を正しく揃え、桁ごとに数字を比較する必要があります。 1. 小数点を揃える: 9.90 9.11 2. 整数部分を比較する: 両方とも9なので、等しい 3. 十分位を比較する: 9.90は9、9.11は1 9 > 1なので、9.90の方が大きい 4. 百分位を比較する: 9.90は0、9.11は1 0 < 1ですが、十分位ですでに大きい数が決まっているので、これは関係ありません<reflection>私は小数点を正しく揃え、桁ごとに数字を比較しました。十分位(9対1)が9.9が9.11よりも大きいことを決定したことに気づきました。百分位はこの比較には必要ありませんでした。</reflection> <self_improvement>将来の比較では、差がある最も左の数字に最初に注目して、比較プロセスを最適化します。</self_improvement> </think> 9.9は9.11よりも大きいです。小数を比較するときは、整数部分から始め、次に十分位、百分位などに移ります。この場合、9.9は十分位に9を持ち、一方、9.11は十分位に1を持ちます。9 > 1なので、9.9は9.11よりも大きいです。
Transformersの使用例
from transformers import pipeline
import torch
messages = [
{"role": "user", "content": "9.9と9.11のどちらが大きいですか?"},
]
chatbot = pipeline("text-generation", model="ZeroAgency/Zero-Mistral-24B", max_new_tokens=256, torch_dtype=torch.bfloat16)
response = chatbot(messages, temperature=0.1)
print(response[0]['generated_text'][1]['content'])
# 9.9は9.11よりも大きいです。
llama-serverの使用例
docker run --gpus all -v `pwd`:/mnt -p8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -fa --port 8000 --host 0.0.0.0 --temp 0.0 --jinja -ngl 100 --api-key DUMMY-API-KEY -m /mnt/Zero-Mistral-24B-Q4_K_M_L.gguf
📚 ドキュメント
モデルの詳細
モデルの説明
属性 | 详情 |
---|---|
開発元 | ZeroAgency.ru |
資金提供元 | ZeroAgency.ru と Shkolkovo.online |
共有者 | Alexander Kozhevnikov (開発者) |
モデルタイプ | LLM |
言語 | ロシア語、英語 |
ライセンス | MIT |
ファインチューニング元モデル | mistralai/Mistral-Small-3.1-24B-Instruct-2503 |
モデルのバージョン
- Merged 16-bit - transformers用の元の16bitマージバージョン
- GGUF - 様々なGGUFバージョン:BF16、F16、Q8_0、Q6_K、Q4_K_M、IQ4_XSなど
ベンチマーク
MERA
MERAスコア:0.623
タスク | 結果 | メトリック |
---|---|---|
LCS | 0.194 | 正解率 |
RCB | 0.607 / 0.592 | 平均F1値 / 正解率 |
USE | 0.452 | グレードノルム |
RWSD | 0.55 | 正解率 |
PARus | 0.942 | 正解率 |
ruTiE | 0.868 | 正解率 |
MultiQ | 0.781 / 0.629 | F1値/EM |
CheGeKa | 0.397 / 0.322 | F1値 / EM |
ruModAr | 0.971 | EM |
MaMuRAMu | 0.832 | 正解率 |
ruMultiAr | 0.354 | EM |
ruCodeEval | 0 / 0 / 0 | pass@k ¯\_(ツ)_/¯ |
MathLogicQA | 0.613 | 正解率 |
ruWorldTree | 0.987 / 0.987 | 平均F1値 / 正解率 |
ruOpenBookQA | 0.913 / 0.913 | 平均F1値 / 正解率 |
オープンタスクの評価
タスク | 結果 | メトリック |
---|---|---|
BPS | 0.981 | 正解率 |
ruMMLU | 0.778 | 正解率 |
SimpleAr | 0.997 | EM |
ruHumanEval | 0.006 / 0.006 / 0.006 | pass@k ¯\_(ツ)_/¯ |
ruHHH | 0.916 | 正解率 |
ruHateSpeech | 0.834 | 正解率 |
ruDetox | 0.341 / 0.843 / 0.624 / 0.66 | 総合平均評価 (J) / 意味の保持評価 (SIM) / 自然性評価 (FL) / スタイルの転送精度 (STA) |
ruEthics | [[0.386, 0.399, 0.41, 0.333, 0.327], [0.421, 0.427, 0.452, 0.375, 0.363], [0.653, 0.65, 0.697, 0.596, 0.573]] | 5 MCC |
🔧 技術詳細
このモデルは、元のMistralモデルからビジョン機能を削除し、主にロシア語と英語に最適化されたテキスト生成モデルです。トレーニングには、Big Russian Dataset データセットと Shkolkovo.online の独自データセットを使用したSFT段階が含まれています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98