Zero - Mistral - 24Bオープンソーステキストモデル - ロシア語と英語に対応し、無料のテキスト生成タスクに特化

ホーム

Zero Mistral 24B

ZeroAgencyによって開発

Zero-Mistral-24BはMistral-Small-3.1-24B-Instruct-2503を改良した純粋なテキストモデルで、主にロシア語と英語に適応し、元の視覚機能を削除し、テキスト生成タスクに焦点を当てています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #ロシア語・英語バイリンガルアシスタント #128k長文コンテキスト #数学推論最適化

ダウンロード数 41

リリース時間 : 4/25/2025

モデル概要

これは改良版の大規模言語モデルで、ロシア語と英語のテキスト生成タスクに特化し、優れた数学と推論能力を備え、最大128kトークンのコンテキスト処理をサポートします。

モデル特徴

多言語サポート

ロシア語と英語に特化して最適化され、両言語で優れたパフォーマンスを発揮

長文コンテキスト処理

最大128kトークンのコンテキスト処理能力をサポート

数学推論能力

優れた数学計算と論理的推論能力を備えている

純粋テキスト特化

元のモデルの視覚機能を削除し、テキスト生成タスクに集中

モデル能力

テキスト生成

対話システム

数学計算

論理的推論

多言語処理

使用事例

教育

数学問題解答

学生の数学問題を解答し、詳細な解法ステップを提供

MathLogicQAテストで0.613の精度を獲得

言語学習支援

ロシア語と英語学習の補助ツールとして

カスタマーサービス

仮想アシスタント

多言語カスタマーサービスの仮想アシスタントとして

ruHHHテストで0.916の精度を獲得

🚀 Zero-Mistral-24B

Zero-Mistral-24B は、mistralai/Mistral-Small-3.1-24B-Instruct-2503 の改良版のテキスト専用バージョンです。主にロシア語と英語に適応されています。元のMistralモデルに含まれるビジョン機能はこのモデルから削除されています。トレーニングには、主に Big Russian Dataset データセットと Shkolkovo.online の独自データセットを使用したSFT段階が含まれています。

このモデルは、良好な数学能力とある程度の推論能力を持っています。また、元のMistralの長文脈対応能力を最大128kトークンまで維持しています。

🚀 クイックスタート

このモデルは、以下のフレームワークで使用できます。

vllm：こちらを参照
transformers：こちらを参照
llama.cpp：こちらを参照

✨ 主な機能

ロシア語と英語に最適化されたテキスト生成
良好な数学能力と推論能力
最大128kトークンの長文脈対応

📦 インストール

vLLMを使用する場合

以下のバージョンのインストールを確認してください。

vLLM >= 0.8.4

pip install --upgrade vllm

mistral_common >= 1.5.4

pip install --upgrade mistral_common

また、dockerイメージや docker hub を利用することもできます。

💻 使用例

推奨されるシステムプロンプト

prompts = {
    "generic": "あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。",
    "think": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。

以下の形式で回答してください。
<think>Reasoning: ...</think>
...""",
    "task": "あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。",
    "task_think": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。

以下の形式で回答してください。
<think>Reasoning: ...</think>
...""",
     "english_generic": """You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
Your knowledge base was last updated on 2023-10-01. The current date is 2025-01-30.
When you're not sure about some information, you say that you don't have the information and don't make up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")
""",
     "english_think": """You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
Your knowledge base was last updated on 2023-10-01. The current date is 2025-01-30.
When you're not sure about some information, you say that you don't have the information and don't make up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")

Answer in the following format:
<think>Reasoning: ...</think>
""",
}

vLLMの使用例

サーバーの起動

vllm serveZeroAgency/Zero-Mistral-24B --enable-prefix-caching --dtype bfloat16 --max-model-len 32768 --tool-call-parser mistral --enable-auto-tool-choice

注意：Zero-Mistral-24BをGPUで実行するには、bf16またはfp16で約55GBのGPU RAMが必要です。

クライアントからのリクエスト

import requests
import json
from datetime import datetime, timedelta

url = "http://<your-server>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}

model = "ZeroAgency/Zero-Mistral-24B"

messages = [
    {
        "role": "system",
        "content": """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。以下の指示に従って問題を解いてください。謝らず、会話を構築しないでください。

以下の形式で回答してください。
<think>Reasoning: ...</think>
..."""
    },
    { # Task from https://3.shkolkovo.online/catalog/2552/93150
        "role": "user",
        "content": """最初の労働者は1時間あたり、2番目の労働者よりも9個多くの部品を製造し、216個の部品からなる注文を、2番目の労働者が同じ注文を実行するよりも4時間早く完了します。最初の労働者は1時間あたり何個の部品を製造しますか？"""
    },
]

data = {"model": model, "messages": messages}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])

#<think> 2番目の労働者が1時間あたり製造する部品の数をxとしましょう。すると、最初の労働者は1時間あたりx + 9個の部品を製造します。表を作成します。最初の労働者 2番目の労働者 1時間あたりの部品数 x + 9 x 時間数 216 : (x + 9) 216 : x 時間数の差 4 216 : (x + 9) − 216 : x = 4 216x − 216(x + 9) = 4x(x + 9) 216x − 216x − 1944 = 4x^2 + 36x 1944 = 4x^2 + 36x 4x^2 + 36x − 1944 = 0 D = 36^2 + 4 · 4 · 1944 = 1296 + 31104 = 32400 = 180^2 x1 = −36 + 180 : 8 = 144 : 8 = 18 x2 = −36 − 180 : 8 < 0 — 問題の意味からは適していません。すると、最初の労働者は18 + 9 = 27個の部品を1時間あたり製造します。 </think>
#27

オフラインでの使用

from vllm import LLM
from vllm.sampling_params import SamplingParams
from datetime import datetime, timedelta


# note that running this model on GPU requires over 60 GB of GPU RAM
llm = LLM(model="ZeroAgency/Zero-Mistral-24B", tokenizer_mode="mistral", tensor_parallel_size=8)

SYSTEM_PROMPT = """あなたは仮想アシスタントです。人々の質問に答え、彼らを助け、サポートします。あなたは役立ち、無害で、正直であるために作成されました。あなたは質問がされた言語またはユーザーが要求した言語で答えます。

以下の形式で回答してください。
<think>Reasoning: ...</think>
..."""

user_prompt = """9.9と9.11のどちらが大きいですか？"""

messages = [
    {
        "role": "system",
        "content": SYSTEM_PROMPT
    },
    {
        "role": "user",
        "content": user_prompt
    },
]


sampling_params = SamplingParams(max_tokens=512, temperature=0.0, top_p=1, top_k=-1)
outputs = llm.chat(messages, sampling_params=sampling_params)


print(outputs[0].outputs[0].text)
#<think> 問題: 9.9と9.11を比較して、どちらが大きいかを判断する アプローチ: 小数点を揃えての小数比較 難易度: 低から中 私は小数点を正しく揃え、桁ごとに数字を比較する必要があります。 1. 小数点を揃える: 9.90 9.11 2. 整数部分を比較する: 両方とも9なので、等しい 3. 十分位を比較する: 9.90は9、9.11は1 9 > 1なので、9.90の方が大きい 4. 百分位を比較する: 9.90は0、9.11は1 0 < 1ですが、十分位ですでに大きい数が決まっているので、これは関係ありません<reflection>私は小数点を正しく揃え、桁ごとに数字を比較しました。十分位（9対1）が9.9が9.11よりも大きいことを決定したことに気づきました。百分位はこの比較には必要ありませんでした。</reflection> <self_improvement>将来の比較では、差がある最も左の数字に最初に注目して、比較プロセスを最適化します。</self_improvement> </think>  9.9は9.11よりも大きいです。小数を比較するときは、整数部分から始め、次に十分位、百分位などに移ります。この場合、9.9は十分位に9を持ち、一方、9.11は十分位に1を持ちます。9 > 1なので、9.9は9.11よりも大きいです。

Transformersの使用例

from transformers import pipeline
import torch

messages = [
    {"role": "user", "content": "9.9と9.11のどちらが大きいですか？"},
]
chatbot = pipeline("text-generation", model="ZeroAgency/Zero-Mistral-24B", max_new_tokens=256, torch_dtype=torch.bfloat16)
response = chatbot(messages, temperature=0.1)
print(response[0]['generated_text'][1]['content'])
# 9.9は9.11よりも大きいです。

llama-serverの使用例

docker run --gpus all -v `pwd`:/mnt -p8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -fa --port 8000 --host 0.0.0.0 --temp 0.0 --jinja -ngl 100 --api-key DUMMY-API-KEY -m /mnt/Zero-Mistral-24B-Q4_K_M_L.gguf

📚 ドキュメント

モデルの詳細

image/png

モデルの説明

属性	详情
開発元	ZeroAgency.ru
資金提供元	ZeroAgency.ru と Shkolkovo.online
共有者	Alexander Kozhevnikov (開発者)
モデルタイプ	LLM
言語	ロシア語、英語
ライセンス	MIT
ファインチューニング元モデル	mistralai/Mistral-Small-3.1-24B-Instruct-2503

モデルのバージョン

Merged 16-bit - transformers用の元の16bitマージバージョン
GGUF - 様々なGGUFバージョン：BF16、F16、Q8_0、Q6_K、Q4_K_M、IQ4_XSなど

ベンチマーク

MERA

MERAスコア：0.623

タスク	結果	メトリック
LCS	0.194	正解率
RCB	0.607 / 0.592	平均F1値 / 正解率
USE	0.452	グレードノルム
RWSD	0.55	正解率
PARus	0.942	正解率
ruTiE	0.868	正解率
MultiQ	0.781 / 0.629	F1値/EM
CheGeKa	0.397 / 0.322	F1値 / EM
ruModAr	0.971	EM
MaMuRAMu	0.832	正解率
ruMultiAr	0.354	EM
ruCodeEval	0 / 0 / 0	pass@k `¯\_(ツ)_/¯`
MathLogicQA	0.613	正解率
ruWorldTree	0.987 / 0.987	平均F1値 / 正解率
ruOpenBookQA	0.913 / 0.913	平均F1値 / 正解率

オープンタスクの評価

タスク	結果	メトリック
BPS	0.981	正解率
ruMMLU	0.778	正解率
SimpleAr	0.997	EM
ruHumanEval	0.006 / 0.006 / 0.006	pass@k `¯\_(ツ)_/¯`
ruHHH	0.916	正解率
ruHateSpeech	0.834	正解率
ruDetox	0.341 / 0.843 / 0.624 / 0.66	総合平均評価 (J) / 意味の保持評価 (SIM) / 自然性評価 (FL) / スタイルの転送精度 (STA)
ruEthics	[[0.386, 0.399, 0.41, 0.333, 0.327], [0.421, 0.427, 0.452, 0.375, 0.363], [0.653, 0.65, 0.697, 0.596, 0.573]]	5 MCC