🚀 QVikhr-3-1.7B-Instruction-noreasoning
QVikhr-3-1.7B-Instruction-noreasoning 是一個基於 Qwen/Qwen3-1.7B 的指令模型,在俄語數據集 GrandMaster2 上進行訓練。它專為高效處理俄語和英語文本而設計,能夠提供精確的響應並快速執行任務。
🚀 快速開始
你可以點擊下面的鏈接在 Colab 中試用該模型:

✨ 主要特性
📦 量化變體
📊 Ru Arena 通用評分
模型 |
得分 |
95% 置信區間 |
平均令牌數 |
Vikhrmodels-QVikhr-3-1.7B-Instruction-noreasoning |
59.2 |
(-2.1, 1.8) |
1053 |
noresoning-Qwen3-1.7B |
51.9 |
(-1.9, 1.5) |
999 |
Qwen3-1.7B |
49.7 |
(-1.8, 1.9) |
1918 |
📚 詳細文檔
模型描述
QVikhr-3-1.7B-Instruction-noreasoning 是一個基於 GrandMaster-2 數據集訓練的強大語言模型。它在俄語的指令生成、上下文響應和文本分析方面表現出色。該模型針對指令任務和文本數據處理進行了優化,適用於專業用途以及集成到面向用戶的應用程序和服務中。
訓練方法
QVikhr-3-1.7B-Instruction-noreasoning 使用 SFT(監督微調)和 FFT(全量微調)方法進行開發,訓練數據集為 GrandMaster-2。
💻 使用示例
基礎用法
推薦生成溫度:0.3。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "這裡是輸入文本示例。"
messages = [
{"role": "user", "content": input_text},
]
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
input_ids,
max_length=1512,
temperature=0.3,
num_return_sequences=1,
no_repeat_ngram_size=2,
top_k=50,
top_p=0.95,
)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
模型響應示例
由於原文檔中的模型響應部分包含大量亂碼,無法準確翻譯和展示,你可以根據實際運行結果查看模型響應。
📄 許可證
本模型使用 Apache-2.0 許可證。
👥 作者
📝 引用方式
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={[https://arxiv.org/pdf/2405.13929](https://arxiv.org/pdf/2405.13929)}
}
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}