🚀 QVikhr-3-1.7B-Instruction-noreasoning
QVikhr-3-1.7B-Instruction-noreasoning 是一个基于 Qwen/Qwen3-1.7B 的指令模型,在俄语数据集 GrandMaster2 上进行训练。它专为高效处理俄语和英语文本而设计,能够提供精确的响应并快速执行任务。
🚀 快速开始
你可以点击下面的链接在 Colab 中试用该模型:

✨ 主要特性
📦 量化变体
📊 Ru Arena 通用评分
模型 |
得分 |
95% 置信区间 |
平均令牌数 |
Vikhrmodels-QVikhr-3-1.7B-Instruction-noreasoning |
59.2 |
(-2.1, 1.8) |
1053 |
noresoning-Qwen3-1.7B |
51.9 |
(-1.9, 1.5) |
999 |
Qwen3-1.7B |
49.7 |
(-1.8, 1.9) |
1918 |
📚 详细文档
模型描述
QVikhr-3-1.7B-Instruction-noreasoning 是一个基于 GrandMaster-2 数据集训练的强大语言模型。它在俄语的指令生成、上下文响应和文本分析方面表现出色。该模型针对指令任务和文本数据处理进行了优化,适用于专业用途以及集成到面向用户的应用程序和服务中。
训练方法
QVikhr-3-1.7B-Instruction-noreasoning 使用 SFT(监督微调)和 FFT(全量微调)方法进行开发,训练数据集为 GrandMaster-2。
💻 使用示例
基础用法
推荐生成温度:0.3。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "这里是输入文本示例。"
messages = [
{"role": "user", "content": input_text},
]
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
input_ids,
max_length=1512,
temperature=0.3,
num_return_sequences=1,
no_repeat_ngram_size=2,
top_k=50,
top_p=0.95,
)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
模型响应示例
由于原文档中的模型响应部分包含大量乱码,无法准确翻译和展示,你可以根据实际运行结果查看模型响应。
📄 许可证
本模型使用 Apache-2.0 许可证。
👥 作者
📝 引用方式
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={[https://arxiv.org/pdf/2405.13929](https://arxiv.org/pdf/2405.13929)}
}
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}