🚀 Virtuoso-Medium-v2 (32B)
Virtuoso-Medium-v2 (32B) 是我们基于原始 Virtuoso-Medium 架构开发的下一代 320 亿参数语言模型。该版本从 Deepseek-v3 中提炼而来,利用了包含 50 亿 + 标记的扩展数据集的对数几率(logits)。与我们之前发布的模型相比,它在基准测试中取得了更高的分数(在某些任务中甚至超过了 Arcee-Nova 2024)。

🚀 快速开始
以下是使用 transformers
库的示例代码:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "arcee-ai/Virtuoso-Medium-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "Provide a concise summary of quantum entanglement."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 性能卓越:凭借更大的参数数量和更丰富的训练语料库,Virtuoso-Medium-v2 在多个基准测试(如 BBH、MMLU-PRO、MATH 等)中取得了高分。在特定任务中,它经常超越其他 300 亿 + 参数的模型,甚至一些 700 亿 + 参数的架构。
- 知识精准迁移:以 Deepseek-v3 作为教师模型,采用全对数几率级别的复制,确保更精确的知识迁移,包括在技术和科学查询、复杂代码生成、数学问题解决等方面的高级推理能力。
- 跨架构兼容性:初始集成 Deepseek-v3 分词器进行对数几率提取,最终使用 Qwen 分词器,并通过专门的“分词器手术”实现跨架构兼容性。
📦 安装指南
GGUF 量化模型
可在 此处 获取量化模型。
📚 详细文档
模型详情
属性 |
详情 |
架构基础 |
Qwen-2.5-32B |
参数数量 |
320 亿 |
分词器 |
初始集成 Deepseek-v3 分词器进行对数几率提取,最终使用 Qwen 分词器,并通过专门的“分词器手术”实现跨架构兼容性。 |
提炼数据 |
约 11 亿来自 Deepseek-v3 训练数据的标记/对数几率,之后使用专有的“融合合并”方法进行对数几率级别的提炼,以确保最大保真度。 |
许可证 |
Apache-2.0 |
Deepseek 提炼背景
Deepseek-v3 作为教师模型,我们从中捕获了数十亿标记的对数几率。与标准的监督微调不同,我们采用了全对数几率级别的复制,这确保了更精确的知识迁移,包括在以下方面的高级推理能力:
预期用例
- 高级聊天机器人和虚拟助手
- 企业数据分析和工作流自动化
- 研究模拟和自然语言理解
- STEM 领域的教育工具
评估

训练与微调
- 初始训练:从 Qwen-32B 开始,针对大规模文本摄入进行校准。
- 提炼与合并:在约 11 亿标记的 Deepseek-v3 对数几率上进行训练,采用“融合合并”方法尽可能保留教师模型的专业知识,最后一步包括使用直接偏好优化(DPO)来改善对齐并减少模型幻觉。
- 持续开发:正在进行额外的 R1 提炼,以进一步提高性能和专业性。
局限性
- 上下文长度:128k 标记
- 知识截止:训练数据可能无法反映最新的事件或发展,导致 2024 年 6 月之后的当前知识存在差距。
伦理考量
- 内容生成风险:与任何语言模型一样,如果以某些方式进行提示,Virtuoso-Medium-v2 可能会生成有害或有偏见的内容。
📄 许可证
Virtuoso-Medium-v2 (32B) 采用 Apache-2.0 许可证 发布。您可以在商业和非商业应用中自由使用、修改和分发此模型,但需遵守许可证的条款和条件。
如果您有任何问题或想分享使用这些模型的经验,请通过社交媒体与我们联系。我们期待看到您的成果,以及这些模型如何帮助您进行创新!