🚀 Virtuoso-Medium-v2 (32B)
Virtuoso-Medium-v2 (32B) 是我們基於原始 Virtuoso-Medium 架構開發的下一代 320 億參數語言模型。該版本從 Deepseek-v3 中提煉而來,利用了包含 50 億 + 標記的擴展數據集的對數幾率(logits)。與我們之前發佈的模型相比,它在基準測試中取得了更高的分數(在某些任務中甚至超過了 Arcee-Nova 2024)。

🚀 快速開始
以下是使用 transformers
庫的示例代碼:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "arcee-ai/Virtuoso-Medium-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "Provide a concise summary of quantum entanglement."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 性能卓越:憑藉更大的參數數量和更豐富的訓練語料庫,Virtuoso-Medium-v2 在多個基準測試(如 BBH、MMLU-PRO、MATH 等)中取得了高分。在特定任務中,它經常超越其他 300 億 + 參數的模型,甚至一些 700 億 + 參數的架構。
- 知識精準遷移:以 Deepseek-v3 作為教師模型,採用全對數幾率級別的複製,確保更精確的知識遷移,包括在技術和科學查詢、複雜代碼生成、數學問題解決等方面的高級推理能力。
- 跨架構兼容性:初始集成 Deepseek-v3 分詞器進行對數幾率提取,最終使用 Qwen 分詞器,並通過專門的“分詞器手術”實現跨架構兼容性。
📦 安裝指南
GGUF 量化模型
可在 此處 獲取量化模型。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
架構基礎 |
Qwen-2.5-32B |
參數數量 |
320 億 |
分詞器 |
初始集成 Deepseek-v3 分詞器進行對數幾率提取,最終使用 Qwen 分詞器,並通過專門的“分詞器手術”實現跨架構兼容性。 |
提煉數據 |
約 11 億來自 Deepseek-v3 訓練數據的標記/對數幾率,之後使用專有的“融合合併”方法進行對數幾率級別的提煉,以確保最大保真度。 |
許可證 |
Apache-2.0 |
Deepseek 提煉背景
Deepseek-v3 作為教師模型,我們從中捕獲了數十億標記的對數幾率。與標準的監督微調不同,我們採用了全對數幾率級別的複製,這確保了更精確的知識遷移,包括在以下方面的高級推理能力:
預期用例
- 高級聊天機器人和虛擬助手
- 企業數據分析和工作流自動化
- 研究模擬和自然語言理解
- STEM 領域的教育工具
評估

訓練與微調
- 初始訓練:從 Qwen-32B 開始,針對大規模文本攝入進行校準。
- 提煉與合併:在約 11 億標記的 Deepseek-v3 對數幾率上進行訓練,採用“融合合併”方法儘可能保留教師模型的專業知識,最後一步包括使用直接偏好優化(DPO)來改善對齊並減少模型幻覺。
- 持續開發:正在進行額外的 R1 提煉,以進一步提高性能和專業性。
侷限性
- 上下文長度:128k 標記
- 知識截止:訓練數據可能無法反映最新的事件或發展,導致 2024 年 6 月之後的當前知識存在差距。
倫理考量
- 內容生成風險:與任何語言模型一樣,如果以某些方式進行提示,Virtuoso-Medium-v2 可能會生成有害或有偏見的內容。
📄 許可證
Virtuoso-Medium-v2 (32B) 採用 Apache-2.0 許可證 發佈。您可以在商業和非商業應用中自由使用、修改和分發此模型,但需遵守許可證的條款和條件。
如果您有任何問題或想分享使用這些模型的經驗,請通過社交媒體與我們聯繫。我們期待看到您的成果,以及這些模型如何幫助您進行創新!