Virtuoso-Medium-v2開源語言模型 - 基於優質架構，基準測試表現出色！

首頁

Virtuoso Medium V2

由arcee-ai開發

基於Qwen-2.5-32B架構的320億參數語言模型，通過Deepseek-v3蒸餾訓練，在多項基準測試中表現優異。

大型語言模型

Transformers

開源協議:Apache-2.0 #320億參數大模型 #Deepseek-v3蒸餾 #STEM領域專家

下載量 412

發布時間 : 1/27/2025

模型概述

下一代320億參數語言模型，通過logit級蒸餾從Deepseek-v3獲取知識，適用於高級自然語言處理任務。

模型特點

深度蒸餾技術

採用logit級蒸餾從Deepseek-v3提取數十億標記知識，確保高保真知識傳遞

跨架構分詞器兼容

通過專用'分詞器手術'實現Deepseek-v3與Qwen分詞器的無縫對齊

擴展推理能力

特別強化科技查詢、代碼生成和數學求解等專業領域的推理能力

融合合併方法

採用專有技術進行logit級蒸餾，最大限度保留教師模型專長

模型能力

高級文本生成

複雜邏輯推理

多輪對話處理

科技文獻理解

編程代碼生成

數學問題求解

多語言處理

使用案例

智能助手

企業級虛擬助手

處理複雜工作流查詢和數據分析任務

在內部測試中超越前代模型30%的任務完成率

教育科技

STEM教學輔助

解釋複雜科學概念和解決數學問題

在MMLU-PRO基準測試中達到頂尖水平

科研輔助

文獻分析與模擬

快速理解科研論文並生成模擬假設

🚀 Virtuoso-Medium-v2 (32B)

Virtuoso-Medium-v2 (32B) 是我們基於原始 Virtuoso-Medium 架構開發的下一代 320 億參數語言模型。該版本從 Deepseek-v3 中提煉而來，利用了包含 50 億 + 標記的擴展數據集的對數幾率（logits）。與我們之前發佈的模型相比，它在基準測試中取得了更高的分數（在某些任務中甚至超過了 Arcee-Nova 2024）。

Virtuoso-Lite Logo

🚀 快速開始

以下是使用 transformers 庫的示例代碼：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "arcee-ai/Virtuoso-Medium-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Provide a concise summary of quantum entanglement."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

性能卓越：憑藉更大的參數數量和更豐富的訓練語料庫，Virtuoso-Medium-v2 在多個基準測試（如 BBH、MMLU-PRO、MATH 等）中取得了高分。在特定任務中，它經常超越其他 300 億 + 參數的模型，甚至一些 700 億 + 參數的架構。
知識精準遷移：以 Deepseek-v3 作為教師模型，採用全對數幾率級別的複製，確保更精確的知識遷移，包括在技術和科學查詢、複雜代碼生成、數學問題解決等方面的高級推理能力。
跨架構兼容性：初始集成 Deepseek-v3 分詞器進行對數幾率提取，最終使用 Qwen 分詞器，並通過專門的“分詞器手術”實現跨架構兼容性。

📦 安裝指南

GGUF 量化模型

可在此處獲取量化模型。

📚 詳細文檔

模型詳情

屬性	詳情
架構基礎	Qwen-2.5-32B
參數數量	320 億
分詞器	初始集成 Deepseek-v3 分詞器進行對數幾率提取，最終使用 Qwen 分詞器，並通過專門的“分詞器手術”實現跨架構兼容性。
提煉數據	約 11 億來自 Deepseek-v3 訓練數據的標記/對數幾率，之後使用專有的“融合合併”方法進行對數幾率級別的提煉，以確保最大保真度。
許可證	Apache-2.0

Deepseek 提煉背景

Deepseek-v3 作為教師模型，我們從中捕獲了數十億標記的對數幾率。與標準的監督微調不同，我們採用了全對數幾率級別的複製，這確保了更精確的知識遷移，包括在以下方面的高級推理能力：

技術和科學查詢
複雜代碼生成
數學問題解決

預期用例

高級聊天機器人和虛擬助手
企業數據分析和工作流自動化
研究模擬和自然語言理解
STEM 領域的教育工具

評估

Virtuoso-Lite Logo

訓練與微調

初始訓練：從 Qwen-32B 開始，針對大規模文本攝入進行校準。
提煉與合併：在約 11 億標記的 Deepseek-v3 對數幾率上進行訓練，採用“融合合併”方法儘可能保留教師模型的專業知識，最後一步包括使用直接偏好優化（DPO）來改善對齊並減少模型幻覺。
持續開發：正在進行額外的 R1 提煉，以進一步提高性能和專業性。