🚀 WizardLM-2-8x22B
WizardLM-2-8x22B 是下一代開源大語言模型,在複雜對話、多語言、推理和智能體等方面性能顯著提升。與領先的閉源模型相比具有很強的競爭力,且全面超越現有的開源模型。
項目鏈接
🏠 WizardLM-2 發佈博客
🤗 HF 倉庫 •🐱 Github 倉庫 • 🐦 Twitter • 📃 [WizardLM] • 📃 [WizardCoder] • 📃 [WizardMath]
👋 加入我們的 Discord
🚀 快速開始
如需查看 WizardLM-2-7B 的重新上傳版本,請點擊 此處。
✨ 主要特性
最新消息 🔥🔥🔥 [2024/04/15]
我們推出並開源了下一代最先進的大語言模型 WizardLM-2,它在複雜對話、多語言、推理和智能體等方面的性能有所提升。新系列包括三款前沿模型:WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。
- WizardLM-2 8x22B 是我們最先進的模型,與領先的閉源模型相比,表現出極具競爭力的性能,並且始終優於所有現有的開源模型。
- WizardLM-2 70B 達到了頂級推理能力,是同規模模型中的首選。
- WizardLM-2 7B 速度最快,並且與現有大 10 倍的開源領先模型相比,性能相當。
更多關於 WizardLM-2 的詳細信息,請閱讀我們的 發佈博客文章 和即將發佈的論文。
📚 詳細文檔
模型詳情
模型能力
MT-Bench
我們還採用了 lmsys 提出的基於 GPT - 4 的自動 MT - Bench 評估框架來評估模型的性能。WizardLM-2 8x22B 與最先進的閉源模型相比,表現出極具競爭力的性能。同時,WizardLM-2 7B 和 WizardLM-2 70B 在 7B 到 70B 模型規模的其他領先基線模型中,都是表現最好的模型。
人工偏好評估
我們精心收集了一組複雜且具有挑戰性的真實世界指令集,其中包括人類的主要需求,如寫作、編碼、數學、推理、智能體和多語言。我們報告了無平局的勝負率:
- WizardLM-2 8x22B 僅略落後於 GPT - 4 - 1106 - preview,並且明顯強於 Command R Plus 和 GPT4 - 0314。
- WizardLM-2 70B 優於 GPT4 - 0613、Mistral - Large 和 Qwen1.5 - 72B - Chat。
- WizardLM-2 7B 與 Qwen1.5 - 32B - Chat 相當,並且超過了 Qwen1.5 - 14B - Chat 和 Starling - LM - 7B - beta。
方法概述
我們構建了一個完全由人工智能驅動的合成訓練系統來訓練 WizardLM-2 模型。有關該系統的更多詳細信息,請參考我們的 博客。
使用說明
⚠️ 重要提示
WizardLM-2 採用了 Vicuna 的提示格式,並支持多輪對話。提示格式應如下所示:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful,
detailed, and polite answers to the user's questions. USER: Hi ASSISTANT: Hello.</s>
USER: Who are you? ASSISTANT: I am WizardLM.</s>......
我們在 GitHub 上提供了一個 WizardLM-2 推理演示 代碼。
詳細結果可查看 此處
指標 |
值 |
平均值 |
32.61 |
IFEval (0 - Shot) |
52.72 |
BBH (3 - Shot) |
48.58 |
MATH Lvl 5 (4 - Shot) |
22.28 |
GPQA (0 - shot) |
17.56 |
MuSR (0 - shot) |
14.54 |
MMLU - PRO (5 - shot) |
39.96 |
📄 許可證
本項目採用 Apache2.0 許可證。