🚀 Solar Pro Preview:單GPU上最智能的大語言模型
Solar Pro Preview是一款先進的大語言模型(LLM),擁有220億參數,專為單GPU運行而設計。與參數少於300億的LLM相比,它表現卓越,性能可與參數是其3倍以上的模型(如700億參數的Llama 3.1)相媲美。
🚀 快速開始
Solar Pro Preview是一個經過指令調優的語言模型,專為遵循指令和進行對話任務而設計。
聊天模板
作為經過指令調優的模型,Solar Pro Preview使用ChatML模板,以在對話和遵循指令任務中實現最佳性能。這種方法與模型的訓練數據相匹配,可能會產生更準確和相關的響應。例如,使用ChatML模板格式化的問題如下,模型會在<|im_start|>assistant
之後生成答案。請注意,Solar Pro Preview目前不支持系統提示,此功能將在正式版本中提供。
<|im_start|>user
Please, introduce yourself.<|im_end|>
<|im_start|>assistant
文本生成
以下是一個示例推理代碼,詳細展示瞭如何加載模型、應用聊天模板以及生成模型答案。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("upstage/solar-pro-preview-instruct")
model = AutoModelForCausalLM.from_pretrained(
"upstage/solar-pro-preview-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
messages = [
{"role": "user", "content": "Please, introduce yourself."},
]
prompt = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(model.device)
outputs = model.generate(prompt, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))
Solar Pro Preview也可在Upstage Console中作為API使用,我們還提供了其他易於使用的方法。如果您想了解這些選項,請訪問我們的博客頁面。
✨ 主要特性
- 單GPU運行:Solar Pro Preview專為單GPU運行而設計,擁有220億參數,能夠在單GPU上高效運行。
- 卓越性能:與參數少於300億的LLM相比,Solar Pro Preview表現卓越,性能可與參數是其3倍以上的模型相媲美。
- 精心訓練:使用增強版的深度擴展方法開發,精心策劃的訓練策略和數據集顯著提升了模型性能。
📚 詳細文檔
模型概述
我們推出了Solar Pro Preview,這是一款先進的大語言模型(LLM),擁有220億參數,旨在適配單GPU。與參數少於300億的LLM相比,Solar Pro Preview表現卓越,其性能可與參數是其3倍以上的模型(如700億參數的Llama 3.1)相媲美。
Solar Pro Preview是使用我們之前深度擴展方法的增強版開發的,該方法將一個140億參數的Phi - 3 - medium模型擴展到220億參數,旨在在擁有80GB VRAM的GPU上運行。我們精心策劃的訓練策略和數據集顯著提升了Phi - 3 - medium的性能,特別是在MMLU - Pro和IFEval基準測試中,這兩個基準測試在評估模型的知識和遵循指令能力方面備受認可。
Solar Pro Preview是官方Solar Pro的預發佈版本,在語言覆蓋範圍上存在限制,最大上下文長度為4K。然而,我們相信Solar Pro Preview不僅是一個高效且功能強大的模型,還有潛力進一步擴展以覆蓋更多語言和功能。Solar Pro的官方版本將於2024年11月發佈,屆時將支持英語以外的更多語言,並擁有更長的上下文窗口。要了解最新更新,請註冊我們的郵件列表。如果您對模型有任何反饋或問題,請訪問我們的模型討論板。
評估
Solar Pro Preview在多種基準測試中進行了評估。
指標 |
Solar-pro-preview |
Phi-3-medium-4K-instruct |
Phi-3.5-MoE-instruct |
Gemma 2 27B IT |
Llama-3.1-8B-instruct |
Llama-3.1-70B-instruct |
發佈日期 |
2024.09.08 |
2024.05.02 |
2024.08.20 |
2024.06.25 |
2024.06.18 |
2024.06.16 |
模型大小 |
22B |
14B |
41.9B (6.6B) |
27B |
8B |
70B |
許可證 |
MIT |
MIT |
MIT |
gemma |
llama3.1 |
llama3.1 |
MMLU |
79.14 |
78.02 |
78.66 |
76.13 |
68.25 |
82.09 |
MMLU Pro |
52.11 |
47.51 |
46.99 |
45.68 |
37.88 |
53.01 |
IFEval |
84.37 |
64.37 |
69.15 |
75.36 |
77.40 |
84.13 |
ARC-C |
68.86 |
66.55 |
68.34 |
74.06 |
60.24 |
70.39 |
GPQA |
36.38 |
35.78 |
34.38 |
36.38 |
35.26 |
41.06 |
HellaSwag |
86.36 |
85.68 |
85.97 |
86.02 |
80.08 |
86.42 |
EQBench |
77.91 |
76.78 |
77.22 |
80.32 |
65.80 |
82.52 |
BigBench Hard |
67.31 |
63.09 |
62.58 |
64.88 |
51.06 |
69.54 |
MUSR |
45.85 |
42.28 |
46.79 |
45.67 |
29.68 |
47.22 |
GSM8K |
89.69 |
84.76 |
82.26 |
62.85 |
75.97 |
92.12 |
MBPP |
61.59 |
60.27 |
N/A (*) |
63.08 |
52.20 |
65.51 |
(*) 由於該模型傾向於生成聊天模板,因此無法準確確定分數。
評估協議
為了便於重現我們的評估結果,我們列出了以下使用的評估工具和設置。所有評估均在NVIDIA DGX H100上進行。
由於不同的批量大小和實驗環境(如GPU類型),結果可能會略有不同。
📄 許可證
本項目採用MIT許可證,詳情請見許可證鏈接。
🔗 聯繫我們
如果您對模型有任何問題和建議,請訪問討論板。
瞭解更多信息:
也可以嘗試以下內容: