🚀 SynapseLLM
SynapseLLM 是 WebraftAI 的一項重大成果,它代表了一系列大型語言 AI 模型,旨在創建強大、通用且去中心化的信息系統。本倉庫專門存放基於 Mistral 微調後的 SynapseLLM 版本。微調過程在自定義數據集上進行,儘管數據集規模有限,但聚焦於代碼和常規問答場景。這種調整展示了該模型在特定領域的多功能性和適用性,為更廣泛的 AI 進步做出了貢獻。
🚀 快速開始
示例代碼
以下是使用 HF 提供的 transformers
庫的示例代碼:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
model = AutoModelForCausalLM.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
prompt= "<s>[INST] Hello! [/INST] "
device = "cuda"
model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
model.to(device)
generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
print(tokenizer.batch_decode(generated_ids)[0])
✨ 主要特性
- 多功能性:在代碼和常規問答場景中展現出良好的適用性。
- 微調優化:基於 Mistral 7B v0.1 在特定數據集上進行微調,提升特定領域性能。
📚 詳細文檔
模型詳情
SynapseLLM:
- 參數:70 億
- 學習率:2e - 4
- 使用的適配器:Qlora
- 精度:float16
- 批量大小:32
- 最大梯度範數:0.3
- 優化器:paged_adamw_32bit
- 預熱比例:0.03
- 訓練步數:150
- 訓練輪數:1
模型描述
這是一個基於 70 億參數、僅解碼器的 Transformer 模型,在聊天問答和代碼指令上進行了微調。它是在 Mistral 7B v0.1 基礎上,對一個包含 77 萬行樣本數據集進行預微調的模型,該數據集包含 36.1 萬條數學指令問答、14.3 萬條 GPT - 3.5 問答、14 萬條通用代碼、6.3 萬條 Python 代碼和 5.4 萬條通用問答(通過 GPT - 4)[每行包含一條指令和一條響應]。這是一個與訓練好的適配器合併並編譯的完整模型,因此您可以通過 transformers
庫輕鬆加載它。
- 開發者:WebraftAI
- 資助方:Webraft Cloud
- 共享方:WebraftAI
- 模型類型:僅解碼器的 Transformer
- 語言:僅英語
- 許可證:Apache 2.0
- 微調基礎模型:Mistral - 7b - v0.1
提示格式
該模型遵循與 Mistral Instruct 7B v0.1 相同的提示格式。以下仍給出示例提示:
<s>[INST] Hello, how are you? [/INST]
模型偏差
該模型存在一些偏差問題,具體如下:
- 模型可能輸出事實性錯誤信息。
- 模型不遵循系統提示。
- 模型沒有任何記憶功能,研究人員可以嘗試為其提供記憶。
- 模型在不同數據集上進行訓練,因此可能會對信息產生偏差,或自稱是 GPT 模型。
🔧 技術細節
評估結果
詳細結果可在此處查看。
指標 |
值 |
平均值 |
55.93 |
AI2 推理挑戰(25 次少樣本學習) |
52.99 |
HellaSwag(10 次少樣本學習) |
74.54 |
MMLU(5 次少樣本學習) |
54.60 |
TruthfulQA(0 次少樣本學習) |
53.79 |
Winogrande(5 次少樣本學習) |
73.95 |
GSM8k(5 次少樣本學習) |
25.70 |
📄 許可證
本模型使用的許可證為 Apache 2.0。