🚀 SynapseLLM
SynapseLLM 是 WebraftAI 的一项重大成果,它代表了一系列大型语言 AI 模型,旨在创建强大、通用且去中心化的信息系统。本仓库专门存放基于 Mistral 微调后的 SynapseLLM 版本。微调过程在自定义数据集上进行,尽管数据集规模有限,但聚焦于代码和常规问答场景。这种调整展示了该模型在特定领域的多功能性和适用性,为更广泛的 AI 进步做出了贡献。
🚀 快速开始
示例代码
以下是使用 HF 提供的 transformers
库的示例代码:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
model = AutoModelForCausalLM.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
prompt= "<s>[INST] Hello! [/INST] "
device = "cuda"
model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
model.to(device)
generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
print(tokenizer.batch_decode(generated_ids)[0])
✨ 主要特性
- 多功能性:在代码和常规问答场景中展现出良好的适用性。
- 微调优化:基于 Mistral 7B v0.1 在特定数据集上进行微调,提升特定领域性能。
📚 详细文档
模型详情
SynapseLLM:
- 参数:70 亿
- 学习率:2e - 4
- 使用的适配器:Qlora
- 精度:float16
- 批量大小:32
- 最大梯度范数:0.3
- 优化器:paged_adamw_32bit
- 预热比例:0.03
- 训练步数:150
- 训练轮数:1
模型描述
这是一个基于 70 亿参数、仅解码器的 Transformer 模型,在聊天问答和代码指令上进行了微调。它是在 Mistral 7B v0.1 基础上,对一个包含 77 万行样本数据集进行预微调的模型,该数据集包含 36.1 万条数学指令问答、14.3 万条 GPT - 3.5 问答、14 万条通用代码、6.3 万条 Python 代码和 5.4 万条通用问答(通过 GPT - 4)[每行包含一条指令和一条响应]。这是一个与训练好的适配器合并并编译的完整模型,因此您可以通过 transformers
库轻松加载它。
- 开发者:WebraftAI
- 资助方:Webraft Cloud
- 共享方:WebraftAI
- 模型类型:仅解码器的 Transformer
- 语言:仅英语
- 许可证:Apache 2.0
- 微调基础模型:Mistral - 7b - v0.1
提示格式
该模型遵循与 Mistral Instruct 7B v0.1 相同的提示格式。以下仍给出示例提示:
<s>[INST] Hello, how are you? [/INST]
模型偏差
该模型存在一些偏差问题,具体如下:
- 模型可能输出事实性错误信息。
- 模型不遵循系统提示。
- 模型没有任何记忆功能,研究人员可以尝试为其提供记忆。
- 模型在不同数据集上进行训练,因此可能会对信息产生偏差,或自称是 GPT 模型。
🔧 技术细节
评估结果
详细结果可在此处查看。
指标 |
值 |
平均值 |
55.93 |
AI2 推理挑战(25 次少样本学习) |
52.99 |
HellaSwag(10 次少样本学习) |
74.54 |
MMLU(5 次少样本学习) |
54.60 |
TruthfulQA(0 次少样本学习) |
53.79 |
Winogrande(5 次少样本学习) |
73.95 |
GSM8k(5 次少样本学习) |
25.70 |
📄 许可证
本模型使用的许可证为 Apache 2.0。