🚀 DiscoLM Mixtral 8x7b alpha
DiscoLM Mixtral 8x7b alpha是一个基于Mistral AI的Mixtral 8x7b的实验性8x7b Mixture of Experts(MoE)模型。该模型基于将模型权重转换为Hugging Face格式并支持基于Transformers推理的实验代码。之后,它在Synthia、MethaMathQA和Capybara数据集上进行了微调。DiscoLM Mixtral 8x7b alpha是DiscoResearch的一个项目,由Björn Plüster创建,并得到了社区的大力支持。
非常感谢HessianAI为这个项目提供计算资源,也感谢LAION的杰出贡献者们,没有他们,这个项目就不可能实现!
八位法国专家坐在桌旁,风很大。
🚀 快速开始
下载
请注意,在新架构合并到Transformers之前,你必须使用trust_remote_code=True
来运行模型!
Huggingface |
GPTQ |
GGUF |
AWQ |
基础模型 |
链接 |
待确定 |
待确定 |
待确定 |
待确定 |
✨ 主要特性
基准测试
Hugging Face排行榜
这个模型仍处于早期Alpha阶段,使用的是实验代码,我们不能保证所有数值都是正确的。以下是我们自己评估的得分:
指标 |
值 |
ARC(25-shot) |
67.32 |
HellaSwag(10-shot) |
86.25 |
MMLU(5-shot) |
70.72 |
TruthfulQA(0-shot) |
54.17 |
Winogrande(5-shot) |
80.72 |
GSM8k(5-shot) |
25.09(得分较低,原因不明) |
平均 |
64.05 |
我们使用Language Model Evaluation Harness来运行上述基准测试,使用的版本与Hugging Face LLM排行榜相同。
FastEval
{
"gsm8k": 0.656,
"math": 0.242,
"bbh": {
"average": 0.5807843137254902
},
"mmlu": {
"average": 0.6245614035087719
},
"total": 0.4690691434468524
}
MTBench
{
"first_turn": 7.89375,
"second_turn": 7.5125,
"categories": {
"writing": 9.25,
"roleplay": 8.425,
"reasoning": 5.7,
"math": 5.85,
"coding": 4.45,
"extraction": 8.75,
"stem": 9.45,
"humanities": 9.75
},
"average": 7.703125
}
提示格式
请注意,在新架构合并到Transformers之前,你必须使用trust_remote_code=True
来运行模型!
这个模型遵循ChatML格式:
<|im_start|>system
You are DiscoLM, a helpful assistant.
<|im_end|>
<|im_start|>user
Please tell me possible reasons to call a research collective "Disco Research"<|im_end|>
<|im_start|>assistant
这种格式也可以通过预定义的Transformers聊天模板获得,这意味着可以使用apply_chat_template()
方法为你格式化消息列表:
chat = [
{"role": "system", "content": "You are DiscoLM, a helpful assistant."},
{"role": "user", "content": "Please tell me possible reasons to call a research collective Disco Research"}
]
tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
如果你使用tokenize=True
和return_tensors="pt"
,那么你将得到一个经过分词和格式化的对话,可以直接传递给model.generate()
。
基本推理代码:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("DiscoResearch/DiscoLM-mixtral-8x7b-v2", low_cpu_mem_usage=True, device_map="auto", trust_remote_code=True)
tok = AutoTokenizer.from_pretrained("DiscoResearch/DiscoLM-mixtral-8x7b-v2")
chat = [
{"role": "system", "content": "You are DiscoLM, a helpful assistant."},
{"role": "user", "content": "Please tell me possible reasons to call a research collective Disco Research"}
]
x = tok.apply_chat_template(chat, tokenize=True, return_tensors="pt", add_generation_prompt=True).cuda()
x = model.generate(x, max_new_tokens=128).cpu()
print(tok.batch_decode(x))
📦 数据集
以下数据集用于训练DiscoLM Mixtral 8x7b alpha:
非常感谢所有数据集的提供者和整理者!
📚 联系我们
联系我们的最佳方式是通过我们的Discord。
📚 关于DiscoResearch
DiscoResearch是一个有抱负的开放研究社区。Disco应该是一个让来自不同社区的研究人员能够聚集在一起,结合他们的专业知识,创造创新和开创性大语言模型的地方。快来加入我们的Discord,分享你的观点和想法,与我们一起推动开放大语言模型研究的发展!
📚 致谢
首先,非常感谢Mistral AI发布了另一个出色的模型,以及他们的发布策略,这让整个社区都乐在其中。此外,特别感谢Dmytro Dzhulgakov,他是第一个实现推理代码的人;感谢Vik,他发现了我们第一个实现中的一个关键错误(他真的读了论文!);感谢winglian提供的有用建议,以及用于微调模型的Axolotl;感谢MigTissera、MetaMath和LDJnr提供的优秀数据集;感谢所有参与这个精彩速跑项目的人,无论是在我们的、Nous Research的还是其他Discord社区中的人(如果我们忘记提及你,请联系我们!)。
DiscoLM Mixtral是DiscoResearch的一个项目,由Björn Plüster创建。该模型的训练计算资源由HessianAI提供;也非常感谢LAION的协调工作以及提供的宝贵联系人和建议。

📚 免责声明
此模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。此模型仅应用于研究目的。
📚 信息表格
属性 |
详情 |
模型类型 |
mixtral |
训练数据 |
Synthia、MetaMathQA、Capybara数据集 |
📚 常用提示信息
⚠️ 重要提示
在新架构合并到Transformers之前,你必须使用trust_remote_code=True
来运行模型!
💡 使用建议
联系我们的最佳方式是通过我们的Discord。