🚀 DiscoLM 70b
DiscoLM 70b 是一个基于 Laion的LeoLM 70b 的700亿参数模型。该模型针对650亿个德语文本标记进行了额外的持续预训练,在保留(并部分提升)英语能力的同时,增强了其多语言能力。随后,它在一些最流行的开源指令集组合上进行了进一步微调。DiscoLM 70b 是 DiscoResearch 的一个项目,由 Björn Plüster 训练。
非常感谢 LAION 和 HessianAI 为该项目提供科学监督、协调以及由 HessianAI 在超级计算机42上提供的计算资源!

🚀 快速开始
你可以通过以下不同格式下载 DiscoLM 70b 模型:
✨ 主要特性
- 多语言能力:经过额外的德语文本预训练,在保留英语能力的同时,增强了多语言处理能力。
- 微调优化:在流行的开源指令集上进行微调,提升了模型的性能。
📚 详细文档
🔍 基准测试
Hugginface排行榜
此模型仍处于早期Alpha阶段,我们不能保证没有任何数据污染。以下是我们自己评估的分数:
指标 |
值 |
ARC (25-shot) |
68.77 |
HellaSwag (10-shot) |
85.41 |
MMLU (5-shot) |
68.64 |
TruthfulQA (0-shot) |
57.69 |
Winogrande (5-shot) |
83.27 |
GSM8k (5-shot) |
63.68 |
平均 |
71.24 |
该模型目前在Open LLM排行榜上总体排名第6,是基于Llama-2-70b的第二强模型(仅次于TigerBot 70b):
(2023年12月5日截图)
我们使用 Language Model Evaluation Harness 来运行上述基准测试,使用的版本与HuggingFace LLM排行榜相同。
FastEval
指标 |
值 |
GSM8K |
70.6 |
Math |
17.8 |
BBH |
63.4 |
MMLU |
64.7 |
平均 |
48.87 |
当前(遗憾的是不再维护)FastEval CoT排行榜截图:

MTBench
{
"first_turn": 7.9,
"second_turn": 7.0625,
"categories": {
"writing": 9.55,
"roleplay": 8.35,
"reasoning": 6.15,
"math": 4.7,
"coding": 4.8,
"extraction": 7.35,
"stem": 9.1,
"humanities": 9.85
},
"average": 7.48125
}
当前FastEval MT Bench排行榜截图:

💬 提示格式
该模型遵循ChatML格式:
<|im_start|>system
You are DiscoLM, a helpful assistant.
<|im_end|>
<|im_start|>user
Please tell me possible reasons to call a research collective "Disco Research"<|im_end|>
<|im_start|>assistant
这种格式也可以通过预定义的Transformers聊天模板使用,这意味着可以使用 apply_chat_template()
方法为你格式化消息列表:
chat = [
{"role": "system", "content": "You are DiscoLM, a helpful assistant."},
{"role": "user", "content": "Please tell me possible reasons to call a research collective Disco Research"}
]
tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
如果你使用 tokenize=True
和 return_tensors="pt"
,那么你将得到一个经过分词和格式化的对话,可直接传递给 model.generate()
。
📦 数据集
DiscoLM 70b 的数据集整理采用了“暴力”/“概念验证”方法。以下是用于训练 DiscoLM 70b 的数据集:
非常感谢所有数据集提供者/整理者!
📄 许可证
本模型使用的许可证为 llama2。该模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。此模型仅应用于研究目的。原始Llama2许可证以及用于训练此模型的所有数据集的限制均适用。
👥 联系我们
联系我们的最佳方式是通过我们的 Discord。
🌟 关于DiscoResearch
DiscoResearch是一个有抱负的开放研究社区。Disco应该是一个让来自多个社区的研究人员能够聚集在一起,结合他们的专业知识,创造创新和开创性大语言模型的地方。快来加入我们的Discord,分享你的观点和想法,与我们一起推动开放大语言模型研究的发展!
🙏 致谢
Disco 70b 是 DiscoResearch 的一个项目,由 Björn Plüster 训练。Jan Harries 提供了技术建议、后勤支持和模型卡片。AutoMeta 也提供了有用的技术建议,并利用其人脉关系挑选了一组高质量的数据集。该模型由 HessianAI 与 LAION 合作提供计算资源进行训练 - 特别感谢 Patrick Schramowski 的支持。
我们站在巨人的肩膀上;在此按不特定顺序感谢 Laion 提供的LeoLM 70b(特别感谢 Christoph Schuhmann 让我们建立了联系),TheBloke 提供的量化版本,winglian 的Axolotl(用于训练模型和SlimOrca数据集),garage-bAInd、Teknium、Migel Tissera、MetaMath 和 LDJnr 提供的优秀数据集(如果我们在这里忘记提及你,请与我们联系!)。

📋 信息表格
属性 |
详情 |
模型类型 |
llama |
训练数据 |
Open-Orca/SlimOrca-Dedup、teknium/openhermes、meta-math/MetaMathQA、migtissera/Synthia-v1.3、THUDM/AgentInstruct、LeoLM/German_Songs、LeoLM/German_Poems、LeoLM/OpenSchnabeltier、bjoernp/ultrachat_de、LDJnr/Capybara等 |
支持语言 |
en、de |
库名称 |
transformers |
任务类型 |
文本生成 |
模型创建者 |
DiscoResearch |
标签 |
goliath、deutsch、llama2、discoresearch |