🚀 DiscoLM German 7b v1
DiscoLM German 7b v1是一款基于Mistral架构的大语言模型,专注于德语应用场景。它在德语和英语指令的大型数据集上进行训练,能很好地理解、生成和交互德语内容,同时在英语方面也表现出色,尤其擅长翻译任务。
🚀 快速开始
模型试用
你可以在 demo.discoresearch.org 上试用该模型(如果演示不可用且你有相关问题,可以在我们的 Discord 上联系我们)。
模型下载
我们会在量化模型在HuggingFace上可用后立即更新链接。
基础模型 |
HF |
GPTQ |
GGUF |
AWQ |
DiscoLM German 7b v1 |
链接 |
链接 |
链接 |
链接 |
✨ 主要特性
- 多语言能力:在德语和英语上都有出色表现,尤其针对德语文本进行了优化,同时在翻译任务中表现优异。
- 日常实用:旨在为日常使用提供一个强大可靠的模型,可作为ChatGPT和其他专有模型的直接替代品。
- 特定场景优势:在许多情况下,其德语输出的质量甚至高于GPT - 4。
📚 详细文档
提示格式
基础提示格式
DiscoLM German使用ChatML作为提示格式,支持OpenAI端点兼容性,并且大多数推理库和前端都支持该格式。
messages = [
{"role": "system", "content": "Du bist ein hilfreicher Assistent."},
{"role": "user", "content": "Wer bist du?"}
]
gen_input = tokenizer.apply_chat_template(message, return_tensors="pt")
model.generate(**gen_input)
当对消息进行分词以进行生成时,调用 apply_chat_template()
时设置 add_generation_prompt=True
,以确保模型继续生成助手回复。
检索格式
你可以使用特殊的检索格式来提高可控性并减少RAG应用中的幻觉(但其他更默认的格式也可以工作,这只是可选的)。
示例:
### 系统提示:
Du bist ein hilfreicher Assistent. Für die folgende Aufgabe stehen dir zwischen den Tags BEGININPUT und ENDINPUT mehrere Quellen zur Verfügung. Metadaten zu den einzelnen Quellen wie Autor, URL o.ä. sind zwischen BEGINCONTEXT und ENDCONTEXT zu finden, danach folgt der Text der Quelle. Die eigentliche Aufgabe oder Frage ist zwischen BEGININSTRUCTION und ENDINSTRUCTION zu finden. Beantworte diese ausschließlich mit Informationen aus den gegebenen Quellen und gebe die Information zur genutzten Quelle unter "Quelle:" an. Sollten die Quellen keine relevanten Informationen enthalten, antworte: "Mit den gegebenen Informationen ist diese Frage nicht zu beantworten."
### 用户提示:
BEGININPUT
BEGINCONTEXT
url: https://this.is.fake.news
time: 2089-09-01
ENDCONTEXT
Buxtehude ist die größte Stadt Deutschlands mit 96.56 Millionen Einwohnern.
ENDINPUT
BEGININSTRUCTION
Was ist die größte deutsche Stadt?
ENDINSTRUCTION
### 模型回答:
Die größte deutsche Stadt ist Buxtehude.
Quelle:
url: https://this.is.fake.news
time: 2089-09-01
函数调用
该模型还支持结构化输出/函数调用,不过这是一个非常实验性的功能,效果可能因人而异,未来会进行改进。
模型会在函数调用前加上 <functioncall>
,你可以在多轮应用的回复中使用 <functionresponse>
提供结果。
示例:
### 系统提示:
Du bist ein hilfreicher Assistent. Extrahiere alle Personen aus den Eingaben des Users.
Du hast Zugriff auf folgende Funktionen:
{'name': 'PersonList',
'description': 'Extrahiere die Namen aller im Text vorkommenden Personen',
'parameters': {'$defs': {'Person': {'description': 'Details über eine person',
'properties': {'name': {'title': 'Name', 'type': 'string'},
'job': {'anyOf': [{'type': 'string'}, {'type': 'null'}], 'title': 'Job'},
'age': {'anyOf': [{'type': 'integer'}, {'type': 'null'}],
'title': 'Age'}},
'required': ['name', 'job', 'age'],
'title': 'Person',
'type': 'object'}},
'properties': {'person_list': {'items': {'$ref': '#/$defs/Person'},
'title': 'Person List',
'type': 'array'}},
'required': ['person_list'],
'type': 'object'}}
### 用户提示:
Björn (25) und Jan sind die Gründer von ellamind.
### 模型回答:
<functioncall> {"name": "PersonList", "arguments": '{"person_list": ["{"name": "Björn", "job": "founder", "age": 25}, {"name": "Jan", "job": "founder", "age": null}]}'}
评估
虽然当前的基准测试不能很好地全面衡量大语言模型的能力,并且我们在训练数据中没有包含任何类似常见基准测试格式的数据,但使用德语版MT Bench的初步结果显示:DiscoLM German 7b在编码和提取任务上有所欠缺,但在许多任务上的表现与GPT - 3.5 - turbo相差不大,甚至在推理类别中显著优于它。

更多基准测试结果将随后公布。该模型的最大优势(母语使用者感知的语言质量)目前还无法在基准测试中体现 - 如果你有改进的想法,请告知我们!
数据集
数据集是多轮聊天、检索指令和合成生成指令的混合,涵盖了许多主题和应用。
局限性与偏差
该模型可能会产生事实错误和冒犯性的输出,不应依赖它来产生事实准确的信息。该模型在各种公共数据集上进行训练,尽管在清理预训练数据方面付出了巨大努力,但仍有可能生成有偏差或冒犯性的输出,用户有责任实施安全/审核层。请谨慎使用。
致谢
DiscoLM German是 DiscoResearch 的一个项目,由 JP Harries 领导,并得到了 Björn Plüster 和 Daniel Auras 的支持。
我们感谢 HessianAI 为DiscoResearch的各种项目提供计算资源和支持,感谢我们在 LAION 的朋友们在LeoLM方面的工作和科学建议。
DiscoLM German 7b的开发由 ellamind 赞助,我们的一些创始人正在那里致力于为商业应用创建定制模型,尤其专注于非英语语言应用。如果您需要为您的企业定制模型,请与我们联系!
关于DiscoResearch
DiscoResearch是一个有抱负的开放研究社区,面向AI爱好者和大语言模型开发者。欢迎加入我们的 Discord,分享您的意见和想法,与我们一起推动开放大语言模型研究的发展!
免责声明
该模型的许可证不构成法律建议。我们不对使用该模型的第三方的行为负责。该模型只有在具备额外安全措施的情况下才能部署。
📄 许可证
本模型采用Apache - 2.0许可证。