模型简介
模型特点
模型能力
使用案例
🚀 LAION LeoLM:语言增强型开放语言模型
LAION LeoLM 是首个基于 Llama - 2 和 Mistral 构建的、开放且可用于商业用途的德语基础语言模型。该模型通过在大量德语语料库(主要是特定地区文本)上持续预训练,将 Llama - 2 的能力拓展到了德语领域。
得益于黑森州人工智能中心(HessianAI)新超级计算机“42”的计算资源支持,我们发布了三个上下文长度为 8k 的基础模型。其中,[LeoLM/leo - mistral - hessianai - 7b
](https://huggingface.co/LeoLM/leo - mistral - hessianai - 7b) 采用 Apache 2.0 许可证,[LeoLM/leo - hessianai - 7b
](https://huggingface.co/LeoLM/leo - hessianai - 7b) 和 [LeoLM/leo - hessianai - 13b
](https://huggingface.co/LeoLM/leo - hessianai - 13b) 采用 [Llama - 2 社区许可证](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt)(70b 版本也即将推出!👀)。我们希望此次发布能为德语开源和商业大语言模型研究带来新机遇,并加速其应用推广。
更多详情请阅读我们的 [博客文章](https://laion.ai/blog/leo - lm/) 或论文(预印本即将发布)。
本项目由 Björn Plüster 和 Christoph Schuhmann 与 LAION 和 HessianAI 合作完成。
🚀 快速开始
✨ 主要特性
- 语言能力拓展:将 Llama - 2 的能力拓展到德语领域,支持德语的文本生成任务。
- 多模型发布:发布了三个具有 8k 上下文长度的基础模型,满足不同场景需求。
- 商业可用:部分模型采用开放的商业许可证,便于商业应用。
📦 安装指南
安装直接依赖
pip install transformers torch sentencepiece
若要使用 flash - attention2 进行更快推理,需安装以下依赖
pip install packaging ninja
pip install flash-attn
💻 使用示例
基础用法
from transformers import pipeline
import torch
system_prompt = """Dies ist eine Unterhaltung zwischen einem intelligenten, hilfsbereitem KI-Assistenten und einem Nutzer.
Der Assistent gibt ausführliche, hilfreiche und ehrliche Antworten."""
prompt_format = "<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
prompt = "Erkläre mir wie die Fahrradwegesituation in Hamburg ist."
generator = pipeline(model="LeoLM/leo-mistral-hessianai-7b-chat", device="cuda", torch_dtype=torch.float16, use_flash_attention_2=True) # True for flash-attn2 else False
print(generator(prompt_format.format(system_prompt=system_prompt, prompt=prompt), do_sample=True, top_p=0.95, max_length=8192))
📚 详细文档
LeoLM Chat
LeoLM/leo - mistral - hessianai - 7b - chat
是基于基础模型 LeoLM/leo - mistral - hessianai - 7b
构建的德语聊天模型,并在部分德语指令数据集上进行了微调。该模型在写作、解释和讨论任务上表现出色,但在数学和高级推理方面存在一定挑战。以下是其 MT - Bench - DE 评分:
{
"first_turn": 6.1,
"second_turn": 4.7,
"categories": {
"writing": 6.8,
"roleplay": 6.35,
"reasoning": 3.3,
"math": 2.75,
"coding": 4.4,
"extraction": 4.5,
"stem": 6.85,
"humanities": 8.25
},
"average": 5.4
}
模型详情
属性 | 详情 |
---|---|
微调基础模型 | [LeoLM/leo - mistral - hessianai - 7b](https://huggingface.co/LeoLM/leo - hessianai - 7b) |
模型类型 | 因果解码器型Transformer语言模型 |
支持语言 | 英语和德语 |
演示 | 网页演示即将推出! |
许可证 | [Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.html) |
联系方式 | LAION Discord 或 Björn Plüster |
提示模板
提示对话模板(ChatML 格式):
"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""
模型输入可以包含用户和助手之间的多轮对话,例如:
<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)
🔧 技术细节
微调详情
超参数 | 值 |
---|---|
训练轮数 | 4 |
每轮样本数 | 131214 |
全局批次大小 | 256 |
学习率 | 1e - 5 |
预热步数 | 100 |
学习率调度器 | Cosine |
Adam 系数 | (0.9, 0.95) |
数据集详情
## Stats for 'Subset of OpenAssistant/OASST-DE' (3534 samples (100.0%))
-----------------
Accepted: 3534/3534 (100.0%)
Accepted tokens: 2259302
Skipped: 0 (0.0%)
Min tokens per sample: 29
Max tokens per sample: 2484
Avg tokens per sample: 639.3044708545557
-----------------
## Stats for 'Subset of FreedomIntelligence/evol-instruct-deutsch' (57841 samples (100.0%))
-----------------
Accepted: 57841/57841 (100.0%)
Accepted tokens: 42958192
Skipped: 0 (0.0%)
Min tokens per sample: 33
Max tokens per sample: 5507
Avg tokens per sample: 742.6944900675991
-----------------
## Stats for 'Subset of FreedomIntelligence/alpaca-gpt4-deutsch' (48969 samples (100.0%))
-----------------
Accepted: 48969/48969 (100.0%)
Accepted tokens: 13372005
Skipped: 0 (0.0%)
Min tokens per sample: 19
Max tokens per sample: 1359
Avg tokens per sample: 273.07082031489307
-----------------
## Stats for 'Subset of LeoLM/OpenSchnabeltier' (21314 samples (100.0%))
-----------------
Accepted: 21314/21314 (100.0%)
Accepted tokens: 8134690
Skipped: 0 (0.0%)
Min tokens per sample: 25
Max tokens per sample: 1202
Avg tokens per sample: 381.65947264708643
-----------------
## Stats for 'Subset of LeoLM/German_Poems' (490 samples (100.0%))
-----------------
Accepted: 490/490 (100.0%)
Accepted tokens: 618642
Skipped: 0 (0.0%)
Min tokens per sample: 747
Max tokens per sample: 1678
Avg tokens per sample: 1262.534693877551
-----------------
## Stats for 'Subset of LeoLM/German_Songs' (392 samples (100.0%))
-----------------
Accepted: 392/392 (100.0%)
Accepted tokens: 187897
Skipped: 0 (0.0%)
Min tokens per sample: 231
Max tokens per sample: 826
Avg tokens per sample: 479.3290816326531
-----------------
## Stats for 'total' (132540 samples (100.0%))
-----------------
Accepted: 132540/132540 (100.0%)
Accepted tokens: 67530728
Skipped: 0 (0.0%)
Min tokens per sample: 19
Max tokens per sample: 5507
Avg tokens per sample: 509.51205673758864
-----------------
📄 许可证
本项目采用 [Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.html) 许可证。
⚠️ 重要提示
LeoLM 已在英语和德语环境下进行了测试,但无法涵盖所有场景。因此,与所有大语言模型一样,LeoLM/leo - mistral - hessianai - 7b - chat
的输出结果无法提前预测,模型在某些情况下可能会产生不准确、有偏差或其他令人反感的回复。在部署 LeoLM/leo - mistral - hessianai - 7b - chat
的任何应用之前,开发者应针对具体应用进行安全测试和调优。
请参阅 Meta 的 [负责任使用指南](https://ai.meta.com/llama/responsible - use - guide/)。



