模型概述
模型特點
模型能力
使用案例
🚀 LAION LeoLM:語言增強的開放語言模型
LAION LeoLM 是首個基於 Llama - 2 構建的、開放且可用於商業用途的德語基礎語言模型。我們的模型通過在大量德語語料庫(主要是特定地區文本)上進行持續預訓練,將 Llama - 2 的能力擴展到了德語領域。
藉助黑森州人工智能中心(HessianAI)新超級計算機“42”的計算資源支持,我們發佈了兩個上下文長度為 8k 的基礎模型:[LeoLM/leo - hessianai - 7b
](https://huggingface.co/LeoLM/leo - hessianai - 7b) 和 [LeoLM/leo - hessianai - 13b
](https://huggingface.co/LeoLM/leo - hessianai - 13b),它們遵循 [Llama - 2 社區許可證](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt)(70b 版本也即將推出!)。我們希望通過此次發佈,為德語開源和商業大語言模型研究帶來新機遇,並加速其應用落地。欲瞭解更多詳情,請閱讀我們的 博客文章 或論文(預印本即將發佈)。
本項目由 Björn Plüster 和 Christoph Schuhmann 與 LAION 及黑森州人工智能中心(HessianAI)合作完成。
✨ 主要特性
LeoLM Chat
LeoLM/leo - hessianai - 7b - chat
是基於我們的基礎模型 LeoLM/leo - hessianai - 7b
構建的德語聊天模型,並在部分德語指令數據集上進行了微調。該模型在寫作、解釋和討論任務上表現出色,但在數學和高級推理方面存在一定困難。以下是我們的 MT - Bench - DE 評分:
{
"first_turn": 5.75,
"second_turn": 4.45,
"categories": {
"writing": 5.875,
"roleplay": 6.3,
"reasoning": 3.5,
"math": 2.85,
"coding": 2.95,
"extraction": 4.3,
"stem": 7.4,
"humanities": 7.625
},
"average": 5.1
}
📦 安裝指南
安裝直接依賴
pip install transformers torch sentencepiece
使用 flash - attention2 進行更快推理
如果你想使用 flash - attention2 進行更快的推理,需要安裝以下依賴:
pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary
💻 使用示例
基礎用法
from transformers import pipeline
import torch
system_prompt = """<|im_start|>system
Dies ist eine Unterhaltung zwischen einem intelligenten, hilfsbereitem KI-Assistenten und einem Nutzer.
Der Assistent gibt ausführliche, hilfreiche und ehrliche Antworten.<|im_end|>
"""
prompt_format = "<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
prompt = "Erkläre mir wie die Fahrradwegesituation in Hamburg ist."
generator = pipeline(model="LeoLM/leo-hessianai-7b-chat", device="cuda", torch_dtype=torch.float16, trust_remote_code=True) # True for flash-attn2 else False
print(generator(prompt_format.format(prompt=prompt), do_sample=True, top_p=0.95, max_length=8192))
輸出示例
"作為人工智能,我無法分享個人觀察,但我可以提供一些關於漢堡自行車道情況的一般信息。與許多其他大城市相比,漢堡的自行車騎行者數量眾多,並且非常重視可持續交通方式。這裡有許多自行車道和獨立車道,使騎行者能夠與機動車交通並行。這些自行車道通常有標記,並通過物理隔離與其他車道分隔開來。此外,還有許多自行車專用道,騎行者在這些道路上享有優先權,汽車必須減速行駛。
然而,在一些城市區域,自行車道可能會狹窄或擁擠,尤其是在高峰時段。也有許多十字路口,騎行者必須停車等待綠燈,這與汽車駕駛者類似。總體而言,漢堡的自行車基礎設施相當不錯,但和其他地方一樣,仍有改進的空間。"
📚 詳細文檔
提示模板
提示對話模板(ChatML 格式):
"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""
模型輸入可以包含用戶和助手之間的多輪對話,例如:
<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)
道德考量與侷限性
LeoLM 已在英語和德語環境下進行了測試,但它並未涵蓋也無法涵蓋所有場景。因此,與所有大語言模型一樣,LeoLM/leo - hessianai - 7b - chat
的潛在輸出無法提前預測,在某些情況下,模型可能會對用戶提示產生不準確、有偏見或其他令人反感的回覆。所以,在部署 LeoLM/leo - hessianai - 7b - chat
的任何應用之前,開發者應針對模型的特定應用進行安全測試和調整。
請參閱 Meta 的 [負責任使用指南](https://ai.meta.com/llama/responsible - use - guide/)。
微調詳情
屬性 | 詳情 |
---|---|
訓練輪數 | 3 |
每輪示例數 | 131214 |
全局批次大小 | 256 |
學習率 | 3e - 5 |
熱身步數 | 100 |
學習率調度器 | Cosine |
Adam 係數 | (0.9, 0.95) |
數據集詳情
## 'OpenAssistant/OASST - DE 子集' 統計信息 (3534 個樣本 (100.0%))
-----------------
接受樣本數: 3534/3534 (100.0%)
接受的標記數: 2259302
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 29
每個樣本的最大標記數: 2484
每個樣本的平均標記數: 639.3044708545557
-----------------
## 'FreedomIntelligence/evol - instruct - deutsch 子集' 統計信息 (57841 個樣本 (100.0%))
-----------------
接受樣本數: 57841/57841 (100.0%)
接受的標記數: 42958192
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 33
每個樣本的最大標記數: 5507
每個樣本的平均標記數: 742.6944900675991
-----------------
## 'FreedomIntelligence/alpaca - gpt4 - deutsch 子集' 統計信息 (48969 個樣本 (100.0%))
-----------------
接受樣本數: 48969/48969 (100.0%)
接受的標記數: 13372005
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 19
每個樣本的最大標記數: 1359
每個樣本的平均標記數: 273.07082031489307
-----------------
## 'LeoLM/OpenSchnabeltier 子集' 統計信息 (21314 個樣本 (100.0%))
-----------------
接受樣本數: 21314/21314 (100.0%)
接受的標記數: 8134690
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 25
每個樣本的最大標記數: 1202
每個樣本的平均標記數: 381.65947264708643
-----------------
## 'LeoLM/German_Poems 子集' 統計信息 (490 個樣本 (100.0%))
-----------------
接受樣本數: 490/490 (100.0%)
接受的標記數: 618642
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 747
每個樣本的最大標記數: 1678
每個樣本的平均標記數: 1262.534693877551
-----------------
## 'LeoLM/German_Songs 子集' 統計信息 (392 個樣本 (100.0%))
-----------------
接受樣本數: 392/392 (100.0%)
接受的標記數: 187897
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 231
每個樣本的最大標記數: 826
每個樣本的平均標記數: 479.3290816326531
-----------------
## '總計' 統計信息 (132540 個樣本 (100.0%))
-----------------
接受樣本數: 132540/132540 (100.0%)
接受的標記數: 67530728
跳過樣本數: 0 (0.0%)
每個樣本的最小標記數: 19
每個樣本的最大標記數: 5507
每個樣本的平均標記數: 509.51205673758864
-----------------
🔧 技術細節
屬性 | 詳情 |
---|---|
模型類型 | 因果解碼器專用的Transformer語言模型 |
語言 | 英語和德語 |
演示 | Web 演示 |
許可證 | [LLAMA 2 社區許可協議](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt) |
聯繫方式 | LAION Discord 或 Björn Plüster |



