leo-hessianai-7b-chat開源德語語言模型 - 專屬德語處理開放商業使用

首頁

Leo Hessianai 7b Chat

由LeoLM開發

首個基於Llama-2構建的開放商業用途德語基礎語言模型，專注於德語語言處理

大型語言模型

Transformers

支持多種語言#德語大模型 #多輪對話優化 #商業可用

下載量 2,263

發布時間 : 9/10/2023

模型概述

LeoLM是基於Llama-2架構構建的德語大語言模型，通過在大量德語語料庫上進行持續預訓練，擴展了Llama-2的德語能力。該模型特別適合德語文本生成和理解任務。

模型特點

德語優化

專門針對德語語言特性進行優化訓練，在德語任務上表現優異

長上下文支持

支持8k tokens的長上下文處理能力

商業友好

採用Llama-2社區許可證，允許商業用途

對話優化

聊天模型版本針對德語對話場景進行了專門微調

模型能力

德語文本生成

多輪對話處理

德語文本理解

寫作輔助

內容解釋

使用案例

內容創作

德語文章寫作

生成高質量的德語文章和內容

在寫作類別獲得5.875分(MT-Bench-DE評分)

詩歌創作

生成德語詩歌和歌詞

訓練數據包含490首德語詩歌樣本

教育輔助

概念解釋

用德語解釋複雜概念和主題

在人文學科類別獲得7.625高分

客戶服務

德語客服機器人

構建德語客戶服務對話系統

在角色扮演類別獲得6.3分

🚀 LAION LeoLM：語言增強的開放語言模型

LAION LeoLM 是首個基於 Llama - 2 構建的、開放且可用於商業用途的德語基礎語言模型。我們的模型通過在大量德語語料庫（主要是特定地區文本）上進行持續預訓練，將 Llama - 2 的能力擴展到了德語領域。

藉助黑森州人工智能中心（HessianAI）新超級計算機“42”的計算資源支持，我們發佈了兩個上下文長度為 8k 的基礎模型：[LeoLM/leo - hessianai - 7b](https://huggingface.co/LeoLM/leo - hessianai - 7b) 和 [LeoLM/leo - hessianai - 13b](https://huggingface.co/LeoLM/leo - hessianai - 13b)，它們遵循 [Llama - 2 社區許可證](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt)（70b 版本也即將推出！）。我們希望通過此次發佈，為德語開源和商業大語言模型研究帶來新機遇，並加速其應用落地。欲瞭解更多詳情，請閱讀我們的博客文章或論文（預印本即將發佈）。

本項目由 Björn Plüster 和 Christoph Schuhmann 與 LAION 及黑森州人工智能中心（HessianAI）合作完成。

✨ 主要特性

LeoLM Chat

LeoLM/leo - hessianai - 7b - chat 是基於我們的基礎模型 LeoLM/leo - hessianai - 7b 構建的德語聊天模型，並在部分德語指令數據集上進行了微調。該模型在寫作、解釋和討論任務上表現出色，但在數學和高級推理方面存在一定困難。以下是我們的 MT - Bench - DE 評分：

{
    "first_turn": 5.75,
    "second_turn": 4.45,
    "categories": {
        "writing": 5.875,
        "roleplay": 6.3,
        "reasoning": 3.5,
        "math": 2.85,
        "coding": 2.95,
        "extraction": 4.3,
        "stem": 7.4,
        "humanities": 7.625
    },
    "average": 5.1
}

📦 安裝指南

安裝直接依賴

pip install transformers torch sentencepiece

使用 flash - attention2 進行更快推理

如果你想使用 flash - attention2 進行更快的推理，需要安裝以下依賴：

pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary

💻 使用示例

基礎用法

from transformers import pipeline
import torch

system_prompt = """<|im_start|>system
Dies ist eine Unterhaltung zwischen einem intelligenten, hilfsbereitem KI-Assistenten und einem Nutzer.
Der Assistent gibt ausführliche, hilfreiche und ehrliche Antworten.<|im_end|>

"""
prompt_format = "<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
prompt = "Erkläre mir wie die Fahrradwegesituation in Hamburg ist."

generator = pipeline(model="LeoLM/leo-hessianai-7b-chat", device="cuda", torch_dtype=torch.float16, trust_remote_code=True) # True for flash-attn2 else False
print(generator(prompt_format.format(prompt=prompt), do_sample=True, top_p=0.95, max_length=8192))

輸出示例

"作為人工智能，我無法分享個人觀察，但我可以提供一些關於漢堡自行車道情況的一般信息。與許多其他大城市相比，漢堡的自行車騎行者數量眾多，並且非常重視可持續交通方式。這裡有許多自行車道和獨立車道，使騎行者能夠與機動車交通並行。這些自行車道通常有標記，並通過物理隔離與其他車道分隔開來。此外，還有許多自行車專用道，騎行者在這些道路上享有優先權，汽車必須減速行駛。

然而，在一些城市區域，自行車道可能會狹窄或擁擠，尤其是在高峰時段。也有許多十字路口，騎行者必須停車等待綠燈，這與汽車駕駛者類似。總體而言，漢堡的自行車基礎設施相當不錯，但和其他地方一樣，仍有改進的空間。"

📚 詳細文檔

提示模板

提示對話模板（ChatML 格式）：

"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""

模型輸入可以包含用戶和助手之間的多輪對話，例如：

<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)

道德考量與侷限性

LeoLM 已在英語和德語環境下進行了測試，但它並未涵蓋也無法涵蓋所有場景。因此，與所有大語言模型一樣，LeoLM/leo - hessianai - 7b - chat 的潛在輸出無法提前預測，在某些情況下，模型可能會對用戶提示產生不準確、有偏見或其他令人反感的回覆。所以，在部署 LeoLM/leo - hessianai - 7b - chat 的任何應用之前，開發者應針對模型的特定應用進行安全測試和調整。

請參閱 Meta 的 [負責任使用指南](https://ai.meta.com/llama/responsible - use - guide/)。

微調詳情

屬性	詳情
訓練輪數	3
每輪示例數	131214
全局批次大小	256
學習率	3e - 5
熱身步數	100
學習率調度器	Cosine
Adam 係數	(0.9, 0.95)

數據集詳情

## 'OpenAssistant/OASST - DE 子集' 統計信息 (3534 個樣本 (100.0%))
-----------------
  接受樣本數: 3534/3534 (100.0%)
  接受的標記數: 2259302
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 29
  每個樣本的最大標記數: 2484
  每個樣本的平均標記數: 639.3044708545557
-----------------

## 'FreedomIntelligence/evol - instruct - deutsch 子集' 統計信息 (57841 個樣本 (100.0%))
-----------------
  接受樣本數: 57841/57841 (100.0%)
  接受的標記數: 42958192
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 33
  每個樣本的最大標記數: 5507
  每個樣本的平均標記數: 742.6944900675991
-----------------

## 'FreedomIntelligence/alpaca - gpt4 - deutsch 子集' 統計信息 (48969 個樣本 (100.0%))
-----------------
  接受樣本數: 48969/48969 (100.0%)
  接受的標記數: 13372005
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 19
  每個樣本的最大標記數: 1359
  每個樣本的平均標記數: 273.07082031489307
-----------------

## 'LeoLM/OpenSchnabeltier 子集' 統計信息 (21314 個樣本 (100.0%))
-----------------
  接受樣本數: 21314/21314 (100.0%)
  接受的標記數: 8134690
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 25
  每個樣本的最大標記數: 1202
  每個樣本的平均標記數: 381.65947264708643
-----------------

## 'LeoLM/German_Poems 子集' 統計信息 (490 個樣本 (100.0%))
-----------------
  接受樣本數: 490/490 (100.0%)
  接受的標記數: 618642
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 747
  每個樣本的最大標記數: 1678
  每個樣本的平均標記數: 1262.534693877551
-----------------

## 'LeoLM/German_Songs 子集' 統計信息 (392 個樣本 (100.0%))
-----------------
  接受樣本數: 392/392 (100.0%)
  接受的標記數: 187897
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 231
  每個樣本的最大標記數: 826
  每個樣本的平均標記數: 479.3290816326531
-----------------

## '總計' 統計信息 (132540 個樣本 (100.0%))
-----------------
  接受樣本數: 132540/132540 (100.0%)
  接受的標記數: 67530728
  跳過樣本數: 0 (0.0%)
  每個樣本的最小標記數: 19
  每個樣本的最大標記數: 5507
  每個樣本的平均標記數: 509.51205673758864
-----------------

🔧 技術細節

屬性	詳情
模型類型	因果解碼器專用的Transformer語言模型
語言	英語和德語
演示	Web 演示
許可證	[LLAMA 2 社區許可協議](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt)
聯繫方式	LAION Discord 或 Björn Plüster