語言:
- 德語
- 保加利亞語
- 捷克語
- 丹麥語
- 希臘語
- 英語
- 西班牙語
- 愛沙尼亞語
- 芬蘭語
- 法語
- 愛爾蘭語
- 克羅地亞語
- 匈牙利語
- 意大利語
- 立陶宛語
- 拉脫維亞語
- 馬耳他語
- 荷蘭語
- 波蘭語
- 葡萄牙語
- 羅馬尼亞語
- 斯洛文尼亞語
- 瑞典語
- 斯洛伐克語
評估指標:
- 準確率
- BLEU分數
任務標籤: 文本生成
庫名稱: transformers
基礎模型:
- openGPT-X/Teuken-7B-base-v0.4
許可證: 其他
Teuken-7B-instruct-research-v0.4模型卡
Teuken-7B-instruct-research-v0.4是一個經過指令微調的70億參數多語言大語言模型(LLM),在OpenGPT-X研究項目中基於4萬億token預訓練而成。基礎模型Teuken-7B-base-v0.4可通過郵件📧contact@opengpt-x.de申請獲取。
模型描述
- 開發機構: 弗勞恩霍夫協會、於利希研究中心、德累斯頓工業大學、德國人工智能研究中心
- 資助方: 德國聯邦經濟事務和氣候保護部(BMWK)OpenGPT-X項目
- 模型類型: 基於Transformer的解碼器模型
- 支持語言: 保加利亞語、捷克語、丹麥語、德語、希臘語、英語、西班牙語、愛沙尼亞語、芬蘭語、法語、愛爾蘭語、克羅地亞語、匈牙利語、意大利語、立陶宛語、拉脫維亞語、馬耳他語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語
- 發佈方: OpenGPT-X
用途
該模型專注於覆蓋全部24種歐盟官方語言,相比以英語為中心的模型,能在這些語言間提供更穩定的結果,並更好體現歐洲價值觀。因此特別適合多語言任務場景。由於基礎模型訓練涵蓋24種歐盟語言,本模型也適用於這些語言的學術研究。
免責聲明:有害內容
本大語言模型可能生成不當、冒犯性或有害內容。雖然數據集已進行過濾以最小化此類輸出,但由於數據規模龐大且來源多樣,模型仍可能產生帶有偏見或毒性的文本。
非適用場景
本模型不適用於數學和編程任務。
偏見、風險與限制
本指令微調版本(基礎模型可郵件申請獲取)尚未完全消除偏見和幻覺問題。
快速開始
安裝依賴
python -m pip install numpy torch huggingface_hub transformers sentencepiece
使用示例
必須使用指定的提示模板,示例如下:
user="你好!"
lang_code = "DE"
system_messages={
"EN": "人類與AI助手的對話。助手需提供有幫助且禮貌的回答。",
"DE": "人類與AI助手的對話。助手需提供有幫助且禮貌的回答。",
}
prompt = f"System: {system_messages[lang_code]}\nUser: {user}\nAssistant:"
集成模板的Tokenizer使用方式:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
"openGPT-X/Teuken-7B-instruct-research-v0.4",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).to(device).eval()
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False, trust_remote_code=True)
messages = [{"role": "User", "content": "你好"}]
prompt_ids = tokenizer.apply_chat_template(messages, chat_template="DE", tokenize=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(prompt_ids.to(device), max_length=512, do_sample=True, top_k=50, top_p=0.95, temperature=0.7)
print(tokenizer.decode(output[0]))
vLLM服務部署
啟動服務:
vllm serve openGPT-X/Teuken-7B-instruct-research-v0.4 --trust-remote-code
API調用:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
completion = client.chat.completions.create(
model="openGPT-X/Teuken-7B-instruct-research-v0.4",
messages=[{"role": "User", "content": "你好"}],
extra_body={"chat_template":"DE"}
)
訓練詳情
預訓練數據
基於公開數據源的4萬億token,數據截止至2023年9月。
指令微調數據
採用英德雙語數據集均衡採樣:
- 英語:包含OpenOrca子集、LMSYS高質量對話等,通過Starling-RM-7B-alpha評分篩選
- 德語:完整採用Bactrian-X DE、evol-instruct-deutsch等數據集
訓練超參數
- 訓練目標:CLM
- 激活函數:SwiGLU
- 序列長度:4096
- 注意力頭數:32
- 學習率:3e-4→3e-5
- 優化器:AdamW(β1=0.9, β2=0.95)
- 精度:bf16
評估結果
在21種歐洲語言的綜合評估中表現:
模型 |
平均分 |
ARC |
HellaSwag |
TruthfulQA |
MMLU |
LLaMA-3.1-8B |
.563 |
.563 |
.579 |
.532 |
.576 |
Teuken-7B |
.543 |
.581 |
.624 |
.543 |
.425 |
詳細評估結果參見歐洲LLM排行榜和相關論文。
技術規格
模型架構
參數 |
值 |
層數 |
32 |
隱藏層維度 |
4096 |
注意力頭數 |
32 |
FFN維度 |
13440 |
歸一化 |
RMSNorm |
位置編碼 |
旋轉編碼 |
計算設施
基於JUWELS Booster超算,配備936個節點(每節點4×NVIDIA A100 40GB),通過HDR-200 InfiniBand互聯,使用Megatron-LM框架訓練。
引用
若使用本模型,請引用我們的預印本論文。
團隊
核心成員
數據團隊:Anirban Bhowmick等(IAIS)
模型團隊:Mehdi Ali(IAIS)、Michael Fromm(IAIS)等
評估團隊:Klaudia Thellmann(TUD)等
管理團隊:Joachim Köhler(IAIS)等
我們誠邀研究者通過Discord社區參與協作,共同推進歐洲生成式AI發展。