KafkaLM-70B-German-V0.1開源大模型 - 專為德語商務場景打造

首頁

Kafkalm 70B German V0.1

由seedboxai開發

基於Llama2 70B開發的德語大語言模型，專注於德語商務場景應用

大型語言模型

Transformers

德語#德語商務助手 #70B大參數 #多任務微調

下載量 159

發布時間 : 1/29/2024

模型概述

KafkaLM 70b是基於Llama2 70B基礎模型開發的70B參數德語模型，通過在高質量開源指令集上進行微調訓練而成，特別適合德語商務場景使用

模型特點

德語專業化

專注於德語語言處理，特別適合德語商務場景應用

高質量微調

在高質量開源德語指令集上進行微調訓練

大參數規模

70B參數規模，具備強大的語言理解和生成能力

模型能力

德語文本生成

德語問答

德語商務文本處理

使用案例

商務應用

德語商務溝通

生成專業德語商務郵件、報告等文檔

提供符合德語商務習慣的專業文本

德語客戶支持

用於德語客戶服務問答系統

準確理解並回答德語客戶諮詢

教育應用

德語學習輔助

幫助德語學習者練習寫作和語法

提供準確的德語語言反饋

🚀 KafkaLM-70B-German-V0.1

KafkaLM-70B-German-V0.1 是一個基於 Llama2 70B基礎模型的700億參數模型，它在一系列流行的高質量開源指令集（從英語翻譯成德語）上進行了微調。該模型由 Dennis Dickmann 為 Seedbox 項目所訓練。之所以命名為“Kafka”，是因為該模型不僅能力出色，還富有創造性，在語言表達上有突破常規的傾向😊。

image/jpeg

🚀 快速開始

使用該模型進行推理非常簡單，以下是示例代碼：

import transformers

model_id = "seedboxai/KafkaLM-70B-German-V0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained(model_id)

tokenizer.padding_side = "right" 
tokenizer.pad_token = tokenizer.unk_token 
tokenizer.add_eos_token = False

def generate_prompt(input):
    prompt = ''
    sys_prompt = "Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen."
    
    prompt += f"<|system|>\n{sys_prompt.strip()}</s>\n"
    prompt += f"<|user|>\n{input.strip()}</s>\n"
    prompt += f"<|assistant|>\n"

    return prompt.strip()


generate_text = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  
    task='text-generation',
    temperature=0.5,  
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    do_sample=True,
)

print(generate_text(generate_prompt("Wer ist eigentlich dieser Kafka?"))

✨ 主要特性

發佈 KafkaLM系列 模型的目的是為德國AI社區貢獻一套易於在日常各種任務應用中使用的微調大語言模型。其主要目標是提供精通德語的大語言模型，特別是適用於僅使用英語無法滿足需求的德語商業場景。

📚 詳細文檔

數據集

本模型使用了 seedboxai/multitask_german_examples_32k 數據集的4k過濾版本。

提示詞格式

該模型遵循以下提示詞格式：

<|system|>
Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen.</s>
<|user|>
Welche Möglichkeiten der energetischen Sanierung habe ich neben Solar und Energiespeicher?</s>
<|assistant|>