KafkaLM-70B-German-V0.1开源大模型 - 专为德语商务场景打造

首页

Kafkalm 70B German V0.1

由 seedboxai 开发

基于Llama2 70B开发的德语大语言模型，专注于德语商务场景应用

大型语言模型

Transformers

德语#德语商务助手 #70B大参数 #多任务微调

下载量 159

发布时间 : 1/29/2024

模型简介

KafkaLM 70b是基于Llama2 70B基础模型开发的70B参数德语模型，通过在高质量开源指令集上进行微调训练而成，特别适合德语商务场景使用

模型特点

德语专业化

专注于德语语言处理，特别适合德语商务场景应用

高质量微调

在高质量开源德语指令集上进行微调训练

大参数规模

70B参数规模，具备强大的语言理解和生成能力

模型能力

德语文本生成

德语问答

德语商务文本处理

使用案例

商务应用

德语商务沟通

生成专业德语商务邮件、报告等文档

提供符合德语商务习惯的专业文本

德语客户支持

用于德语客户服务问答系统

准确理解并回答德语客户咨询

教育应用

德语学习辅助

帮助德语学习者练习写作和语法

提供准确的德语语言反馈

🚀 KafkaLM-70B-German-V0.1

KafkaLM-70B-German-V0.1 是一个基于 Llama2 70B基础模型的700亿参数模型，它在一系列流行的高质量开源指令集（从英语翻译成德语）上进行了微调。该模型由 Dennis Dickmann 为 Seedbox 项目所训练。之所以命名为“Kafka”，是因为该模型不仅能力出色，还富有创造性，在语言表达上有突破常规的倾向😊。

image/jpeg

🚀 快速开始

使用该模型进行推理非常简单，以下是示例代码：

import transformers

model_id = "seedboxai/KafkaLM-70B-German-V0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained(model_id)

tokenizer.padding_side = "right" 
tokenizer.pad_token = tokenizer.unk_token 
tokenizer.add_eos_token = False

def generate_prompt(input):
    prompt = ''
    sys_prompt = "Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen."
    
    prompt += f"<|system|>\n{sys_prompt.strip()}</s>\n"
    prompt += f"<|user|>\n{input.strip()}</s>\n"
    prompt += f"<|assistant|>\n"

    return prompt.strip()


generate_text = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  
    task='text-generation',
    temperature=0.5,  
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    do_sample=True,
)

print(generate_text(generate_prompt("Wer ist eigentlich dieser Kafka?"))

✨ 主要特性

发布 KafkaLM系列 模型的目的是为德国AI社区贡献一套易于在日常各种任务应用中使用的微调大语言模型。其主要目标是提供精通德语的大语言模型，特别是适用于仅使用英语无法满足需求的德语商业场景。

📚 详细文档

数据集

本模型使用了 seedboxai/multitask_german_examples_32k 数据集的4k过滤版本。

提示词格式

该模型遵循以下提示词格式：

<|system|>
Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen.</s>
<|user|>
Welche Möglichkeiten der energetischen Sanierung habe ich neben Solar und Energiespeicher?</s>
<|assistant|>