Llama-3-KafkaLM-8B-v0.1开源德语大模型 - 助力德语商业场景应用

首页

Llama 3 KafkaLM 8B V0.1

由 seedboxai 开发

KafkaLM 8b是基于Llama3 8b模型微调而成的德语大语言模型，专注于德语商业场景应用

大型语言模型

Transformers

支持多种语言#德语商业场景优化 #多任务指令微调 #英德双语生成

下载量 17

发布时间 : 4/24/2024

模型简介

基于Llama3 8b微调的德语大语言模型，旨在为德语AI社区提供高质量的德语处理能力，特别适用于仅使用英语不足以应对的德语商业场景

模型特点

德语优化

专门针对德语进行微调，在德语处理能力上优于原始Llama3模型

商业场景适用

特别适合德语商业场景应用，解决纯英语模型在德语环境中的不足

高质量训练数据

使用经过翻译和过滤的高质量开源指令集进行训练

模型能力

德语文本生成

英语文本生成

多轮对话

知识问答

使用案例

商业应用

德语商业文档生成

生成符合德语商业规范的各类文档

可生成专业、地道的德语商业文本

德语客户服务

用于德语客户服务场景的自动回复

提供自然流畅的德语客户服务对话

教育应用

德语学习辅助

帮助德语学习者练习语言表达

提供准确的德语表达示例和解释

🚀 Llama-3-KafkaLM-8B-v0.1

KafkaLM 8b 是一个基于 Llama3 的 80 亿参数模型，它在一系列流行的高质量开源指令集（从英语翻译成德语）上进行了微调。Llama 3 KafkaLM 8b 是由 Dennis Dickmann 为 Seedbox 项目所训练的。

为什么叫 Kafka？ 这些模型既专业又富有创造力，并且在语言表达上有突破边界的倾向 😊

🚀 快速开始

使用该模型的入门步骤很简单：

import transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "seedboxai/Llama-3-KafkaLM-8B-v0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)

pipeline = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  
    task='text-generation',
    device="cuda",
)

messages = [
    {"role": "system", "content": "Du bist ein hilfreicher KI-Assistent."},
    {"role": "user", "content": "Wer ist eigentlich dieser Kafka?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=max_new_tokens,
    num_beams=5,
    num_return_sequences=1,
    early_stopping=True,
    eos_token_id=terminators,
    do_sample=True,
    temperature=temperature,
    top_p=0.9,
)

print(outputs[0]["generated_text"][len(prompt):])

<|start_header_id|>system<|end_header_id|>Du bist ein hilfreicher KI-Assistent.<|eot_id|>
<|start_header_id|>user<|end_header_id|>Wer ist eigentlich dieser Kafka?<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>Franz Kafka (1883-1924) war ein tschechisch-österreichischer Schriftsteller,
der als einer der bedeutendsten Autoren des 20. Jahrhunderts gilt. Seine Werke sind geprägt von existenzieller Angst, Isolation, Verwirrung und Absurdität.
Kafka wurde in Prag, Österreich-Ungarn (heute Tschechische Republik), geboren und wuchs in einer jüdischen Familie auf.
Er studierte Rechtswissenschaften und arbeitete als Versicherungsangestellter, bevor er sich dem Schreiben zuwandte.

Kafkas literarisches Werk umfasst Romane, Erzählungen, Briefe und Tagebücher. Zu seinen bekanntesten Werken gehören "Der Prozess" (1925),
"Das Schloss" (1926) und "Die Verwandlung" (1915). Seine Geschichten sind geprägt von surrealen, traumähnlichen Szenarien,
in denen die Charaktere oft in Situationen geraten, die sie nicht verstehen oder kontrollieren können.

Kafkas Werk hat einen tiefgreifenden Einfluss auf die Literatur und Kultur des 20. Jahrhunderts gehabt.
Seine Werke wurden in viele Sprachen übersetzt und inspirierten Autoren wie Albert Camus, Jean-Paul Sartre, Samuel Beckett und Thomas Mann.

Kafka starb 1924 im Alter von 40 Jahren an Tuberkulose. Trotz seines relativ kurzen Lebens hat er einen bleibenden Eindruck auf die Literatur und Kultur hinterlassen.

✨ 主要特性

面向德语社区：发布 KafkaLM 系列 的目的是为德国人工智能社区贡献一套易于在日常各种任务应用中使用的微调大语言模型。
特定场景适用：主要目标是提供精通德语的大语言模型，尤其适用于仅使用英语不足够的德语商业场景。

📚 详细文档

📦 安装指南

文档未提及安装相关内容，暂无法提供安装指南。

🔍 数据集

我使用了 seedboxai/multitask_german_examples_32k 的 8k 过滤版本。

💻 使用示例

基础用法

import transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "seedboxai/Llama-3-KafkaLM-8B-v0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)

pipeline = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  
    task='text-generation',
    device="cuda",
)

messages = [
    {"role": "system", "content": "Du bist ein hilfreicher KI-Assistent."},
    {"role": "user", "content": "Wer ist eigentlich dieser Kafka?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=max_new_tokens,
    num_beams=5,
    num_return_sequences=1,
    early_stopping=True,
    eos_token_id=terminators,
    do_sample=True,
    temperature=temperature,
    top_p=0.9,
)

print(outputs[0]["generated_text"][len(prompt):])