🚀 KafkaLM-70B-German-V0.1
KafkaLM-70B-German-V0.1 是一个基于 Llama2 70B基础模型 的700亿参数模型,它在一系列流行的高质量开源指令集(从英语翻译成德语)上进行了微调。该模型由 Dennis Dickmann 为 Seedbox 项目所训练。之所以命名为“Kafka”,是因为该模型不仅能力出色,还富有创造性,在语言表达上有突破常规的倾向😊。

🚀 快速开始
使用该模型进行推理非常简单,以下是示例代码:
import transformers
model_id = "seedboxai/KafkaLM-70B-German-V0.1"
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.padding_side = "right"
tokenizer.pad_token = tokenizer.unk_token
tokenizer.add_eos_token = False
def generate_prompt(input):
prompt = ''
sys_prompt = "Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen."
prompt += f"<|system|>\n{sys_prompt.strip()}</s>\n"
prompt += f"<|user|>\n{input.strip()}</s>\n"
prompt += f"<|assistant|>\n"
return prompt.strip()
generate_text = transformers.pipeline(
model=model, tokenizer=tokenizer,
return_full_text=True,
task='text-generation',
temperature=0.5,
max_new_tokens=512,
top_p=0.95,
top_k=50,
do_sample=True,
)
print(generate_text(generate_prompt("Wer ist eigentlich dieser Kafka?"))
✨ 主要特性
发布 KafkaLM系列 模型的目的是为德国AI社区贡献一套易于在日常各种任务应用中使用的微调大语言模型。其主要目标是提供精通德语的大语言模型,特别是适用于仅使用英语无法满足需求的德语商业场景。
📚 详细文档
数据集
本模型使用了 seedboxai/multitask_german_examples_32k 数据集的4k过滤版本。
提示词格式
该模型遵循以下提示词格式:
<|system|>
Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen.</s>
<|user|>
Welche Möglichkeiten der energetischen Sanierung habe ich neben Solar und Energiespeicher?</s>
<|assistant|>
📄 许可证
本模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。此模型仅应用于研究目的,原始Llama2许可证以及用于训练此模型的所有数据集的限制均适用。