🚀 Llama-3-KafkaLM-8B-v0.1
KafkaLM 8b 是一个基于 Llama3 的 80 亿参数模型,它在一系列流行的高质量开源指令集(从英语翻译成德语)上进行了微调。Llama 3 KafkaLM 8b 是由 Dennis Dickmann 为 Seedbox 项目所训练的。
为什么叫 Kafka? 这些模型既专业又富有创造力,并且在语言表达上有突破边界的倾向 😊
🚀 快速开始
使用该模型的入门步骤很简单:
import transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "seedboxai/Llama-3-KafkaLM-8B-v0.1"
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
pipeline = transformers.pipeline(
model=model, tokenizer=tokenizer,
return_full_text=True,
task='text-generation',
device="cuda",
)
messages = [
{"role": "system", "content": "Du bist ein hilfreicher KI-Assistent."},
{"role": "user", "content": "Wer ist eigentlich dieser Kafka?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=max_new_tokens,
num_beams=5,
num_return_sequences=1,
early_stopping=True,
eos_token_id=terminators,
do_sample=True,
temperature=temperature,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
<|start_header_id|>system<|end_header_id|>Du bist ein hilfreicher KI-Assistent.<|eot_id|>
<|start_header_id|>user<|end_header_id|>Wer ist eigentlich dieser Kafka?<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>Franz Kafka (1883-1924) war ein tschechisch-österreichischer Schriftsteller,
der als einer der bedeutendsten Autoren des 20. Jahrhunderts gilt. Seine Werke sind geprägt von existenzieller Angst, Isolation, Verwirrung und Absurdität.
Kafka wurde in Prag, Österreich-Ungarn (heute Tschechische Republik), geboren und wuchs in einer jüdischen Familie auf.
Er studierte Rechtswissenschaften und arbeitete als Versicherungsangestellter, bevor er sich dem Schreiben zuwandte.
Kafkas literarisches Werk umfasst Romane, Erzählungen, Briefe und Tagebücher. Zu seinen bekanntesten Werken gehören "Der Prozess" (1925),
"Das Schloss" (1926) und "Die Verwandlung" (1915). Seine Geschichten sind geprägt von surrealen, traumähnlichen Szenarien,
in denen die Charaktere oft in Situationen geraten, die sie nicht verstehen oder kontrollieren können.
Kafkas Werk hat einen tiefgreifenden Einfluss auf die Literatur und Kultur des 20. Jahrhunderts gehabt.
Seine Werke wurden in viele Sprachen übersetzt und inspirierten Autoren wie Albert Camus, Jean-Paul Sartre, Samuel Beckett und Thomas Mann.
Kafka starb 1924 im Alter von 40 Jahren an Tuberkulose. Trotz seines relativ kurzen Lebens hat er einen bleibenden Eindruck auf die Literatur und Kultur hinterlassen.
✨ 主要特性
- 面向德语社区:发布 KafkaLM 系列 的目的是为德国人工智能社区贡献一套易于在日常各种任务应用中使用的微调大语言模型。
- 特定场景适用:主要目标是提供精通德语的大语言模型,尤其适用于仅使用英语不足够的德语商业场景。
📚 详细文档
📦 安装指南
文档未提及安装相关内容,暂无法提供安装指南。
🔍 数据集
我使用了 seedboxai/multitask_german_examples_32k 的 8k 过滤版本。
💻 使用示例
基础用法
import transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "seedboxai/Llama-3-KafkaLM-8B-v0.1"
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
pipeline = transformers.pipeline(
model=model, tokenizer=tokenizer,
return_full_text=True,
task='text-generation',
device="cuda",
)
messages = [
{"role": "system", "content": "Du bist ein hilfreicher KI-Assistent."},
{"role": "user", "content": "Wer ist eigentlich dieser Kafka?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=max_new_tokens,
num_beams=5,
num_return_sequences=1,
early_stopping=True,
eos_token_id=terminators,
do_sample=True,
temperature=temperature,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
📄 许可证
本模型的许可证不构成法律建议。我们不对使用此模型的第三方行为负责。此模型仅应用于研究目的。原始 Llama3 许可证以及用于训练此模型的所有数据集的限制均适用,该模型使用的许可证为 llama3。
属性 |
详情 |
模型类型 |
Llama3 8b 微调模型 |
训练数据 |
seedboxai/multitask_german_examples_32k 的 8k 过滤版本 |
