🚀 KafkaLM-13B-German-V0.1
KafkaLM 13b は、Björn Plüster と LAION からの大規模なドイツ語データセットでさらに事前学習された Llama2 13b モデルです。leo-hessianai-13b を、人気の高品質なオープンソース命令セットのアンサンブル(英語からドイツ語に翻訳)でファインチューニングしたものです。
KafkaLM 13b は Seedbox のプロジェクトで、Dennis Dickmann によって訓練されました。
なぜ Kafka なのか?
このモデルは熟練しているだけでなく、創造性に富み、言語的に境界を押し広げる傾向があります😊

🚀 クイックスタート
このモデルを使い始めるには、以下のコードを参考にしてください。
import transformers
model_id = "seedboxai/KafkaLM-13B-German-V0.1"
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.padding_side = "right"
tokenizer.pad_token = tokenizer.unk_token
tokenizer.add_eos_token = False
def generate_prompt(input):
prompt = ''
sys_prompt = "Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen."
prompt += f"<|system|>\n{sys_prompt.strip()}</s>\n"
prompt += f"<|user|>\n{input.strip()}</s>\n"
prompt += f"<|assistant|>\n"
return prompt.strip()
generate_text = transformers.pipeline(
model=model, tokenizer=tokenizer,
return_full_text=True,
task='text-generation',
temperature=0.5,
max_new_tokens=512,
top_p=0.95,
top_k=50,
do_sample=True,
)
print(generate_text(generate_prompt("Wer ist eigentlich dieser Kafka?")))
✨ 主な機能
KafkaLM シリーズ をリリースする目的は、さまざまなタスクにおいて日常のアプリケーションで簡単に使用できる、ファインチューニングされた大規模言語モデル(LLM)のセットをドイツ語のAIコミュニティに貢献することです。主な目標は、ドイツ語に精通したLLMを提供し、特に英語だけでは不十分なドイツ語圏のビジネス環境で使用できるようにすることです。
📚 ドキュメント
データセット
次の seedboxai/multitask_german_examples_32k の 8k フィルター版を使用しました。
プロンプト形式
このモデルは以下のプロンプト形式に従います。
<|system|>
Du bist ein freundlicher und hilfsbereiter KI-Assistent. Du beantwortest Fragen faktenorientiert und präzise, ohne dabei relevante Fakten auszulassen.</s>
<|user|>
Welche Möglichkeiten der energetischen Sanierung habe ich neben Solar und Energiespeicher?</s>
<|assistant|>
📄 ライセンス
このモデルのライセンスは法的なアドバイスを構成するものではありません。このモデルを使用する第三者の行動については責任を負いません。このモデルは研究目的のみで使用すべきです。元の Llama2 ライセンスとこのモデルの訓練に使用されたデータセットのすべての制限が適用されます。