🚀 germeo-7b-laser
germeo-7b-laser 是一个从 Hermeo-7B 合并而来的模型,具备德英理解能力,但仅支持德语输出。该模型是关于激光对语言理解影响的早期实验,通常能提升语言理解能力。
🚀 快速开始
提示格式示例
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
prompt_template = """<|im_start|>system
Du bist ein hilfreicher Assistent.<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant"""
prompt = "Schreibe eine Stellenanzeige für Data Scientist bei AXA!"
final_prompt = prompt_template.format(prompt=prompt)
限制模型仅输出回复
要解决这个问题,你需要实现一个自定义停止标准:
from transformers import StoppingCriteria
class GermeoStoppingCriteria(StoppingCriteria):
def __init__(self, target_sequence, prompt):
self.target_sequence = target_sequence
self.prompt=prompt
def __call__(self, input_ids, scores, **kwargs):
generated_text = tokenizer.decode(input_ids[0])
generated_text = generated_text.replace(self.prompt,'')
if self.target_sequence in generated_text:
return True
return False
def __len__(self):
return 1
def __iter__(self):
yield self
然后,将格式化后的输入提示和停止标准(在这种情况下是 <|im_end|>
标记)添加到生成过程中:
generation_output = model.generate(
tokens,
streamer=streamer,
max_new_tokens=1012,
stopping_criteria=GermeoStoppingCriteria("<|im_end|>", prompt_template.format(prompt=prompt))
)
✨ 主要特性
- 语言能力:具备德英理解能力,但仅支持德语输出。
- 模型融合:由
leo-mistral-hessianai-7b-chat
和 DPOpenHermes-7B-v2
合并而来。
- 实验特性:是关于激光对语言理解影响的早期实验,通常能提升语言理解能力。
📚 详细文档
模型详情
属性 |
详情 |
合并来源 |
leo-mistral-hessianai-7b-chat 和 DPOpenHermes-7B-v2 |
模型类型 |
因果解码器式变压器语言模型 |
支持语言 |
具备英语理解能力,输出德语回复 |
激光数据 |
LeoLM/OpenSchnabeltier |
这是一个关于激光及其对语言理解影响的早期实验,总体上提升了语言理解能力。假设是它降低了英语回复的概率,增加了德语回复的概率,增强了模型内部的德语能力。后续会持续更新。
致谢
感谢所有参与使这个模型及其训练成为可能的人:
德语基准测试
德语任务 |
MMLU-DE |
Hellaswag-DE |
ARC-DE |
平均 |
模型/少样本学习 |
(5 次少样本) |
(10 次少样本) |
(24 次少样本) |
|
7B 参数模型 |
|
|
|
|
llama-2-7b |
0.400 |
0.513 |
0.381 |
0.431 |
leo-hessianai-7b |
0.400 |
0.609 |
0.429 |
0.479 |
bloom-6b4-clp-german |
0.274 |
0.550 |
0.351 |
0.392 |
mistral-7b |
0.524 |
0.588 |
0.473 |
0.528 |
leo-mistral-hessianai-7b |
0.481 |
0.663 |
0.485 |
0.543 |
leo-mistral-hessianai-7b-chat |
0.458 |
0.617 |
0.465 |
0.513 |
DPOpenHermes-7B-v2 |
0.517 |
0.603 |
0.515 |
0.545 |
hermeo-7b |
0.511 |
0.668 |
0.528 |
0.569 |
germeo-7b-laser(本模型) |
? |
? |
? |
? |
13B 参数模型 |
|
|
|
|
llama-2-13b |
0.469 |
0.581 |
0.468 |
0.506 |
leo-hessianai-13b |
0.486 |
0.658 |
0.509 |
0.551 |
70B 参数模型 |
|
|
|
|
llama-2-70b |
0.597 |
0.674 |
0.561 |
0.611 |
leo-hessianai-70b |
0.653 |
0.721 |
0.600 |
0.658 |
尽管该模型在未明确要求的情况下不会生成英语文本,但在英语基准测试中的表现仍然不错:
英语基准测试
英语任务 |
MMLU |
Hellaswag |
ARC |
平均 |
模型/少样本学习 |
(5 次少样本) |
(10 次少样本) |
(24 次少样本) |
|
llama-2-7b |
0.466 |
0.786 |
0.530 |
0.594 |
leolm-hessianai-7b |
0.423 |
0.759 |
0.522 |
0.568 |
bloom-6b4-clp-german |
0.264 |
0.525 |
0.328 |
0.372 |
mistral-7b |
0.635 |
0.832 |
0.607 |
0.691 |
leolm-mistral-hessianai-7b |
0.550 |
0.777 |
0.518 |
0.615 |
hermeo-7b |
0.601 |
0.821 |
0.620 |
0.681 |
germeo-7b-laser(本模型) |
0.601 |
0.828 |
0.608 |
0.679 |
详细结果可查看 此处
指标 |
值 |
平均 |
62.82 |
AI2 推理挑战(25 次少样本) |
60.75 |
HellaSwag(10 次少样本) |
82.81 |
MMLU(5 次少样本) |
60.57 |
TruthfulQA(0 次少样本) |
53.83 |
Winogrande(5 次少样本) |
75.61 |
GSM8k(5 次少样本) |
43.37 |
📄 许可证
本模型采用 Apache-2.0 许可证。