🚀 Metharme 1.3B
Metharme 1.3B 是一个经过指令微调的模型,基于 Pythia 架构,在虚构写作和对话场景中表现出色,为用户提供了更加生动和富有创意的交互体验。
🚀 快速开始
Metharme 1.3B 是一个基于 EleutherAI 的 Pythia 1.4B Deduped 的指令模型。这是一次尝试,旨在获得一个可用于对话、角色扮演和故事写作的模型,并且可以像其他指令模型一样使用自然语言进行引导。有关示例,请参阅下面的提示方式部分。
✨ 主要特性
该模型通过在常规指令数据、角色扮演、虚构故事和带有合成生成指令的对话的混合数据上进行监督微调来进行训练。
📚 详细文档
提示方式
当前模型版本已针对使用三种不同角色的提示进行了训练,这些角色由以下标记表示:<|system|>
、<|user|>
和 <|model|>
。
<|system|>
提示可用于在幕后注入非渠道信息,而 <|user|>
提示应用于指示用户输入。然后,应使用 <|model|>
标记来指示模型应生成响应。这些标记可以多次出现并链接起来形成对话历史。
提示示例
以下是一个具体示例。假设您有以下系统提示:
这是一个文本冒险游戏。向用户描述场景,并在每一轮为他提供三个选项供其选择。
并且用户输入了以下消息:
开始!
要对模型进行推理,提示应按如下格式设置:
<|system|>这是一个文本冒险游戏。向用户描述场景,并在每一轮为他提供三个选项供其选择。<|user|>开始!<|model|>
模型可能会生成如下内容:
你站在一座古老废弃的房子前。窗户都用木板封住了,周围没有生命的迹象。当你走近时,你注意到里面散发出一种奇怪的感觉。突然,你听到一个声音在呼唤你……“进来吧!”
当模型判断响应完成时,它将自动发出文本结束标记 (<|endoftext|>
)。
假设用户回复了 进入房子
。下一个提示应如下所示:
<|system|>这是一个文本冒险游戏。向用户描述场景,并在每一轮为他提供三个选项供其选择。<|user|>开始!<|model|>你站在一座古老废弃的房子前。窗户都用木板封住了,周围没有生命的迹象。当你走近时,你注意到里面散发出一种奇怪的感觉。突然,你听到一个声音在呼唤你……“进来吧!”
- 进入房子。
- 忽略呼唤,离开。
- 尽快跑开。<|user|>进入房子<|model|>
这可能会生成如下内容:
你进入房子,立刻,一股不安的能量席卷而来。你的感官似乎变得敏锐,但你的头脑却感到模糊。一个身影出现在你面前——一个目光锐利的高个子男人。他用你听不懂的语言跟你说话。
同样的过程适用。通常,最好在用户和模型的回合上进行滑动窗口操作,但要将系统提示固定在上下文窗口的开头。
评估指标
该模型使用 EleutherAI 的 lm-evaluation-harness 测试套件进行评估。它在以下任务上进行了评估:
属性 |
详情 |
模型类型 |
基于 Pythia 1.4B Deduped 的指令模型 |
训练数据 |
常规指令数据、角色扮演、虚构故事和带有合成生成指令的对话的混合数据 |
任务 |
版本 |
指标 |
值 |
|
标准误差 |
anli_r1 |
0 |
acc |
0.3430 |
± |
0.0150 |
anli_r2 |
0 |
acc |
0.3330 |
± |
0.0149 |
anli_r3 |
0 |
acc |
0.3350 |
± |
0.0136 |
arc_challenge |
0 |
acc |
0.2747 |
± |
0.0130 |
|
|
acc_norm |
0.3114 |
± |
0.0135 |
arc_easy |
0 |
acc |
0.6237 |
± |
0.0099 |
|
|
acc_norm |
0.5631 |
± |
0.0102 |
boolq |
1 |
acc |
0.6214 |
± |
0.0085 |
cb |
1 |
acc |
0.1964 |
± |
0.0536 |
|
|
f1 |
0.1712 |
|
|
hellaswag |
0 |
acc |
0.4295 |
± |
0.0049 |
|
|
acc_norm |
0.5496 |
± |
0.0050 |
openbookqa |
0 |
acc |
0.2360 |
± |
0.0190 |
|
|
acc_norm |
0.3360 |
± |
0.0211 |
piqa |
0 |
acc |
0.7285 |
± |
0.0104 |
|
|
acc_norm |
0.7318 |
± |
0.0103 |
rte |
0 |
acc |
0.5235 |
± |
0.0301 |
truthfulqa_mc |
1 |
mc1 |
0.2436 |
± |
0.0150 |
|
|
mc2 |
0.3791 |
± |
0.0142 |
wic |
0 |
acc |
0.5000 |
± |
0.0198 |
winogrande |
0 |
acc |
0.5675 |
± |
0.0139 |
wsc |
0 |
acc |
0.3654 |
± |
0.0474 |
Metharme-1.3B 与 Pygmalion-6B、Metharme-7B 和 RedPajama-INCITE-Chat-3B-v1 在基准测试中的性能对比图示:

局限性和偏差
由于该模型比 Metharme 7B 和 13B 小,其连贯性很可能会受到影响。
此模型的预期用例是用于娱乐目的的虚构写作。任何其他类型的使用均不在范围内。
因此,该模型未针对安全性和无害性进行微调:基础模型和此微调版本均在已知包含亵渎性和淫秽或其他冒犯性文本的数据上进行了训练。即使提示本身不包含任何明确的冒犯性内容,它也可能产生社会不可接受或不良的文本。输出往往可能在事实方面是错误的或具有误导性。
📄 许可证
本项目采用 Apache-2.0 许可证。