🚀 Sonya-7B模型
Sonya-7B是一款表现出色的模型,在MT-Bench首回合表现中排名第一,总体排名第二。它适用于包括助手、角色扮演等在内的各种任务。
🚀 快速开始
Sonya-7B在MT-Bench评测中表现优异,首回合排名领先GPT-4,总体排名第二。它由多个模型合并而成,在实际应用中具有一定的优势,但也存在一些局限性。基于其父模型,建议使用8192上下文窗口,可尝试使用NTK缩放alpha为2.6来测试16384上下文。
✨ 主要特性
- 高性能:在MT-Bench评测中表现出色,首回合排名第一,总体排名第二。
- 多用途:适用于包括助手、角色扮演等在内的各种任务。
- 上下文窗口:建议使用8192上下文窗口,可尝试16384上下文。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
文档未提供基础用法的代码示例,故跳过该部分。
高级用法
文档未提供高级用法的代码示例,故跳过该部分。
📚 详细文档
模型介绍
Sonya-7B与之前的Silicon-Maid-7B结构相似,是由以下模型合并而成:
选择这些模型的原因如下:
- MT-Bench通常与真实世界的模型质量有很好的相关性,xDAN在该评测中表现出色。
- 混合模型中几乎所有模型都采用Alpaca提示格式,保证了提示的一致性。
- Stealth v1.2似乎能提高MT-Bench得分。
- 添加角色扮演模型可以提升写作和角色扮演基准测试的表现。
模型合并细节
models:
- model: xDAN-AI/xDAN-L1-Chat-RL-v1
parameters:
weight: 1
density: 1
- model: chargoddard/piano-medley-7b
parameters:
weight: 0.3
- model: jan-hq/stealth-v1.2
parameters:
weight: 0.2
- model: NeverSleep/Noromaid-7b-v0.2
parameters:
weight: 0.2
- model: athirdpath/NSFW_DPO_vmgb-7b
parameters:
weight: 0.2
merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
density: 0.4
int8_mask: true
normalize: true
dtype: bfloat16
此合并过程没有进行额外的训练、微调或DPO。
提示模板
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
使用xDAN提示格式时,该模型表现较差,因此不建议使用。
基准测试结果
MT-Bench平均回合得分
模型 |
得分 |
规模 |
gpt-4 |
8.99 |
- |
Sonya-7B |
8.52 |
7b |
xDAN-L1-Chat-RL-v1 |
8.34 |
7b |
Starling-7B |
8.09 |
7b |
Claude-2 |
8.06 |
- |
Silicon-Maid |
7.96 |
7b |
Loyal-Macaroni-Maid |
7.95 |
7b |
gpt-3.5-turbo |
7.94 |
20b? |
Claude-1 |
7.90 |
- |
OpenChat-3.5 |
7.81 |
- |
vicuna-33b-v1.3 |
7.12 |
33b |
wizardlm-30b |
7.01 |
30b |
Llama-2-70b-chat |
6.86 |
70b |
首回合得分
模型 |
回合 |
得分 |
规模 |
Sonya-7B |
1 |
9.06875 |
7b |
gpt-4 |
1 |
8.95625 |
- |
xDAN-L1-Chat-RL-v1 |
1 |
8.87500 |
7b |
xDAN-L2-Chat-RL-v2 |
1 |
8.78750 |
30b |
claude-v1 |
1 |
8.15000 |
- |
gpt-3.5-turbo |
1 |
8.07500 |
20b |
vicuna-33b-v1.3 |
1 |
7.45625 |
33b |
wizardlm-30b |
1 |
7.13125 |
30b |
oasst-sft-7-llama-30b |
1 |
7.10625 |
30b |
Llama-2-70b-chat |
1 |
6.98750 |
70b |
第二回合得分
模型 |
回合 |
得分 |
规模 |
gpt-4 |
2 |
9.025000 |
- |
xDAN-L2-Chat-RL-v2 |
2 |
8.087500 |
30b |
Sonya-7B |
2 |
7.962500 |
7b |
xDAN-L1-Chat-RL-v1 |
2 |
7.825000 |
7b |
gpt-3.5-turbo |
2 |
7.812500 |
20b |
claude-v1 |
2 |
7.650000 |
- |
wizardlm-30b |
2 |
6.887500 |
30b |
vicuna-33b-v1.3 |
2 |
6.787500 |
33b |
Llama-2-70b-chat |
2 |
6.725000 |
70b |
若要复现MT-Bench评测,请确保对模型应用Alpaca提示模板。
🔧 技术细节
文档未提供详细的技术实现细节,故跳过该章节。
📄 许可证
本模型采用CC BY 4.0许可证。