🚀 Sonya-7B模型
Sonya-7B是一款表現出色的模型,在MT-Bench首回合表現中排名第一,總體排名第二。它適用於包括助手、角色扮演等在內的各種任務。
🚀 快速開始
Sonya-7B在MT-Bench評測中表現優異,首回合排名領先GPT-4,總體排名第二。它由多個模型合併而成,在實際應用中具有一定的優勢,但也存在一些侷限性。基於其父模型,建議使用8192上下文窗口,可嘗試使用NTK縮放alpha為2.6來測試16384上下文。
✨ 主要特性
- 高性能:在MT-Bench評測中表現出色,首回合排名第一,總體排名第二。
- 多用途:適用於包括助手、角色扮演等在內的各種任務。
- 上下文窗口:建議使用8192上下文窗口,可嘗試16384上下文。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
文檔未提供基礎用法的代碼示例,故跳過該部分。
高級用法
文檔未提供高級用法的代碼示例,故跳過該部分。
📚 詳細文檔
模型介紹
Sonya-7B與之前的Silicon-Maid-7B結構相似,是由以下模型合併而成:
選擇這些模型的原因如下:
- MT-Bench通常與真實世界的模型質量有很好的相關性,xDAN在該評測中表現出色。
- 混合模型中幾乎所有模型都採用Alpaca提示格式,保證了提示的一致性。
- Stealth v1.2似乎能提高MT-Bench得分。
- 添加角色扮演模型可以提升寫作和角色扮演基準測試的表現。
模型合併細節
models:
- model: xDAN-AI/xDAN-L1-Chat-RL-v1
parameters:
weight: 1
density: 1
- model: chargoddard/piano-medley-7b
parameters:
weight: 0.3
- model: jan-hq/stealth-v1.2
parameters:
weight: 0.2
- model: NeverSleep/Noromaid-7b-v0.2
parameters:
weight: 0.2
- model: athirdpath/NSFW_DPO_vmgb-7b
parameters:
weight: 0.2
merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
density: 0.4
int8_mask: true
normalize: true
dtype: bfloat16
此合併過程沒有進行額外的訓練、微調或DPO。
提示模板
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
使用xDAN提示格式時,該模型表現較差,因此不建議使用。
基準測試結果
MT-Bench平均回合得分
模型 |
得分 |
規模 |
gpt-4 |
8.99 |
- |
Sonya-7B |
8.52 |
7b |
xDAN-L1-Chat-RL-v1 |
8.34 |
7b |
Starling-7B |
8.09 |
7b |
Claude-2 |
8.06 |
- |
Silicon-Maid |
7.96 |
7b |
Loyal-Macaroni-Maid |
7.95 |
7b |
gpt-3.5-turbo |
7.94 |
20b? |
Claude-1 |
7.90 |
- |
OpenChat-3.5 |
7.81 |
- |
vicuna-33b-v1.3 |
7.12 |
33b |
wizardlm-30b |
7.01 |
30b |
Llama-2-70b-chat |
6.86 |
70b |
首回合得分
模型 |
回合 |
得分 |
規模 |
Sonya-7B |
1 |
9.06875 |
7b |
gpt-4 |
1 |
8.95625 |
- |
xDAN-L1-Chat-RL-v1 |
1 |
8.87500 |
7b |
xDAN-L2-Chat-RL-v2 |
1 |
8.78750 |
30b |
claude-v1 |
1 |
8.15000 |
- |
gpt-3.5-turbo |
1 |
8.07500 |
20b |
vicuna-33b-v1.3 |
1 |
7.45625 |
33b |
wizardlm-30b |
1 |
7.13125 |
30b |
oasst-sft-7-llama-30b |
1 |
7.10625 |
30b |
Llama-2-70b-chat |
1 |
6.98750 |
70b |
第二回合得分
模型 |
回合 |
得分 |
規模 |
gpt-4 |
2 |
9.025000 |
- |
xDAN-L2-Chat-RL-v2 |
2 |
8.087500 |
30b |
Sonya-7B |
2 |
7.962500 |
7b |
xDAN-L1-Chat-RL-v1 |
2 |
7.825000 |
7b |
gpt-3.5-turbo |
2 |
7.812500 |
20b |
claude-v1 |
2 |
7.650000 |
- |
wizardlm-30b |
2 |
6.887500 |
30b |
vicuna-33b-v1.3 |
2 |
6.787500 |
33b |
Llama-2-70b-chat |
2 |
6.725000 |
70b |
若要復現MT-Bench評測,請確保對模型應用Alpaca提示模板。
🔧 技術細節
文檔未提供詳細的技術實現細節,故跳過該章節。
📄 許可證
本模型採用CC BY 4.0許可證。