Xwin-LM-13B-V0.2开源大语言模型 - 免费部署，AlpacaEval测试表现出色

首页

Xwin LM 13B V0.2

由 Xwin-LM 开发

Xwin-LM是基于Llama2开发的大语言模型对齐技术，在AlpacaEval基准测试中表现优异

大型语言模型

Transformers

#RLHF优化 #多轮对话专家 #AlpacaEval榜首

下载量 713

发布时间 : 10/13/2023

模型简介

专注于大语言模型对齐技术的开源项目，包含监督微调、奖励模型、RLHF等方法，旨在提升模型与人类意图的对齐能力

模型特点

先进的对齐技术

整合了监督微调(SFT)、奖励模型(RM)、拒绝采样和RLHF等先进对齐方法

卓越的基准测试表现

在AlpacaEval基准测试中超越GPT-4等主流模型

多尺寸模型选择

提供7B、13B和70B不同参数规模的模型版本

模型能力

多轮对话

指令跟随

知识问答

文本生成

任务规划

使用案例

智能助手

日常问答助手

回答用户各类问题并提供建议

在AlpacaEval测试中相对GPT-4胜率达47.57%

教育应用

语言学习辅助

提供多语言翻译和学习指导

能准确解释法语词汇含义及使用场景

🚀 Xwin-LM：强大、稳定且可复现的大语言模型对齐方案

Xwin-LM致力于开发并开源大语言模型的对齐技术，涵盖监督微调（SFT）、奖励模型（RM）、拒绝采样、基于人类反馈的强化学习（RLHF）等。我们基于Llama2基础模型的首个版本，在AlpacaEval评测中排名第一，值得一提的是，这是首个在该评测中超越GPT - 4的模型。本项目将持续更新。

🚀 快速开始

本项目旨在开发和开源大语言模型的对齐技术，你可以通过以下内容了解模型的最新消息、性能表现、使用示例等信息。

✨ 主要特性

高性能表现：在AlpacaEval评测中，Xwin-LM多个版本的模型在与Text - Davinci - 003、ChatGPT和GPT - 4的对比中取得了优异的胜率，部分模型超越了GPT - 4。
多版本支持：提供7B、13B和70B等不同规模的模型版本，满足不同场景的需求。
多轮对话支持：模型采用了Vicuna的提示格式，支持多轮对话。

📢 最新消息

💥 [2023年10月12日] Xwin-LM-7B-V0.2和Xwin-LM-13B-V0.2发布，改进了对比数据和RL训练（即PPO）。它们相对于GPT - 4的胜率显著提高，分别达到了59.83%（7B模型）和70.36%（13B模型）。70B模型即将发布。
💥 [2023年9月] 我们发布了Xwin-LM-70B-V0.1，该模型在AlpacaEval评测中对Davinci - 003的胜率达到了95.57%，在AlpacaEval中排名第一。这是首个在AlpacaEval上超越GPT - 4的模型。此外，它相对于GPT - 4的胜率为60.61%。
🔍 [2023年9月] RLHF在Xwin-LM - V0.1版本的出色表现中起到了关键作用！
💥 [2023年9月] 我们发布了Xwin-LM-13B-V0.1，该模型在AlpacaEval上的胜率达到了91.76%，在所有13B模型中排名第一。
💥 [2023年9月] 我们发布了Xwin-LM-7B-V0.1，该模型在AlpacaEval上的胜率达到了87.82%，在所有7B模型中排名第一。

📋 模型卡片

模型	检查点	报告	许可证
Xwin-LM-7B-V0.2	🤗 HF链接	📃即将推出（敬请期待）	Llama 2许可证
Xwin-LM-13B-V0.2	🤗 HF链接		Llama 2许可证
Xwin-LM-7B-V0.1	🤗 HF链接		Llama 2许可证
Xwin-LM-13B-V0.1	🤗 HF链接		Llama 2许可证
Xwin-LM-70B-V0.1	🤗 HF链接		Llama 2许可证

📊 评测结果

Xwin-LM在AlpacaEval上的性能表现

下表展示了Xwin-LM在AlpacaEval上的性能，该评测评估了模型在805个问题中相对于Text - Davinci - 003的胜率。为了提供全面的评估，我们首次展示了相对于ChatGPT和GPT - 4的胜率。我们的Xwin-LM模型家族在所有指标上都达到了新的最优性能。值得注意的是，Xwin-LM-70B-V0.1首次超越了GPT - 4，对Text - Davinci - 003的胜率达到了令人瞩目的95.57%，对GPT - 4的胜率为60.61%。

模型	AlpacaEval（胜率 %）	AlpacaEval（胜率 %）	AlpacaEval（胜率 %）
	对比Text - Davinci - 003	对比ChatGPT	对比GPT4
Xwin-LM-70B-V0.1	95.57	87.50	60.61
GPT - 4	95.28	84.66	50.00
Xwin-LM-13B-V0.2	93.22	87.14	70.36
WizardLM-70B-V1.0	92.91	80.19	46.70
Llama-2-70B-Chat	92.66	81.97	51.19
Xwin-LM-13B-V0.1	91.76	81.79	55.30
ChatGPT	89.37	50.00	16.60
Xwin-LM-7B-V0.2	89.31	79.60	59.83
WizardLM-13B-V1.2	89.17	75.75	41.91
Xwin-LM-7B-V0.1	87.35	76.40	47.57
Llama-2-13B-Chat	81.09	64.22	30.92

AlpacaEval案例研究

提示	GPT4回复	Xwin-LM回复
我把一个盘子放在苹果上面，然后把盘子从厨房拿到餐厅。苹果现在在哪里	苹果现在在餐厅，因为你把盘子从厨房移到餐厅时，苹果在盘子下面。	苹果还在厨房，因为你只移动了盘子。苹果在盘子下面，所以如果你想把苹果带到餐厅，你应该直接移动苹果，或者把苹果放在盘子上，然后把盘子移到餐厅。
回答以下问题。 “晚上好”用法语怎么说。	法语中，“晚上好”是“bonsoir”。	法语中，“晚上好”翻译为“bonsoir”。这个问候语用于晚上和夜间，通常在下午6点之后。它是“bon”（意思是“好”）和“soir”（意思是“晚上”）的组合。发音为“bone - swahr”。

Xwin-LM在NLP基础任务上的性能表现

下表提供了Xwin-LM与其他大语言模型在Open LLM Leaderboard的NLP基础任务上的对比。

模型	MMLU 5 - shot	ARC 25 - shot	TruthfulQA 0 - shot	HellaSwag 10 - shot	平均
Text - davinci - 003	56.9	85.2	59.3	82.2	70.9
Vicuna - 13b 1.1	51.3	53.0	51.8	80.1	59.1
Guanaco 30B	57.6	63.7	50.7	85.1	64.3
WizardLM - 7B 1.0	42.7	51.6	44.7	77.7	54.2
WizardLM - 13B 1.0	52.3	57.2	50.5	81.0	60.2
WizardLM - 30B 1.0	58.8	62.5	52.4	83.3	64.2
Llama - 2 - 7B - Chat	48.3	52.9	45.6	78.6	56.4
Llama - 2 - 13B - Chat	54.6	59.0	44.1	81.9	59.9
Llama - 2 - 70B - Chat	63.9	64.6	52.8	85.9	66.8
Xwin-LM-7B-V0.1	49.7	56.2	48.1	79.5	58.4
Xwin-LM-13B-V0.1	56.6	62.4	45.5	83.0	61.9
Xwin-LM-70B-V0.1	69.6	70.5	60.1	87.1	71.8
Xwin-LM-7B-V0.2	50.0	56.4	49.5	78.9	58.7
Xwin-LM-13B-V0.2	56.6	61.5	43.8	82.9	61.2

💻 使用示例

对话模板

为了获得理想的结果，请在使用我们的模型进行推理时严格遵循对话模板。我们的模型采用了Vicuna建立的提示格式，支持多轮对话。

一个好奇的用户和一个人工智能助手之间的对话。助手会给用户的问题提供有用、详细且礼貌的答案。USER: 你好！ASSISTANT: 你好。</s>USER: 你是谁？ASSISTANT: 我是Xwin-LM。</s>......

HuggingFace示例

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
(
    prompt := "一个好奇的用户和一个人工智能助手之间的对话。助手会给用户的问题提供有用、详细且礼貌的答案。USER: 你好，你能帮我吗？ASSISTANT:"
)
inputs = tokenizer(prompt, return_tensors="pt")
samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)
output = tokenizer.decode(samples[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
print(output) 
# 当然可以！我在这里提供帮助。请随时提出你的问题或描述你遇到的问题，我会尽力提供帮助。

vLLM示例

由于Xwin-LM基于Llama2，它也支持使用vLLM进行快速推理。详细的安装说明请参考vLLM。

from vllm import LLM, SamplingParams
(
    prompt := "一个好奇的用户和一个人工智能助手之间的对话。助手会给用户的问题提供有用、详细且礼貌的答案。USER: 你好，你能帮我吗？ASSISTANT:"
)
sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)
llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")
outputs = llm.generate([prompt,], sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(generated_text)

📋 待办事项

[ ] 发布源代码
[ ] 发布更多能力，如数学、推理等。

📚 引用说明

如果您使用了本仓库中的数据或代码，请考虑引用我们的工作：

@software{xwin-lm,
  title = {Xwin-LM},
  author = {Xwin-LM Team},
  url = {https://github.com/Xwin-LM/Xwin-LM},
  version = {pre-release},
  year = {2023},
  month = {9},
}