🚀 Qwen2.5-0.5B-Instruct
Qwen2.5-0.5B-Instruct是Qwen大语言模型系列的一员,该模型经过指令微调,具备多语言支持、长上下文处理等能力,可用于文本生成等任务。
🚀 快速开始
这里提供了一个使用apply_chat_template
的代码片段,展示了如何加载分词器和模型,以及如何生成内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
Qwen2.5是Qwen大语言模型的最新系列。对于Qwen2.5,我们发布了一系列参数从5亿到720亿的基础语言模型和经过指令微调的语言模型。Qwen2.5在Qwen2的基础上带来了以下改进:
- 知识更丰富:由于我们在编码和数学领域的专业专家模型,模型在这两个领域的能力有了极大提升。
- 指令遵循能力增强:在指令遵循、长文本生成(超过8K个标记)、结构化数据理解(如表格)和结构化输出生成(特别是JSON)方面有显著改进。对系统提示的多样性更具鲁棒性,增强了聊天机器人的角色扮演实现和条件设置。
- 长上下文支持:支持长达128K个标记的上下文,并能生成多达8K个标记。
- 多语言支持:支持超过29种语言,包括中文、英文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
本仓库包含经过指令微调的0.5B Qwen2.5模型,具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练和后训练
- 架构:采用RoPE、SwiGLU、RMSNorm、注意力QKV偏置和绑定词嵌入的transformers架构
- 参数数量:0.49B
- 非嵌入参数数量:0.36B
- 层数:24
- 注意力头数量(GQA):Q为14,KV为2
- 上下文长度:完整32,768个标记,生成8192个标记
如需更多详细信息,请参考我们的博客、GitHub和文档。
📦 安装指南
Qwen2.5的代码已集成在最新的Hugging face transformers
库中,我们建议您使用最新版本的transformers
。
如果使用transformers<4.37.0
,您将遇到以下错误:
KeyError: 'qwen2'
📚 详细文档
评估与性能
详细的评估结果请参考此📑 博客。
关于GPU内存要求和相应的吞吐量,请参阅此处的结果。
引用
如果您觉得我们的工作有帮助,请随意引用我们的成果。
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
📄 许可证
本项目采用Apache-2.0许可证。