🚀 Qwen2.5-0.5B-Instruct
Qwen2.5-0.5B-Instruct是Qwen大語言模型系列的一員,該模型經過指令微調,具備多語言支持、長上下文處理等能力,可用於文本生成等任務。
🚀 快速開始
這裡提供了一個使用apply_chat_template
的代碼片段,展示瞭如何加載分詞器和模型,以及如何生成內容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
Qwen2.5是Qwen大語言模型的最新系列。對於Qwen2.5,我們發佈了一系列參數從5億到720億的基礎語言模型和經過指令微調的語言模型。Qwen2.5在Qwen2的基礎上帶來了以下改進:
- 知識更豐富:由於我們在編碼和數學領域的專業專家模型,模型在這兩個領域的能力有了極大提升。
- 指令遵循能力增強:在指令遵循、長文本生成(超過8K個標記)、結構化數據理解(如表格)和結構化輸出生成(特別是JSON)方面有顯著改進。對系統提示的多樣性更具魯棒性,增強了聊天機器人的角色扮演實現和條件設置。
- 長上下文支持:支持長達128K個標記的上下文,並能生成多達8K個標記。
- 多語言支持:支持超過29種語言,包括中文、英文、法語、西班牙語、葡萄牙語、德語、意大利語、俄語、日語、韓語、越南語、泰語、阿拉伯語等。
本倉庫包含經過指令微調的0.5B Qwen2.5模型,具有以下特點:
- 類型:因果語言模型
- 訓練階段:預訓練和後訓練
- 架構:採用RoPE、SwiGLU、RMSNorm、注意力QKV偏置和綁定詞嵌入的transformers架構
- 參數數量:0.49B
- 非嵌入參數數量:0.36B
- 層數:24
- 注意力頭數量(GQA):Q為14,KV為2
- 上下文長度:完整32,768個標記,生成8192個標記
如需更多詳細信息,請參考我們的博客、GitHub和文檔。
📦 安裝指南
Qwen2.5的代碼已集成在最新的Hugging face transformers
庫中,我們建議您使用最新版本的transformers
。
如果使用transformers<4.37.0
,您將遇到以下錯誤:
KeyError: 'qwen2'
📚 詳細文檔
評估與性能
詳細的評估結果請參考此📑 博客。
關於GPU內存要求和相應的吞吐量,請參閱此處的結果。
引用
如果您覺得我們的工作有幫助,請隨意引用我們的成果。
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
📄 許可證
本項目採用Apache-2.0許可證。