🚀 苏黎世14B GammaCorpus v2 - 50k
基于GammaCorpus数据集微调的Qwen 2.5模型
本项目的苏黎世14B GammaCorpus v2 - 50k模型,是对阿里巴巴Qwen 2.5 14B Instruct模型的微调版本。它旨在超越同等规模的其他模型,同时展示GammaCorpus v2 - 50k数据集的优势。

🚀 快速开始
依赖要求
我们强烈建议您使用最新版本的transformers
包。您可以通过以下pip
命令进行安装:
pip install transformers
快速上手
以下是一个使用apply_chat_template
的代码片段,展示了如何加载分词器和模型,以及如何生成内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "rubenroy/Zurich-14B-GCv2-50k"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How tall is the Eiffel tower?"
messages = [
{"role": "system", "content": "You are Zurich, an AI assistant built on the Qwen 2.5 14B model developed by Alibaba Cloud, and fine-tuned by Ruben Roy. You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
苏黎世14B GammaCorpus v2 - 50k模型在同等规模的模型中表现出色,通过在GammaCorpus数据集上进行微调,能够更好地处理多轮对话等任务。
📦 安装指南
请按照上述快速开始部分的依赖要求进行安装。
💻 使用示例
基础用法
上述快速上手部分的代码示例展示了如何加载模型、分词器,并进行内容生成。
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
[Qwen/Qwen2.5 - 14B - Instruct](https://huggingface.co/Qwen/Qwen2.5 - 14B - Instruct) |
模型类型 |
因果语言模型 |
架构 |
带有RoPE、SwiGLU、RMSNorm和Attention QKV偏差的Transformer |
参数数量 |
147亿 |
参数数量(非嵌入层) |
131亿 |
层数 |
48 |
注意力头数量(GQA) |
Q为40,KV为8 |
训练详情
苏黎世 - 14B - GCv2 - 50k模型使用1块A100 GPU进行了约20分钟的微调,并使用Unsloth框架进行训练,共训练了60个周期。
关于GammaCorpus
本模型以及所有苏黎世系列模型均使用GammaCorpus数据集进行训练。GammaCorpus是HuggingFace上的一个数据集,包含经过结构化和过滤的多轮对话。GammaCorpus有4个不同版本,每个版本有不同的规模,具体如下:
GammaCorpus v1
GCv1数据集集合链接:
https://huggingface.co/collections/rubenroy/gammacorpus - v1 - 67935e4e52a04215f15a7a60
GammaCorpus v2
- 10k
- 50k <-- 您正在使用的苏黎世模型就是基于此版本的GammaCorpus v2进行训练的。
- 100k
- 500k
- 1m
- 5m
GCv2数据集集合链接:
https://huggingface.co/collections/rubenroy/gammacorpus - v2 - 67935e895e1259c404a579df
GammaCorpus CoT
GC - CoT数据集集合链接:
https://huggingface.co/collections/rubenroy/gammacorpus - cot - 6795bbc950b62b1ced41d14f
GammaCorpus QA
GC - QA数据集集合链接:
https://huggingface.co/collections/rubenroy/gammacorpus - qa - 679857017bb3855234c1d8c7
完整GammaCorpus数据集集合链接可点击[此处](https://huggingface.co/collections/rubenroy/gammacorpus - 67765abf607615a0eb6d61ac)。
🔧 技术细节
模型采用了带有RoPE、SwiGLU、RMSNorm和Attention QKV偏差的Transformer架构,这些技术的应用有助于提升模型的性能和处理能力。
📄 许可证
本模型遵循**[Apache 2.0许可证](https://www.apache.org/licenses/LICENSE - 2.0)**。请参考该许可证了解使用权限和限制。
⚠️ 重要提示
我们已尽力减少模型的偏差,但请注意,模型仍有可能生成一些有偏差的答案。