🚀 Minueza-2-96M
Minueza-2-96M是一个基于Llama架构的紧凑型语言模型。它在英文和葡萄牙文数据集上从头开始训练,使用4096个标记的上下文长度,并在训练过程中处理了1850亿个标记。该模型仅有9600万个参数,可作为轻量级基础模型,后续可针对特定应用进行微调。
🚀 快速开始
安装依赖
pip install transformers==4.50.0 torch==2.6.0
代码示例
from transformers import pipeline, TextStreamer
import torch
prompt = "This book tells the story"
generate_text = pipeline(
"text-generation",
model="Felladrin/Minueza-2-96M",
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)
generate_text(
prompt,
streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
do_sample=True,
max_new_tokens=512,
temperature=0.8,
top_p=0.95,
top_k=0,
min_p=0.05,
repetition_penalty=1.1,
)
✨ 主要特性
- 轻量级设计:参数仅9600万,适合资源受限场景。
- 多语言支持:在英文和葡萄牙文数据集上训练。
- 特定用途适配:可通过微调用于特定应用。
📦 安装指南
pip install transformers==4.50.0 torch==2.6.0
💻 使用示例
基础用法
from transformers import pipeline, TextStreamer
import torch
prompt = "This book tells the story"
generate_text = pipeline(
"text-generation",
model="Felladrin/Minueza-2-96M",
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)
generate_text(
prompt,
streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
do_sample=True,
max_new_tokens=512,
temperature=0.8,
top_p=0.95,
top_k=0,
min_p=0.05,
repetition_penalty=1.1,
)
📚 详细文档
预期用途
模型架构
这是一个基于Llama架构的Transformer模型,训练时使用4096个标记的上下文窗口。
属性 |
详情 |
最大位置嵌入 |
4096 |
隐藏层大小 |
672 |
中间层大小 |
2688 |
隐藏层数量 |
8 |
注意力头数量 |
12 |
键值头数量 |
4 |
头维度 |
56 |
注意力丢弃率 |
0.1 |
词表大小 |
32000 |
RoPE参数 |
500000 |
预训练超参数
属性 |
详情 |
学习率 |
0.0003 |
热身步数 |
2000 |
权重衰减 |
0.1 |
最大梯度范数 |
2.0 |
总训练批次大小 |
512(每批次200万个标记) |
随机种子 |
42 |
优化器 |
Adam(β1=0.9,β2=0.95,ε=1e-08) |
学习率调度器类型 |
线性 |
🔧 技术细节
Minueza-2-96M基于Llama架构,从头开始在英文和葡萄牙文数据集上训练。训练过程中使用了4096个标记的上下文长度,处理了1850亿个标记。由于模型规模较小,在推理、事实知识和通用能力方面与大型模型相比存在显著局限性。
📄 许可证
该模型遵循Apache License 2.0许可协议。
⚠️ 重要提示
由于模型规模较小,在推理、事实知识和通用能力方面与大型模型相比存在显著局限性,可能会生成不正确、不相关或无意义的输出。此外,由于该模型是在互联网文本数据上训练的,可能存在偏差并可能产生不适当的内容。
💡 使用建议
建议将该模型作为轻量级基础模型,针对特定应用进行微调,以提高其性能和适用性。