🚀 Minueza-32M-Base
Minueza-32M-Base是一个拥有3200万参数的基础模型,它基于大量英文文本语料从头开始训练。该模型适用于在移动网页浏览器上运行,能在无GPU的机器上快速运行,还可作为使用ChatML格式进行微调的基础模型。
🚀 快速开始
Minueza-32M-Base是一个基础模型,你可以通过以下代码运行它:
from transformers import pipeline
generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")
prompt = "The best way to improve your health is"
output = generate(
prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.72,
top_p=0.73,
top_k=50,
repetition_penalty=1.176,
)
print(output[0]["generated_text"])
✨ 主要特性
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face相关文档进行安装。
💻 使用示例
基础用法
from transformers import pipeline
generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")
prompt = "The best way to improve your health is"
output = generate(
prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.72,
top_p=0.73,
top_k=50,
repetition_penalty=1.176,
)
print(output[0]["generated_text"])
高级用法
文档未提及高级用法示例,可根据具体任务对模型进行应用特定的微调。
📚 详细文档
数据集
该模型在以下非合成数据集的子集上进行训练:
这些子集交错组合,形成了约6.5亿个标记的最终训练语料库。
模型架构
这是一个采用Mistral架构的Transformer模型,在2048个标记的上下文窗口上进行训练。
配置 |
值 |
max_position_embeddings |
2048 |
hidden_size |
312 |
intermediate_size |
1092 |
num_attention_heads |
12 |
num_hidden_layers |
10 |
num_key_value_heads |
4 |
vocab_size |
32002 |
预训练使用了以下超参数和框架:
超参数
超参数 |
值 |
learning_rate |
5e-05 |
train_batch_size |
1 |
eval_batch_size |
1 |
seed |
42 |
gradient_accumulation_steps |
8 |
total_train_batch_size |
8 |
optimizer |
Adam(betas=(0.9,0.999),epsilon=1e-08) |
lr_scheduler_type |
linear |
框架
框架 |
版本 |
Transformers |
4.38.0.dev0 |
Pytorch |
2.1.2 |
Datasets |
2.16.1 |
Tokenizers |
0.15.1 |
评估结果
详细结果可查看此处
指标 |
值 |
平均 |
28.92 |
AI2 Reasoning Challenge (25-Shot) |
21.33 |
HellaSwag (10-Shot) |
26.39 |
MMLU (5-Shot) |
24.80 |
TruthfulQA (0-shot) |
47.45 |
Winogrande (5-shot) |
53.20 |
GSM8k (5-shot) |
0.38 |
🔧 技术细节
该模型是一个基于Mistral架构的Transformer模型,在2048个标记的上下文窗口上进行训练。预训练使用了特定的超参数和框架,如学习率为5e-05,优化器为Adam等。
📄 许可证
该模型遵循Apache License 2.0许可协议。
⚠️ 重要提示
这只是一个基础模型,对于你的任务,可能需要按照上述建议进行特定应用的微调。此外,该模型在互联网文本数据上进行训练,这些数据可能包含偏差、冒犯性或不适当的内容,并且可能产生不正确或不相关的响应。由于未进行评估,请谨慎使用。
💡 使用建议
可根据具体任务对模型进行应用特定的微调,以获得更好的性能。同时,在使用过程中注意数据的质量和安全性。