🚀 Minueza-32M-Base
Minueza-32M-Base是一個擁有3200萬參數的基礎模型,它基於大量英文文本語料從頭開始訓練。該模型適用於在移動網頁瀏覽器上運行,能在無GPU的機器上快速運行,還可作為使用ChatML格式進行微調的基礎模型。
🚀 快速開始
Minueza-32M-Base是一個基礎模型,你可以通過以下代碼運行它:
from transformers import pipeline
generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")
prompt = "The best way to improve your health is"
output = generate(
prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.72,
top_p=0.73,
top_k=50,
repetition_penalty=1.176,
)
print(output[0]["generated_text"])
✨ 主要特性
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face相關文檔進行安裝。
💻 使用示例
基礎用法
from transformers import pipeline
generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")
prompt = "The best way to improve your health is"
output = generate(
prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.72,
top_p=0.73,
top_k=50,
repetition_penalty=1.176,
)
print(output[0]["generated_text"])
高級用法
文檔未提及高級用法示例,可根據具體任務對模型進行應用特定的微調。
📚 詳細文檔
數據集
該模型在以下非合成數據集的子集上進行訓練:
這些子集交錯組合,形成了約6.5億個標記的最終訓練語料庫。
模型架構
這是一個採用Mistral架構的Transformer模型,在2048個標記的上下文窗口上進行訓練。
配置 |
值 |
max_position_embeddings |
2048 |
hidden_size |
312 |
intermediate_size |
1092 |
num_attention_heads |
12 |
num_hidden_layers |
10 |
num_key_value_heads |
4 |
vocab_size |
32002 |
預訓練使用了以下超參數和框架:
超參數
超參數 |
值 |
learning_rate |
5e-05 |
train_batch_size |
1 |
eval_batch_size |
1 |
seed |
42 |
gradient_accumulation_steps |
8 |
total_train_batch_size |
8 |
optimizer |
Adam(betas=(0.9,0.999),epsilon=1e-08) |
lr_scheduler_type |
linear |
框架
框架 |
版本 |
Transformers |
4.38.0.dev0 |
Pytorch |
2.1.2 |
Datasets |
2.16.1 |
Tokenizers |
0.15.1 |
評估結果
詳細結果可查看此處
指標 |
值 |
平均 |
28.92 |
AI2 Reasoning Challenge (25-Shot) |
21.33 |
HellaSwag (10-Shot) |
26.39 |
MMLU (5-Shot) |
24.80 |
TruthfulQA (0-shot) |
47.45 |
Winogrande (5-shot) |
53.20 |
GSM8k (5-shot) |
0.38 |
🔧 技術細節
該模型是一個基於Mistral架構的Transformer模型,在2048個標記的上下文窗口上進行訓練。預訓練使用了特定的超參數和框架,如學習率為5e-05,優化器為Adam等。
📄 許可證
該模型遵循Apache License 2.0許可協議。
⚠️ 重要提示
這只是一個基礎模型,對於你的任務,可能需要按照上述建議進行特定應用的微調。此外,該模型在互聯網文本數據上進行訓練,這些數據可能包含偏差、冒犯性或不適當的內容,並且可能產生不正確或不相關的響應。由於未進行評估,請謹慎使用。
💡 使用建議
可根據具體任務對模型進行應用特定的微調,以獲得更好的性能。同時,在使用過程中注意數據的質量和安全性。