🚀 Minueza-2-96M
Minueza-2-96M是一個基於Llama架構的緊湊型語言模型。它在英文和葡萄牙文數據集上從頭開始訓練,使用4096個標記的上下文長度,並在訓練過程中處理了1850億個標記。該模型僅有9600萬個參數,可作為輕量級基礎模型,後續可針對特定應用進行微調。
🚀 快速開始
安裝依賴
pip install transformers==4.50.0 torch==2.6.0
代碼示例
from transformers import pipeline, TextStreamer
import torch
prompt = "This book tells the story"
generate_text = pipeline(
"text-generation",
model="Felladrin/Minueza-2-96M",
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)
generate_text(
prompt,
streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
do_sample=True,
max_new_tokens=512,
temperature=0.8,
top_p=0.95,
top_k=0,
min_p=0.05,
repetition_penalty=1.1,
)
✨ 主要特性
- 輕量級設計:參數僅9600萬,適合資源受限場景。
- 多語言支持:在英文和葡萄牙文數據集上訓練。
- 特定用途適配:可通過微調用於特定應用。
📦 安裝指南
pip install transformers==4.50.0 torch==2.6.0
💻 使用示例
基礎用法
from transformers import pipeline, TextStreamer
import torch
prompt = "This book tells the story"
generate_text = pipeline(
"text-generation",
model="Felladrin/Minueza-2-96M",
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)
generate_text(
prompt,
streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
do_sample=True,
max_new_tokens=512,
temperature=0.8,
top_p=0.95,
top_k=0,
min_p=0.05,
repetition_penalty=1.1,
)
📚 詳細文檔
預期用途
模型架構
這是一個基於Llama架構的Transformer模型,訓練時使用4096個標記的上下文窗口。
屬性 |
詳情 |
最大位置嵌入 |
4096 |
隱藏層大小 |
672 |
中間層大小 |
2688 |
隱藏層數量 |
8 |
注意力頭數量 |
12 |
鍵值頭數量 |
4 |
頭維度 |
56 |
注意力丟棄率 |
0.1 |
詞表大小 |
32000 |
RoPE參數 |
500000 |
預訓練超參數
屬性 |
詳情 |
學習率 |
0.0003 |
熱身步數 |
2000 |
權重衰減 |
0.1 |
最大梯度範數 |
2.0 |
總訓練批次大小 |
512(每批次200萬個標記) |
隨機種子 |
42 |
優化器 |
Adam(β1=0.9,β2=0.95,ε=1e-08) |
學習率調度器類型 |
線性 |
🔧 技術細節
Minueza-2-96M基於Llama架構,從頭開始在英文和葡萄牙文數據集上訓練。訓練過程中使用了4096個標記的上下文長度,處理了1850億個標記。由於模型規模較小,在推理、事實知識和通用能力方面與大型模型相比存在顯著侷限性。
📄 許可證
該模型遵循Apache License 2.0許可協議。
⚠️ 重要提示
由於模型規模較小,在推理、事實知識和通用能力方面與大型模型相比存在顯著侷限性,可能會生成不正確、不相關或無意義的輸出。此外,由於該模型是在互聯網文本數據上訓練的,可能存在偏差並可能產生不適當的內容。
💡 使用建議
建議將該模型作為輕量級基礎模型,針對特定應用進行微調,以提高其性能和適用性。