🚀 Mambarim-110M
Mambarim-110M 是首個基於狀態空間模型架構(Mamba)而非Transformer的葡萄牙語語言模型,為葡萄牙語的文本生成等任務帶來了新的解決方案,具有獨特的架構優勢。
🚀 快速開始
在 transformers=4.39.0
發佈之前,你需要從 main
分支安裝 transformers
。
pip install git+https://github.com/huggingface/transformers@main
我們還建議你使用以下命令安裝 causal_conv_1d
和 mamba-ssm
:
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
✨ 主要特性
- 架構創新:採用基於狀態空間模型架構(Mamba),而非傳統的Transformer架構。
- 模型規模:擁有119,930,880個參數。
- 上下文長度:支持2048個標記的上下文長度。
- 訓練數據:使用 Pt-Corpus Instruct 數據集(62億個標記)進行訓練。
- 語言支持:專門針對葡萄牙語進行訓練。
- 訓練步數:經過758,423步的訓練。
📦 安裝指南
你需要安裝 transformers
庫,在 transformers=4.39.0
發佈之前,從 main
分支安裝:
pip install git+https://github.com/huggingface/transformers@main
同時,建議安裝 causal_conv_1d
和 mamba-ssm
:
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
💻 使用示例
基礎用法
你可以使用經典的 generate
API 進行文本生成:
>>> from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dominguesm/mambarim-110m")
>>> model = MambaForCausalLM.from_pretrained("dominguesm/mambarim-110m")
>>> input_ids = tokenizer("O Natal é uma", return_tensors="pt")["input_ids"]
>>> out = model.generate(
input_ids,
repetition_penalty=1.2,
temperature=0.8,
top_k=50,
top_p=0.85,
do_sample=True,
max_new_tokens=10
)
>>> print(tokenizer.batch_decode(out))
["<s> O Natal é uma data em que as pessoas passam horas de lazer e"]
📚 詳細文檔
模型詳情
- 架構:通過因果語言建模預訓練的Mamba模型
- 規模:119,930,880個參數
- 上下文長度:2048個標記
- 數據集:Pt-Corpus Instruct(62億個標記)
- 語言:葡萄牙語
- 訓練步數:758,423
本倉庫包含用於訓練此模型的 源代碼。
基準測試
使用 葡萄牙語版的 EleutherAI LM Evaluation Harness(由 Eduardo Garcia 創建)對巴西葡萄牙語基準進行評估。
詳細結果可在 此處 查看。
模型 |
平均得分 |
ENEM |
BLUEX |
OAB 考試 |
ASSIN2 RTE |
ASSIN2 STS |
FAQNAD NLI |
HateBR |
PT 仇恨言論 |
tweetSentBR |
架構 |
TeenyTinyLlama-460m |
28.86 |
20.15 |
25.73 |
27.02 |
53.61 |
13 |
46.41 |
33.59 |
22.99 |
17.28 |
LlamaForCausalLM |
TeenyTinyLlama-160m |
28.2 |
19.24 |
23.09 |
22.37 |
53.97 |
0.24 |
43.97 |
36.92 |
42.63 |
11.39 |
LlamaForCausalLM |
MulaBR/Mula-4x160-v0.1 |
26.24 |
21.34 |
25.17 |
25.06 |
33.57 |
11.35 |
43.97 |
41.5 |
22.99 |
11.24 |
MixtralForCausalLM |
TeenyTinyLlama-460m-Chat |
25.49 |
20.29 |
25.45 |
26.74 |
43.77 |
4.52 |
34 |
33.49 |
22.99 |
18.13 |
LlamaForCausalLM |
manbarim-110m |
14.16 |
18.4 |
10.57 |
21.87 |
16.09 |
1.89 |
9.29 |
15.75 |
17.77 |
15.79 |
MambaForCausalLM |
GloriaTA-3B |
4.09 |
1.89 |
3.2 |
5.19 |
0 |
2.32 |
0.26 |
0.28 |
23.52 |
0.19 |
GPTNeoForCausalLM |
📄 許可證
本項目採用 cc-by-4.0
許可證。