🚀 Mambarim-110M
Mambarim-110M 是首个基于状态空间模型架构(Mamba)而非Transformer的葡萄牙语语言模型,为葡萄牙语的文本生成等任务带来了新的解决方案,具有独特的架构优势。
🚀 快速开始
在 transformers=4.39.0
发布之前,你需要从 main
分支安装 transformers
。
pip install git+https://github.com/huggingface/transformers@main
我们还建议你使用以下命令安装 causal_conv_1d
和 mamba-ssm
:
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
✨ 主要特性
- 架构创新:采用基于状态空间模型架构(Mamba),而非传统的Transformer架构。
- 模型规模:拥有119,930,880个参数。
- 上下文长度:支持2048个标记的上下文长度。
- 训练数据:使用 Pt-Corpus Instruct 数据集(62亿个标记)进行训练。
- 语言支持:专门针对葡萄牙语进行训练。
- 训练步数:经过758,423步的训练。
📦 安装指南
你需要安装 transformers
库,在 transformers=4.39.0
发布之前,从 main
分支安装:
pip install git+https://github.com/huggingface/transformers@main
同时,建议安装 causal_conv_1d
和 mamba-ssm
:
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
💻 使用示例
基础用法
你可以使用经典的 generate
API 进行文本生成:
>>> from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dominguesm/mambarim-110m")
>>> model = MambaForCausalLM.from_pretrained("dominguesm/mambarim-110m")
>>> input_ids = tokenizer("O Natal é uma", return_tensors="pt")["input_ids"]
>>> out = model.generate(
input_ids,
repetition_penalty=1.2,
temperature=0.8,
top_k=50,
top_p=0.85,
do_sample=True,
max_new_tokens=10
)
>>> print(tokenizer.batch_decode(out))
["<s> O Natal é uma data em que as pessoas passam horas de lazer e"]
📚 详细文档
模型详情
- 架构:通过因果语言建模预训练的Mamba模型
- 规模:119,930,880个参数
- 上下文长度:2048个标记
- 数据集:Pt-Corpus Instruct(62亿个标记)
- 语言:葡萄牙语
- 训练步数:758,423
本仓库包含用于训练此模型的 源代码。
基准测试
使用 葡萄牙语版的 EleutherAI LM Evaluation Harness(由 Eduardo Garcia 创建)对巴西葡萄牙语基准进行评估。
详细结果可在 此处 查看。
模型 |
平均得分 |
ENEM |
BLUEX |
OAB 考试 |
ASSIN2 RTE |
ASSIN2 STS |
FAQNAD NLI |
HateBR |
PT 仇恨言论 |
tweetSentBR |
架构 |
TeenyTinyLlama-460m |
28.86 |
20.15 |
25.73 |
27.02 |
53.61 |
13 |
46.41 |
33.59 |
22.99 |
17.28 |
LlamaForCausalLM |
TeenyTinyLlama-160m |
28.2 |
19.24 |
23.09 |
22.37 |
53.97 |
0.24 |
43.97 |
36.92 |
42.63 |
11.39 |
LlamaForCausalLM |
MulaBR/Mula-4x160-v0.1 |
26.24 |
21.34 |
25.17 |
25.06 |
33.57 |
11.35 |
43.97 |
41.5 |
22.99 |
11.24 |
MixtralForCausalLM |
TeenyTinyLlama-460m-Chat |
25.49 |
20.29 |
25.45 |
26.74 |
43.77 |
4.52 |
34 |
33.49 |
22.99 |
18.13 |
LlamaForCausalLM |
manbarim-110m |
14.16 |
18.4 |
10.57 |
21.87 |
16.09 |
1.89 |
9.29 |
15.75 |
17.77 |
15.79 |
MambaForCausalLM |
GloriaTA-3B |
4.09 |
1.89 |
3.2 |
5.19 |
0 |
2.32 |
0.26 |
0.28 |
23.52 |
0.19 |
GPTNeoForCausalLM |
📄 许可证
本项目采用 cc-by-4.0
许可证。