mambarim-110m开源葡萄牙语大语言模型 - 免费部署开启葡语交流新体验

首页

Mambarim 110m

由 dominguesm 开发

首个基于Mamba架构的葡萄牙语大语言模型，采用状态空间模型而非传统Transformer架构

大型语言模型

Transformers

其他#葡萄牙语生成 #Mamba架构 #小参数模型

下载量 33

发布时间 : 3/11/2024

模型简介

这是一个专门针对葡萄牙语优化的语言模型，采用创新的Mamba架构设计，适用于葡萄牙语文本生成任务

模型特点

创新架构

采用Mamba状态空间模型架构而非传统Transformer，在长序列处理上具有优势

葡萄牙语优化

专门针对葡萄牙语训练，在Pt-Corpus Instruct数据集上进行预训练

高效推理

相比传统Transformer架构，Mamba架构在推理时可能具有更高的效率

模型能力

葡萄牙语文本生成

长文本处理

指令理解与响应

使用案例

内容创作

故事续写

根据给定的开头继续创作故事

可生成符合语境的葡萄牙语故事内容

节日内容生成

生成与特定节日相关的内容

如圣诞节祝福语、节日描述等

教育辅助

语言学习

生成葡萄牙语学习材料或示例句子

🚀 Mambarim-110M

Mambarim-110M 是首个基于状态空间模型架构（Mamba）而非Transformer的葡萄牙语语言模型，为葡萄牙语的文本生成等任务带来了新的解决方案，具有独特的架构优势。

🚀 快速开始

在 transformers=4.39.0 发布之前，你需要从 main 分支安装 transformers。

pip install git+https://github.com/huggingface/transformers@main

我们还建议你使用以下命令安装 causal_conv_1d 和 mamba-ssm：

pip install causal-conv1d>=1.2.0
pip install mamba-ssm

✨ 主要特性

架构创新：采用基于状态空间模型架构（Mamba），而非传统的Transformer架构。
模型规模：拥有119,930,880个参数。
上下文长度：支持2048个标记的上下文长度。
训练数据：使用 Pt-Corpus Instruct 数据集（62亿个标记）进行训练。
语言支持：专门针对葡萄牙语进行训练。
训练步数：经过758,423步的训练。

📦 安装指南

你需要安装 transformers 库，在 transformers=4.39.0 发布之前，从 main 分支安装：

pip install git+https://github.com/huggingface/transformers@main

同时，建议安装 causal_conv_1d 和 mamba-ssm：

pip install causal-conv1d>=1.2.0
pip install mamba-ssm

💻 使用示例

基础用法

你可以使用经典的 generate API 进行文本生成：

>>> from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dominguesm/mambarim-110m")
>>> model = MambaForCausalLM.from_pretrained("dominguesm/mambarim-110m")
>>> input_ids = tokenizer("O Natal é uma", return_tensors="pt")["input_ids"]
>>> out = model.generate(
    input_ids,
    repetition_penalty=1.2,
    temperature=0.8,
    top_k=50,
    top_p=0.85,
    do_sample=True,
    max_new_tokens=10
)
>>> print(tokenizer.batch_decode(out))
["<s> O Natal é uma data em que as pessoas passam horas de lazer e"]

📚 详细文档

模型详情

架构：通过因果语言建模预训练的Mamba模型
规模：119,930,880个参数
上下文长度：2048个标记
数据集：Pt-Corpus Instruct（62亿个标记）
语言：葡萄牙语
训练步数：758,423

本仓库包含用于训练此模型的源代码。

基准测试

使用葡萄牙语版的 EleutherAI LM Evaluation Harness（由 Eduardo Garcia 创建）对巴西葡萄牙语基准进行评估。

详细结果可在此处查看。

模型	平均得分	ENEM	BLUEX	OAB 考试	ASSIN2 RTE	ASSIN2 STS	FAQNAD NLI	HateBR	PT 仇恨言论	tweetSentBR	架构
TeenyTinyLlama-460m	28.86	20.15	25.73	27.02	53.61	13	46.41	33.59	22.99	17.28	LlamaForCausalLM
TeenyTinyLlama-160m	28.2	19.24	23.09	22.37	53.97	0.24	43.97	36.92	42.63	11.39	LlamaForCausalLM
MulaBR/Mula-4x160-v0.1	26.24	21.34	25.17	25.06	33.57	11.35	43.97	41.5	22.99	11.24	MixtralForCausalLM
TeenyTinyLlama-460m-Chat	25.49	20.29	25.45	26.74	43.77	4.52	34	33.49	22.99	18.13	LlamaForCausalLM
manbarim-110m	14.16	18.4	10.57	21.87	16.09	1.89	9.29	15.75	17.77	15.79	MambaForCausalLM
GloriaTA-3B	4.09	1.89	3.2	5.19	0	2.32	0.26	0.28	23.52	0.19	GPTNeoForCausalLM