🚀 マンバリム-110M
マンバリム-110Mは、トランスフォーマーではなく、状態空間モデルアーキテクチャ(Mamba)に基づく最初のポルトガル語言語モデルです。このモデルは、ポルトガル語のテキスト生成などのタスクに役立ちます。
🚀 クイックスタート
このモデルを使用する前に、transformers
をmain
からインストールする必要があります。transformers=4.39.0
がリリースされるまではこの方法でインストールしてください。
pip install git+https://github.com/huggingface/transformers@main
また、causal_conv_1d
とmamba-ssm
の両方をインストールすることをおすすめします。
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
✨ 主な機能
- ポルトガル語に特化した言語モデルで、ポルトガル語のテキスト生成などのタスクに最適。
- 状態空間モデルアーキテクチャ(Mamba)を採用している。
📦 インストール
依存関係のインストール
transformers
をmain
からインストールします。
pip install git+https://github.com/huggingface/transformers@main
causal_conv_1d
とmamba-ssm
もインストールします。
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
💻 使用例
基本的な使用法
>>> from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dominguesm/mambarim-110m")
>>> model = MambaForCausalLM.from_pretrained("dominguesm/mambarim-110m")
>>> input_ids = tokenizer("O Natal é uma", return_tensors="pt")["input_ids"]
>>> out = model.generate(
input_ids,
repetition_penalty=1.2,
temperature=0.8,
top_k=50,
top_p=0.85,
do_sample=True,
max_new_tokens=10
)
>>> print(tokenizer.batch_decode(out))
["<s> O Natal é uma data em que as pessoas passam horas de lazer e"]
📚 ドキュメント
詳細情報
- アーキテクチャ: 因果言語モデリングを通じて事前学習されたMambaモデル
- サイズ: 119,930,880パラメータ
- コンテキスト長: 2048トークン
- データセット: Pt-Corpus Instruct (62億トークン)
- 言語: ポルトガル語
- ステップ数: 758,423
このリポジトリには、このモデルを学習するために使用されたソースコードがあります。
ベンチマーク
ブラジルポルトガル語のベンチマークでの評価は、Eduardo Garciaによって作成されたEleutherAI LM Evaluation Harnessのポルトガル語実装を使用して行われました。
詳細な結果はこちらで確認できます。
モデル |
平均 |
ENEM |
BLUEX |
OAB試験 |
ASSIN2 RTE |
ASSIN2 STS |
FAQNAD NLI |
HateBR |
PTヘイトスピーチ |
tweetSentBR |
アーキテクチャ |
TeenyTinyLlama-460m |
28.86 |
20.15 |
25.73 |
27.02 |
53.61 |
13 |
46.41 |
33.59 |
22.99 |
17.28 |
LlamaForCausalLM |
TeenyTinyLlama-160m |
28.2 |
19.24 |
23.09 |
22.37 |
53.97 |
0.24 |
43.97 |
36.92 |
42.63 |
11.39 |
LlamaForCausalLM |
MulaBR/Mula-4x160-v0.1 |
26.24 |
21.34 |
25.17 |
25.06 |
33.57 |
11.35 |
43.97 |
41.5 |
22.99 |
11.24 |
MixtralForCausalLM |
TeenyTinyLlama-460m-Chat |
25.49 |
20.29 |
25.45 |
26.74 |
43.77 |
4.52 |
34 |
33.49 |
22.99 |
18.13 |
LlamaForCausalLM |
マンバリム-110m |
14.16 |
18.4 |
10.57 |
21.87 |
16.09 |
1.89 |
9.29 |
15.75 |
17.77 |
15.79 |
MambaForCausalLM |
GloriaTA-3B |
4.09 |
1.89 |
3.2 |
5.19 |
0 |
2.32 |
0.26 |
0.28 |
23.52 |
0.19 |
GPTNeoForCausalLM |
📄 ライセンス
このモデルはcc-by-4.0
ライセンスの下で提供されています。