🚀 サビア-7B
Sabiá-7Bは、Maritaca AIによって開発されたポルトガル語の言語モデルです。このモデルは、ポルトガル語のテキスト生成タスクに特化しており、特定のアーキテクチャとトークナイザーを用いて高精度なテキスト生成を実現します。
✨ 主な機能
- 入力形式:モデルはテキスト入力のみを受け付けます。
- 出力形式:モデルはテキストのみを生成します。
- モデルアーキテクチャ:Sabiá-7Bは、LLaMA-1-7Bと同じアーキテクチャを使用する自己回帰型言語モデルです。
- トークナイザー:LLaMA-1-7Bと同じトークナイザーを使用しています。
- 最大シーケンス長:2048トークンです。
- 事前学習データ:モデルは、ClueWeb22のポルトガル語サブセットから70億トークンを用いて事前学習され、LLaMA-1-7Bの重みから始めて、さらに約100億トークン(訓練データセットの約1.4エポック分)で追加学習されました。
- データの新鮮さ:事前学習データのカットオフは2022年半ばです。
- ライセンス:ライセンスはLLaMA-1と同じで、モデルの使用は研究目的に限定されています。
- 論文:詳細については、私たちの論文 Sabiá: Portuguese Large Language Models を参照してください。
💻 使用例
基本的な使用法
import torch
from transformers import LlamaTokenizer, LlamaForCausalLM
tokenizer = LlamaTokenizer.from_pretrained("maritaca-ai/sabia-7b")
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
torch_dtype=torch.bfloat16
)
prompt = """Classifique a resenha de filme como "positiva" ou "negativa".
Resenha: Gostei muito do filme, é o melhor do ano!
Classe: positiva
Resenha: O filme deixa muito a desejar.
Classe: negativa
Resenha: Apesar de longo, valeu o ingresso.
Classe:"""
input_ids = tokenizer(prompt, return_tensors="pt")
output = model.generate(
input_ids["input_ids"].to("cuda"),
max_length=1024,
eos_token_id=tokenizer.encode("\n"))
output = output[0][len(input_ids["input_ids"][0]):]
print(tokenizer.decode(output, skip_special_tokens=True))
高度な使用法
GPUのRAMが不足している場合は、int8精度を使用することができます。ただし、fp16またはbf16と比較すると、モデルの出力品質が低下することが予想されます。
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
load_in_8bit=True,
)
📚 ドキュメント
ポルトガル語の評価結果
以下に、14のポルトガル語データセットから構成されるPoetaベンチマークでの評価結果を示します。Normalized Preferred Metric (NPM) の詳細については、私たちの論文を参照してください。
モデル |
NPM |
LLaMA-1-7B |
33.0 |
LLaMA-2-7B |
43.7 |
サビア-7B |
48.5 |
英語の評価結果
以下に、PIQA、HellaSwag、WinoGrande、ARC-e、ARC-c、およびOpenBookQAの6つの英語データセットでの平均評価結果を示します。
モデル |
NPM |
LLaMA-1-7B |
50.1 |
サビア-7B |
49.0 |
詳細な結果はこちらで確認できます。
評価指標 |
値 |
平均 |
47.09 |
ENEM Challenge (No Images) |
55.07 |
BLUEX (No Images) |
47.71 |
OAB Exams |
41.41 |
Assin2 RTE |
46.68 |
Assin2 STS |
1.89 |
FaQuAD NLI |
58.34 |
HateBR Binary |
61.93 |
PT Hate Speech Binary |
64.13 |
tweetSentBR |
46.64 |
📄 ライセンス
ライセンスはLLaMA-1と同じで、モデルの使用は研究目的に限定されています。
🔖 引用
以下のBibTeXを使用して、私たちの論文を引用してください。
@InProceedings{10.1007/978-3-031-45392-2_15,
author="Pires, Ramon
and Abonizio, Hugo
and Almeida, Thales Sales
and Nogueira, Rodrigo",
editor="Naldi, Murilo C.
and Bianchi, Reinaldo A. C.",
title="Sabi{\'a}: Portuguese Large Language Models",
booktitle="Intelligent Systems",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="226--240",
isbn="978-3-031-45392-2"
}