🚀 Sabiá-7B模型
Sabiá-7B是由Maritaca AI开发的葡萄牙语语言模型,该模型在文本生成任务上表现出色,为葡萄牙语相关的研究提供了有力支持。
🚀 快速开始
Sabiá-7B是一个专为葡萄牙语设计的语言模型,以下是其基本信息:
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本。
- 模型架构:Sabiá-7B是一个自回归语言模型,采用与LLaMA - 1 - 7B相同的架构。
- 分词器:使用与LLaMA - 1 - 7B相同的分词器。
- 最大序列长度:2048个标记。
- 预训练数据:该模型在来自ClueWeb22葡萄牙语子集的70亿个标记上进行预训练,从LLaMA - 1 - 7B的权重开始,并在额外的100亿个标记上进一步训练,约为训练数据集的1.4个周期。
- 数据时效性:预训练数据截止到2022年年中。
- 许可证:许可与LLaMA - 1相同,限制模型仅用于研究目的。
- 论文:更多详细信息,请参考我们的论文:Sabiá: Portuguese Large Language Models
✨ 主要特性
- 架构优势:采用与LLaMA - 1 - 7B相同的架构,继承了其优秀的语言建模能力。
- 数据丰富:在大量葡萄牙语数据上进行预训练,对葡萄牙语的理解和生成能力较强。
💻 使用示例
基础用法
由于Sabiá - 7B仅在语言建模目标上进行训练,未针对指令跟随进行微调,因此建议用于少样本任务而非零样本任务,以下是示例代码:
import torch
from transformers import LlamaTokenizer, LlamaForCausalLM
tokenizer = LlamaTokenizer.from_pretrained("maritaca-ai/sabia-7b")
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
torch_dtype=torch.bfloat16
)
prompt = """Classifique a resenha de filme como "positiva" ou "negativa".
Resenha: Gostei muito do filme, é o melhor do ano!
Classe: positiva
Resenha: O filme deixa muito a desejar.
Classe: negativa
Resenha: Apesar de longo, valeu o ingresso.
Classe:"""
input_ids = tokenizer(prompt, return_tensors="pt")
output = model.generate(
input_ids["input_ids"].to("cuda"),
max_length=1024,
eos_token_id=tokenizer.encode("\n"))
output = output[0][len(input_ids["input_ids"][0]):]
print(tokenizer.decode(output, skip_special_tokens=True))
高级用法
如果你的GPU内存不足,可以尝试使用int8精度,但与fp16或bf16相比,模型输出质量会有所下降:
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
load_in_8bit=True,
)
📚 详细文档
葡萄牙语数据集结果
以下是模型在Poeta基准测试(包含14个葡萄牙语数据集)上的结果。有关归一化首选指标(NPM)的更多信息,请参考我们的论文。
模型 |
NPM |
LLaMA - 1 - 7B |
33.0 |
LLaMA - 2 - 7B |
43.7 |
Sabiá - 7B |
48.5 |
英语数据集结果
以下是模型在6个英语数据集(PIQA、HellaSwag、WinoGrande、ARC - e、ARC - c和OpenBookQA)上的平均结果。
模型 |
NPM |
LLaMA - 1 - 7B |
50.1 |
Sabiá - 7B |
49.0 |
开放葡萄牙语大语言模型排行榜评估结果
详细结果可在此处查看。
指标 |
值 |
平均值 |
47.09 |
ENEM挑战(无图像) |
55.07 |
BLUEX(无图像) |
47.71 |
OAB考试 |
41.41 |
Assin2 RTE |
46.68 |
Assin2 STS |
1.89 |
FaQuAD NLI |
58.34 |
HateBR Binary |
61.93 |
PT Hate Speech Binary |
64.13 |
tweetSentBR |
46.64 |
模型信息表格
属性 |
详情 |
模型类型 |
自回归语言模型 |
训练数据 |
来自ClueWeb22葡萄牙语子集的70亿个标记,额外100亿个标记进一步训练 |
分词器 |
与LLaMA - 1 - 7B相同 |
最大序列长度 |
2048个标记 |
数据时效性 |
截止到2022年年中 |
许可证 |
与LLaMA - 1相同,仅用于研究目的 |
🔧 技术细节
Sabiá - 7B采用自回归语言模型架构,使用与LLaMA - 1 - 7B相同的架构和分词器。在预训练过程中,从LLaMA - 1 - 7B的权重开始,在大量葡萄牙语数据上进行进一步训练,从而提高了对葡萄牙语的处理能力。
📄 许可证
该模型的许可与LLaMA - 1相同,限制模型仅用于研究目的。
📖 引用
请使用以下BibTeX引用我们的论文:
@InProceedings{10.1007/978-3-031-45392-2_15,
author="Pires, Ramon
and Abonizio, Hugo
and Almeida, Thales Sales
and Nogueira, Rodrigo",
editor="Naldi, Murilo C.
and Bianchi, Reinaldo A. C.",
title="Sabi{\'a}: Portuguese Large Language Models",
booktitle="Intelligent Systems",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="226--240",
isbn="978-3-031-45392-2"
}