🚀 Sabiá-7B模型
Sabiá-7B是由Maritaca AI開發的葡萄牙語語言模型,該模型在文本生成任務上表現出色,為葡萄牙語相關的研究提供了有力支持。
🚀 快速開始
Sabiá-7B是一個專為葡萄牙語設計的語言模型,以下是其基本信息:
- 輸入:模型僅接受文本輸入。
- 輸出:模型僅生成文本。
- 模型架構:Sabiá-7B是一個自迴歸語言模型,採用與LLaMA - 1 - 7B相同的架構。
- 分詞器:使用與LLaMA - 1 - 7B相同的分詞器。
- 最大序列長度:2048個標記。
- 預訓練數據:該模型在來自ClueWeb22葡萄牙語子集的70億個標記上進行預訓練,從LLaMA - 1 - 7B的權重開始,並在額外的100億個標記上進一步訓練,約為訓練數據集的1.4個週期。
- 數據時效性:預訓練數據截止到2022年年中。
- 許可證:許可與LLaMA - 1相同,限制模型僅用於研究目的。
- 論文:更多詳細信息,請參考我們的論文:Sabiá: Portuguese Large Language Models
✨ 主要特性
- 架構優勢:採用與LLaMA - 1 - 7B相同的架構,繼承了其優秀的語言建模能力。
- 數據豐富:在大量葡萄牙語數據上進行預訓練,對葡萄牙語的理解和生成能力較強。
💻 使用示例
基礎用法
由於Sabiá - 7B僅在語言建模目標上進行訓練,未針對指令跟隨進行微調,因此建議用於少樣本任務而非零樣本任務,以下是示例代碼:
import torch
from transformers import LlamaTokenizer, LlamaForCausalLM
tokenizer = LlamaTokenizer.from_pretrained("maritaca-ai/sabia-7b")
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
torch_dtype=torch.bfloat16
)
prompt = """Classifique a resenha de filme como "positiva" ou "negativa".
Resenha: Gostei muito do filme, é o melhor do ano!
Classe: positiva
Resenha: O filme deixa muito a desejar.
Classe: negativa
Resenha: Apesar de longo, valeu o ingresso.
Classe:"""
input_ids = tokenizer(prompt, return_tensors="pt")
output = model.generate(
input_ids["input_ids"].to("cuda"),
max_length=1024,
eos_token_id=tokenizer.encode("\n"))
output = output[0][len(input_ids["input_ids"][0]):]
print(tokenizer.decode(output, skip_special_tokens=True))
高級用法
如果你的GPU內存不足,可以嘗試使用int8精度,但與fp16或bf16相比,模型輸出質量會有所下降:
model = LlamaForCausalLM.from_pretrained(
"maritaca-ai/sabia-7b",
device_map="auto",
low_cpu_mem_usage=True,
load_in_8bit=True,
)
📚 詳細文檔
葡萄牙語數據集結果
以下是模型在Poeta基準測試(包含14個葡萄牙語數據集)上的結果。有關歸一化首選指標(NPM)的更多信息,請參考我們的論文。
模型 |
NPM |
LLaMA - 1 - 7B |
33.0 |
LLaMA - 2 - 7B |
43.7 |
Sabiá - 7B |
48.5 |
英語數據集結果
以下是模型在6個英語數據集(PIQA、HellaSwag、WinoGrande、ARC - e、ARC - c和OpenBookQA)上的平均結果。
模型 |
NPM |
LLaMA - 1 - 7B |
50.1 |
Sabiá - 7B |
49.0 |
開放葡萄牙語大語言模型排行榜評估結果
詳細結果可在此處查看。
指標 |
值 |
平均值 |
47.09 |
ENEM挑戰(無圖像) |
55.07 |
BLUEX(無圖像) |
47.71 |
OAB考試 |
41.41 |
Assin2 RTE |
46.68 |
Assin2 STS |
1.89 |
FaQuAD NLI |
58.34 |
HateBR Binary |
61.93 |
PT Hate Speech Binary |
64.13 |
tweetSentBR |
46.64 |
模型信息表格
屬性 |
詳情 |
模型類型 |
自迴歸語言模型 |
訓練數據 |
來自ClueWeb22葡萄牙語子集的70億個標記,額外100億個標記進一步訓練 |
分詞器 |
與LLaMA - 1 - 7B相同 |
最大序列長度 |
2048個標記 |
數據時效性 |
截止到2022年年中 |
許可證 |
與LLaMA - 1相同,僅用於研究目的 |
🔧 技術細節
Sabiá - 7B採用自迴歸語言模型架構,使用與LLaMA - 1 - 7B相同的架構和分詞器。在預訓練過程中,從LLaMA - 1 - 7B的權重開始,在大量葡萄牙語數據上進行進一步訓練,從而提高了對葡萄牙語的處理能力。
📄 許可證
該模型的許可與LLaMA - 1相同,限制模型僅用於研究目的。
📖 引用
請使用以下BibTeX引用我們的論文:
@InProceedings{10.1007/978-3-031-45392-2_15,
author="Pires, Ramon
and Abonizio, Hugo
and Almeida, Thales Sales
and Nogueira, Rodrigo",
editor="Naldi, Murilo C.
and Bianchi, Reinaldo A. C.",
title="Sabi{\'a}: Portuguese Large Language Models",
booktitle="Intelligent Systems",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="226--240",
isbn="978-3-031-45392-2"
}