🚀 Albertina 100M PTBR
Albertina 100M PTBR 是一款面向巴西美式葡萄牙語的基礎大語言模型。它屬於BERT家族的編碼器,基於Transformer神經架構,在DeBERTa模型的基礎上開發,在該語言領域具有極具競爭力的性能。此模型免費分發,並遵循寬鬆的許可協議。
✨ 主要特性
- 先進架構:基於Transformer架構和DeBERTa模型開發,性能出色。
- 數據優質:在經過精心篩選的大量文檔上進行訓練,數據質量高。
- 許可寬鬆:遵循MIT許可協議,方便使用和傳播。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr-base')
>>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")
[{'score': 0.9391396045684814, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária brasileira é rica em sabores e costumes, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.04568921774625778, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária brasileira é rica em sabores e cores, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.004134135786443949, 'token': 6696, 'token_str': ' drinks', 'sequence': 'A culinária brasileira é rica em sabores e drinks, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0009097770671360195, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária brasileira é rica em sabores e nuances, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0008549498743377626, 'token': 606, 'token_str': ' comes', 'sequence': 'A culinária brasileira é rica em sabores e comes, tornando-se um dos maiores patrimônios do país.'}]
高級用法
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr-base", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr-base")
>>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")
>>> def tokenize_function(examples):
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
>>> training_args = TrainingArguments(output_dir="albertina-ptpt-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
... model=model,
... args=training_args,
... train_dataset=tokenized_datasets["train"],
... eval_dataset=tokenized_datasets["validation"],
... )
>>> trainer.train()
📚 詳細文檔
模型描述
本模型卡片介紹的是 Albertina 100M PTBR,該模型擁有1億個參數、12層結構,隱藏層大小為768。
Albertina-PT-BR base 遵循 MIT許可協議 進行分發。
DeBERTa 遵循 MIT許可協議。
訓練數據
Albertina P100M PTBR 是在從 OSCAR 數據集中精心挑選的37億個標記的文檔上進行訓練的。
OSCAR數據集包含了一百多種語言的文檔,其中包括葡萄牙語,並且在相關文獻中被廣泛使用。它是對 Common Crawl 數據集進行篩選的結果,該數據集是從網絡上爬取而來的,只保留了元數據表明允許爬取的頁面,進行了去重處理,並去除了一些樣板內容等。
由於OSCAR數據集沒有區分葡萄牙語的不同變體,我們進行了額外的過濾,只保留元數據表明互聯網國家代碼頂級域為巴西的文檔。我們使用的是2023年1月版本的OSCAR,它基於2022年11月/12月版本的Common Crawl。
預處理
我們使用 BLOOM預處理 管道對巴西葡萄牙語語料庫進行了過濾。我們跳過了默認的停用詞過濾,因為這會破壞句法結構,同時也跳過了語言識別過濾,因為語料庫已經預先選擇為葡萄牙語。
訓練
作為代碼庫,我們採用了適用於英語的 DeBERTa V1 base。
為了訓練 Albertina 100M PTBR,我們使用原始的DeBERTa分詞器對數據集進行分詞,截斷序列長度為128個標記,並進行動態填充。
該模型在訓練時使用了最大可用內存容量,批量大小為3072個樣本(每個GPU 192個樣本)。我們選擇了1e - 5的學習率,並採用線性衰減和10000步的熱身步驟。模型總共訓練了150個訓練週期,大約進行了180000步。
該模型在配備16個GPU、96個vCPU和1360GB內存的Google Cloud A2 VMs(a2 - megagpu - 16gb)上訓練了一天。
評估
基礎模型版本在下游任務上進行了評估,具體是對廣泛使用的 GLUE基準測試 中部分任務所使用的英語數據集進行巴西葡萄牙語翻譯後的數據集。
GLUE任務翻譯
我們採用了 PLUE(葡萄牙語語言理解評估),這是一個通過將GLUE自動翻譯成 巴西葡萄牙語 而獲得的數據集。我們處理了PLUE中的四個任務,具體如下:
- 兩個相似度任務:MRPC(用於檢測兩個句子是否互為釋義)和STS - B(用於語義文本相似度)。
- 兩個推理任務:RTE(用於識別文本蘊含關係)和WNLI(用於共指和自然語言推理)。
模型 |
RTE(準確率) |
WNLI(準確率) |
MRPC(F1值) |
STS - B(皮爾遜係數) |
Albertina 900M PTBR No - brWaC |
0.7798 |
0.5070 |
0.9167 |
0.8743 |
Albertina 900M PTBR |
0.7545 |
0.4601 |
0.9071 |
0.8910 |
Albertina 100M PTBR |
0.6462 |
0.5493 |
0.8779 |
0.8501 |
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,暫不提供。
📄 許可證
Albertina-PT-BR base 遵循 MIT許可協議 進行分發。DeBERTa 遵循 MIT許可協議。
📚 相關引用
當使用或引用此模型時,請使用以下規範引用:
@misc{albertina-pt-fostering,
title={Fostering the Ecosystem of Open Neural Encoders
for Portuguese with Albertina PT-* family},
author={Rodrigo Santos and João Rodrigues and Luís Gomes
and João Silva and António Branco
and Henrique Lopes Cardoso and Tomás Freitas Osório
and Bernardo Leite},
year={2024},
eprint={2403.01897},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🙏 致謝
本文所報告的研究部分得到了以下機構的支持:
- PORTULAN CLARIN — 語言科學與技術研究基礎設施,由Lisboa 2020、Alentejo 2020和FCT — 科學技術基金會根據PINFRA/22117/2016資助。
- 研究項目ALBERTINA - 葡萄牙語基礎編碼器模型與人工智能,由FCT — 科學技術基金會根據CPCA - IAC/AV/478394/2022資助。
- 創新項目ACCELERAT.AI - 多語言智能客服中心,由IAPMEI,I.P. - 競爭力與創新局根據Plano de Recuperação e Resiliência的RE - C05 - i01.01 — 再工業化動員議程/聯盟的C625734525 - 00462629資助。
- LIACC - 人工智能與計算機科學實驗室,由FCT — 科學技術基金會根據FCT/UID/CEC/0027/2020資助。
模型家族