Albertina 100M PTBR開源大語言模型 - 助力巴西葡萄牙語理解與處理

首頁

Albertina 100m Portuguese Ptbr Encoder

由PORTULAN開發

Albertina 100M PTBR是一個面向巴西葡萄牙語的基礎大語言模型，屬於BERT家族的編碼器，基於Transformer神經網絡架構，並在DeBERTa模型基礎上開發。

大型語言模型

Transformers

其他開源協議:MIT #巴西葡萄牙語編碼器 #DeBERTa架構 #掩碼語言建模

下載量 131

發布時間 : 5/25/2023

模型概述

該模型是針對巴西葡萄牙語的基礎大語言模型，具有1億參數，採用MIT許可證分發，可用於掩碼語言建模等任務。

模型特點

巴西葡萄牙語優化

專門針對巴西葡萄牙語進行訓練和優化，提供更準確的語言理解能力。

基於DeBERTa架構

在DeBERTa模型基礎上開發，結合了Transformer架構的優勢，具有更強的性能表現。

開源許可證

採用MIT許可證分發，允許自由使用和修改。

模型能力

掩碼語言建模

文本理解

下游任務微調

使用案例

自然語言處理

語義相似度分析

可用於分析兩段文本的語義相似度

在STS-B任務上達到0.8501皮爾遜係數

文本蘊含識別

判斷一段文本是否蘊含另一段文本的含義

在RTE任務上達到0.6462準確率

文本處理

自動補全

預測被掩碼遮蓋的詞語

示例中準確預測了'costumes'作為最佳補全詞

🚀 Albertina 100M PTBR

Albertina 100M PTBR 是一款面向巴西美式葡萄牙語的基礎大語言模型。它屬於BERT家族的編碼器，基於Transformer神經架構，在DeBERTa模型的基礎上開發，在該語言領域具有極具競爭力的性能。此模型免費分發，並遵循寬鬆的許可協議。

✨ 主要特性

先進架構：基於Transformer架構和DeBERTa模型開發，性能出色。
數據優質：在經過精心篩選的大量文檔上進行訓練，數據質量高。
許可寬鬆：遵循MIT許可協議，方便使用和傳播。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr-base')
>>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")

[{'score': 0.9391396045684814, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária brasileira é rica em sabores e costumes, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.04568921774625778, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária brasileira é rica em sabores e cores, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.004134135786443949, 'token': 6696, 'token_str': ' drinks', 'sequence': 'A culinária brasileira é rica em sabores e drinks, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0009097770671360195, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária brasileira é rica em sabores e nuances, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0008549498743377626, 'token': 606, 'token_str': ' comes', 'sequence': 'A culinária brasileira é rica em sabores e comes, tornando-se um dos maiores patrimônios do país.'}]

高級用法

>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset

>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr-base", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr-base")
>>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")

>>> def tokenize_function(examples):
...     return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)

>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)

>>> training_args = TrainingArguments(output_dir="albertina-ptpt-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
...     model=model,
...     args=training_args,
...     train_dataset=tokenized_datasets["train"],
...     eval_dataset=tokenized_datasets["validation"],
... )

>>> trainer.train()

📚 詳細文檔

模型描述

本模型卡片介紹的是 Albertina 100M PTBR，該模型擁有1億個參數、12層結構，隱藏層大小為768。

Albertina-PT-BR base 遵循 MIT許可協議進行分發。

DeBERTa 遵循 MIT許可協議。

訓練數據

Albertina P100M PTBR 是在從 OSCAR 數據集中精心挑選的37億個標記的文檔上進行訓練的。

OSCAR數據集包含了一百多種語言的文檔，其中包括葡萄牙語，並且在相關文獻中被廣泛使用。它是對 Common Crawl 數據集進行篩選的結果，該數據集是從網絡上爬取而來的，只保留了元數據表明允許爬取的頁面，進行了去重處理，並去除了一些樣板內容等。

由於OSCAR數據集沒有區分葡萄牙語的不同變體，我們進行了額外的過濾，只保留元數據表明互聯網國家代碼頂級域為巴西的文檔。我們使用的是2023年1月版本的OSCAR，它基於2022年11月/12月版本的Common Crawl。

預處理

我們使用 BLOOM預處理管道對巴西葡萄牙語語料庫進行了過濾。我們跳過了默認的停用詞過濾，因為這會破壞句法結構，同時也跳過了語言識別過濾，因為語料庫已經預先選擇為葡萄牙語。

訓練

作為代碼庫，我們採用了適用於英語的 DeBERTa V1 base。

為了訓練 Albertina 100M PTBR，我們使用原始的DeBERTa分詞器對數據集進行分詞，截斷序列長度為128個標記，並進行動態填充。

該模型在訓練時使用了最大可用內存容量，批量大小為3072個樣本（每個GPU 192個樣本）。我們選擇了1e - 5的學習率，並採用線性衰減和10000步的熱身步驟。模型總共訓練了150個訓練週期，大約進行了180000步。

該模型在配備16個GPU、96個vCPU和1360GB內存的Google Cloud A2 VMs（a2 - megagpu - 16gb）上訓練了一天。

評估

基礎模型版本在下游任務上進行了評估，具體是對廣泛使用的 GLUE基準測試中部分任務所使用的英語數據集進行巴西葡萄牙語翻譯後的數據集。

GLUE任務翻譯

我們採用了 PLUE（葡萄牙語語言理解評估），這是一個通過將GLUE自動翻譯成 巴西葡萄牙語 而獲得的數據集。我們處理了PLUE中的四個任務，具體如下：

兩個相似度任務：MRPC（用於檢測兩個句子是否互為釋義）和STS - B（用於語義文本相似度）。
兩個推理任務：RTE（用於識別文本蘊含關係）和WNLI（用於共指和自然語言推理）。

模型	RTE（準確率）	WNLI（準確率）	MRPC（F1值）	STS - B（皮爾遜係數）
Albertina 900M PTBR No - brWaC	0.7798	0.5070	0.9167	0.8743
Albertina 900M PTBR	0.7545	0.4601	0.9071	0.8910
Albertina 100M PTBR	0.6462	0.5493	0.8779	0.8501

🔧 技術細節

文檔未提供足夠詳細的技術實現細節，暫不提供。

📄 許可證

Albertina-PT-BR base 遵循 MIT許可協議進行分發。DeBERTa 遵循 MIT許可協議。

📚 相關引用

當使用或引用此模型時，請使用以下規範引用：

@misc{albertina-pt-fostering,
      title={Fostering the Ecosystem of Open Neural Encoders
            for Portuguese with Albertina PT-* family}, 
      author={Rodrigo Santos and João Rodrigues and Luís Gomes
              and João Silva and António Branco
              and Henrique Lopes Cardoso and Tomás Freitas Osório
              and Bernardo Leite},
      year={2024},
      eprint={2403.01897},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

🙏 致謝

本文所報告的研究部分得到了以下機構的支持：

PORTULAN CLARIN — 語言科學與技術研究基礎設施，由Lisboa 2020、Alentejo 2020和FCT — 科學技術基金會根據PINFRA/22117/2016資助。
研究項目ALBERTINA - 葡萄牙語基礎編碼器模型與人工智能，由FCT — 科學技術基金會根據CPCA - IAC/AV/478394/2022資助。
創新項目ACCELERAT.AI - 多語言智能客服中心，由IAPMEI，I.P. - 競爭力與創新局根據Plano de Recuperação e Resiliência的RE - C05 - i01.01 — 再工業化動員議程/聯盟的C625734525 - 00462629資助。
LIACC - 人工智能與計算機科學實驗室，由FCT — 科學技術基金會根據FCT/UID/CEC/0027/2020資助。

模型家族

模型家族	詳情
Albertina 1.5B PTPT	-
Albertina 1.5B PTBR	-
Albertina 1.5B PTPT 256	-
Albertina 1.5B PTBR 256	-
Albertina 900M PTPT	-
Albertina 900M PTBR	-
Albertina 100M PTPT	-
Albertina 100M PTBR	-