モデル概要
モデル特徴
モデル能力
使用事例
🚀 Albertina 1.5B PTBR
Albertina 1.5B PTBR は、ブラジルポルトガル語変種 向けの基礎的な大規模言語モデルです。このモデルは BERT ファミリーの エンコーダ で、Transformer ニューラルネットワークアーキテクチャに基づき、DeBERTa モデルをベースに開発されており、当該言語分野で非常に競争力のある性能を持っています。このモデルには、ポルトガル語の異なる変種、すなわちポルトガルで使用されるヨーロッパ変種(PTPT)とブラジルで使用されるブラジル変種(PTBR)に対して訓練された異なるバージョンがあり、オープンライセンスの下で無料で公開配布されています。
🚀 クイックスタート
このモデルを直接使用して、マスク言語モデリングを行うことができます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-1b5-portuguese-ptbr-encoder')
>>> unmasker("A culinária portuguesa é rica em sabores e [MASK], tornando-se um dos maiores tesouros do país.")
[{'score': 0.8332648277282715, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária portuguesa é rica em sabores e costumes, tornando-se um dos maiores tesouros do país.'},
{'score': 0.07860890030860901, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária portuguesa é rica em sabores e cores, tornando-se um dos maiores tesouros do país.'},
{'score': 0.03278181701898575, 'token': 35277, 'token_str': ' arte', 'sequence': 'A culinária portuguesa é rica em sabores e arte, tornando-se um dos maiores tesouros do país.'},
{'score': 0.009515956044197083, 'token': 9240, 'token_str': ' cor', 'sequence': 'A culinária portuguesa é rica em sabores e cor, tornando-se um dos maiores tesouros do país.'},
{'score': 0.009381960146129131, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária portuguesa é rica em sabores e nuances, tornando-se um dos maiores tesouros do país.'}]
このモデルは、特定のタスクに対して微調整することでも使用できます。
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-1b5-portuguese-ptbr-encoder", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-1b5-portuguese-ptbr-encoder")
>>> dataset = load_dataset("PORTULAN/glue-ptbr", "rte")
>>> def tokenize_function(examples):
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
>>> training_args = TrainingArguments(output_dir="albertina-ptbr-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
... model=model,
... args=training_args,
... train_dataset=tokenized_datasets["train"],
... eval_dataset=tokenized_datasets["validation"],
... )
>>> trainer.train()
✨ 主な機能
- 高い対象性:ブラジルポルトガル語変種用に特別に設計されており、当該言語のテキストをより適切に処理できます。
- 先進的なアーキテクチャ:Transformer アーキテクチャと DeBERTa モデルをベースに開発されており、優れた性能を備えています。
- 多様なバージョン:異なるポルトガル語変種に対応したバージョンがあり、異なる地域のニーズを満たすことができます。
- 無料でオープンソース:オープンライセンスの下で無料で公開配布されており、研究や使用が容易です。
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-1b5-portuguese-ptbr-encoder')
>>> unmasker("A culinária portuguesa é rica em sabores e [MASK], tornando-se um dos maiores tesouros do país.")
[{'score': 0.8332648277282715, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária portuguesa é rica em sabores e costumes, tornando-se um dos maiores tesouros do país.'},
{'score': 0.07860890030860901, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária portuguesa é rica em sabores e cores, tornando-se um dos maiores tesouros do país.'},
{'score': 0.03278181701898575, 'token': 35277, 'token_str': ' arte', 'sequence': 'A culinária portuguesa é rica em sabores e arte, tornando-se um dos maiores tesouros do país.'},
{'score': 0.009515956044197083, 'token': 9240, 'token_str': ' cor', 'sequence': 'A culinária portuguesa é rica em sabores e cor, tornando-se um dos maiores tesouros do país.'},
{'score': 0.009381960146129131, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária portuguesa é rica em sabores e nuances, tornando-se um dos maiores tesouros do país.'}]
高度な使用法
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-1b5-portuguese-ptbr-encoder", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-1b5-portuguese-ptbr-encoder")
>>> dataset = load_dataset("PORTULAN/glue-ptbr", "rte")
>>> def tokenize_function(examples):
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
>>> training_args = TrainingArguments(output_dir="albertina-ptbr-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
... model=model,
... args=training_args,
... train_dataset=tokenized_datasets["train"],
... eval_dataset=tokenized_datasets["validation"],
... )
>>> trainer.train()
📚 ドキュメント
モデルの説明
このモデルカードは Albertina 1.5B PTBR を対象としています。このモデルは 15 億個のパラメータ、48 層、および 1536 の隠れ層サイズを持っています。Albertina 1.5B PTBR は MIT ライセンス に基づいて配布されており、DeBERTa も MIT ライセンス に基づいて配布されています。
訓練データ
Albertina 1.5B PTBR は、360 億トークンのデータセットで訓練されています。このデータセットは、以下のソースから収集されたいくつかの公開されているブラジルポルトガル語コーパスを集めることで得られました。
- CulturaX:CulturaX は、研究や人工知能開発に無料で使用できる多言語コーパスです。これは、他の 2 つの大規模データセットである mC4 と OSCAR を統合し、深度にクリーニングすることで作成されました。これは Common Crawl データセットをフィルタリングした結果であり、このデータセットはウェブからクロールされ、メタデータがクロールを許可しているページのみが残され、重複が削除され、一部の定型文などが削除されます。これはポルトガル語の変種を区別しないため、メタデータがインターネットの国コードトップレベルドメインがポルトガルであることを示すドキュメントのみを残すために追加のフィルタリングを行いました。
前処理
BLOOM 前処理 パイプラインを使用して、PTBR コーパスをフィルタリングしました。デフォルトのストップワードフィルタリングは構文構造を破壊するためスキップし、言語識別フィルタリングもコーパスが事前にポルトガル語に選択されているためスキップしました。
訓練
コードベースとして、英語用の DeBERTa V2 xxlarge を採用しました。Albertina 1.5B PTBR を訓練するために、データセットは元の DeBERTa トークナイザーを使用してトークナイズされ、250k ステップでは 128 トークンのシーケンストランケーションと動的パディングが使用され、80k ステップでは 256 トークンのシーケンストランケーションが使用され(Albertina 1.5B PTBR 256)、最後に 60k ステップでは 512 トークンのシーケンストランケーションが使用されます。これらのステップは、それぞれ Google Cloud A2 ノード a2 - megagpu - 16gb 上で 128 トークンの入力シーケンスに対して 48 時間、256 トークンの入力シーケンスに対して 24 時間、512 トークンの入力シーケンスに対して 24 時間の計算に対応しています。学習率は 1e - 5 を選択し、線形減衰と 10k のウォームアップステップを採用しました。
性能
extraGLUE を採用しました。これは GLUE と SUPERGLUE の PTBR バージョン のベンチマークテストです。GLUE と SUPERGLUE のタスクを DeepL Translate を使用して自動翻訳しました。このツールは、英語から PTPT または PTBR への翻訳オプションを特別に提供しています。
モデル | RTE(正解率) | WNLI(正解率) | MRPC(F1 値) | STS - B(ピアソン係数) | COPA(正解率) | CB(F1 値) | MultiRC(F1 値) | BoolQ(正解率) |
---|---|---|---|---|---|---|---|---|
Albertina 1.5B PTBR | 0.8676 | 0.4742 | 0.8622 | 0.9007 | 0.7767 | 0.6372 | 0.7667 | 0.8654 |
Albertina 1.5B PTBR 256 | 0.8123 | 0.4225 | 0.8638 | 0.8968 | 0.8533 | 0.6884 | 0.6799 | 0.8509 |
Albertina 900M PTBR | 0.7545 | 0.4601 | 0.9071 | 0.8910 | 0.7767 | 0.5799 | 0.6731 | 0.8385 |
BERTimbau (335M) | 0.6446 | 0.5634 | 0.8873 | 0.8842 | 0.6933 | 0.5438 | 0.6787 | 0.7783 |
Albertina 100M PTBR | 0.6582 | 0.5634 | 0.8149 | 0.8489 | n.a. | 0.4771 | 0.6469 | 0.7537 |
DeBERTa 1.5B (英語) | 0.7112 | 0.5634 | 0.8545 | 0.0123 | 0.5700 | 0.4307 | 0.3639 | 0.6217 |
DeBERTa 100M (英語) | 0.5716 | 0.5587 | 0.8060 | 0.8266 | n.a. | 0.4739 | 0.6391 | 0.6838 |
🔧 技術詳細
Albertina 1.5B PTBR は、Transformer アーキテクチャと DeBERTa モデルをベースに開発されたエンコーダです。これは 360 億トークンのブラジルポルトガル語データセットで訓練され、特定の前処理と訓練手順を通じて、良好な性能を達成するためにパラメータが調整されています。訓練過程では、異なるシーケンストランケーションと動的パディング戦略、および特定の学習率とウォームアップステップが採用されています。性能評価には、extraGLUE ベンチマークテストが使用されており、これは GLUE と SUPERGLUE の PTBR バージョンであり、ブラジルポルトガル語に適応するためにタスクが自動翻訳されています。
📄 ライセンス
Albertina 1.5B PTBR は MIT ライセンス に基づいて配布されており、DeBERTa も MIT ライセンス に基づいて配布されています。
引用
このモデルを使用または引用する場合は、以下の 出版物 を引用してください。
@misc{albertina-pt-fostering,
title={Fostering the Ecosystem of Open Neural Encoders
for Portuguese with Albertina PT-* family},
author={Rodrigo Santos and João Rodrigues and Luís Gomes
and João Silva and António Branco
and Henrique Lopes Cardoso and Tomás Freitas Osório
and Bernardo Leite},
year={2024},
eprint={2403.01897},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
謝辞
ここで報告されている研究の一部は、以下の支援を受けています。
- PORTULAN CLARIN — 言語科学と技術の研究インフラストラクチャ。Lisboa 2020、Alentejo 2020、および FCT — 科学技術財団により、助成金 PINFRA/22117/2016 で資金提供されています。
- 研究プロジェクト ALBERTINA - ポルトガル語と人工知能の基礎エンコーダモデル。FCT — 科学技術財団により、助成金 CPCA - IAC/AV/478394/2022 で資金提供されています。
- イノベーションプロジェクト ACCELERAT.AI - 多言語インテリジェントコンタクトセンター。IAPMEI, I.P. - 競争力とイノベーション局により、回復と強靭化計画の助成金 C625734525 - 00462629 で資金提供されており、プロジェクト番号は RE - C05 - i01.01 – 再工業化動員アジェンダ/アライアンスです。
- LIACC - 人工知能とコンピュータサイエンス研究所。FCT — 科学技術財団により、助成金 FCT/UID/CEC/0027/2020 で資金提供されています。



