🚀 BERTimbau Large(又名 “bert-large-portuguese-cased”)
BERTimbau Large 是一個針對巴西葡萄牙語的預訓練 BERT 模型,在命名實體識別、句子文本相似度和識別文本蘊含這三個下游自然語言處理任務中達到了最先進的性能。它有基礎版和大版本兩種規格可供選擇。
🚀 快速開始
BERTimbau Large 是為巴西葡萄牙語設計的預訓練 BERT 模型,在三個下游自然語言處理任務中表現出色。若需更多信息或有相關需求,請訪問 BERTimbau 倉庫。
✨ 主要特性
- BERTimbau Large 在命名實體識別、句子文本相似度和識別文本蘊含這三個下游自然語言處理任務中達到了最先進的性能。
- 提供基礎版和大版本兩種規格。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 BERTimbau 倉庫 中的說明。
💻 使用示例
基礎用法
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('neuralmind/bert-large-portuguese-cased')
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased', do_lower_case=False)
高級用法
掩碼語言模型預測示例
from transformers import pipeline
pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('Tinha uma [MASK] no meio do caminho.')
獲取 BERT 嵌入示例
import torch
model = AutoModel.from_pretrained('neuralmind/bert-large-portuguese-cased')
input_ids = tokenizer.encode('Tinha uma pedra no meio do caminho.', return_tensors='pt')
with torch.no_grad():
outs = model(input_ids)
encoded = outs[0][0, 1:-1]
📚 詳細文檔
可用模型
模型 |
架構 |
層數 |
參數數量 |
neuralmind/bert-base-portuguese-cased |
BERT 基礎版 |
12 |
1.1 億 |
neuralmind/bert-large-portuguese-cased |
BERT 大版本 |
24 |
3.35 億 |
📄 許可證
本項目採用 MIT 許可證。
📖 引用
如果您使用了我們的工作,請引用以下文獻:
@inproceedings{souza2020bertimbau,
author = {F{\'a}bio Souza and
Rodrigo Nogueira and
Roberto Lotufo},
title = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
year = {2020}
}