B

Bertugues Base Portuguese Cased

由ricardoz開發
BERTugues是基於葡萄牙語文本訓練的BERT模型,嚴格遵循原始BERT論文的預訓練流程,通過100萬步訓練完成掩碼語言建模和下一句預測任務。
下載量 92
發布時間 : 8/7/2023

模型概述

BERTugues是針對葡萄牙語優化的BERT模型,通過改進分詞器和訓練數據質量,在多項葡萄牙語NLP任務中表現優異。

模型特點

優化的分詞器
剔除葡萄牙語罕見字符,添加高頻表情符號,顯著降低文本被切分為多個token的比例
數據質量過濾
採用Gopher模型論文提出的啟發式方法,對BrWAC語料進行質量過濾
性能優勢
在多項葡萄牙語NLP任務中超越同類模型,部分任務表現優於參數量大三倍的模型

模型能力

掩碼語言建模
句子相似度計算
下一句預測
文本特徵提取
文本分類

使用案例

情感分析
葡萄牙語電影評論分類
使用BERTugues生成的句子表徵配合隨機森林分類器進行情感分析
在IMDB葡萄牙語版數據集上F1達84.0%,優於同類模型
法律文本處理
法律文本主題分類
判斷兩法律文本是否屬於同一主題
在STJ數據集上F1達45.2%,優於Bertimbau-Large模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase