🚀 UmBERTo Commoncrawl Cased
UmBERTo是一個基於Roberta的語言模型,在大型意大利語語料庫上進行訓練,並採用了兩種創新方法:SentencePiece和全詞掩碼(Whole Word Masking)。現在可在github.com/huggingface/transformers獲取。
Marco Lodola, Monument to Umberto Eco, Alessandria 2019
📦 安裝指南
此部分原文檔未提及具體安裝步驟,故跳過。
✨ 主要特性
- 基於Roberta架構,在大型意大利語語料庫上訓練。
- 採用SentencePiece和全詞掩碼(Whole Word Masking)兩種創新方法。
📚 詳細文檔
數據集
UmBERTo-Commoncrawl-Cased使用OSCAR的意大利語子語料庫作為語言模型的訓練集。我們使用了意大利語語料庫的去重版本,該版本包含70GB的純文本數據、2.1億個句子和110億個單詞。為了用於自然語言處理研究,這些句子在行級別進行了過濾和打亂。
預訓練模型
屬性 |
詳情 |
模型類型 |
umberto-commoncrawl-cased-v1 |
全詞掩碼(WWM) |
是 |
是否區分大小寫 |
是 |
分詞器 |
SPM |
詞彙表大小 |
32K |
訓練步數 |
125k |
下載鏈接 |
Link |
該模型使用SentencePiece和全詞掩碼(Whole Word Masking)進行訓練。
下游任務
這些結果是關於umberto-commoncrawl-cased模型的。所有詳細信息可在Umberto官方頁面查看。
命名實體識別(NER)
數據集 |
F1值 |
精確率 |
召回率 |
準確率 |
ICAB-EvalITA07 |
87.565 |
86.596 |
88.556 |
98.690 |
WikiNER-ITA |
92.531 |
92.509 |
92.553 |
99.136 |
詞性標註(POS)
數據集 |
F1值 |
精確率 |
召回率 |
準確率 |
UD_Italian-ISDT |
98.870 |
98.861 |
98.879 |
98.977 |
UD_Italian-ParTUT |
98.786 |
98.812 |
98.760 |
98.903 |
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")
encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0)
outputs = umberto(input_ids)
last_hidden_states = outputs[0]
高級用法
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="Musixmatch/umberto-commoncrawl-cased-v1",
tokenizer="Musixmatch/umberto-commoncrawl-cased-v1"
)
result = fill_mask("Umberto Eco è <mask> un grande scrittore")
📄 許可證
所有原始數據集都是公開可用的,或者是在所有者授權下發布的。這些數據集均在CC0或CCBY許可證下發布。
- UD Italian-ISDT數據集 Github
- UD Italian-ParTUT數據集 Github
- I-CAB(意大利語內容標註庫),EvalITA 頁面
- WIKINER 頁面,論文
@inproceedings {magnini2006annotazione,
title = {Annotazione di contenuti concettuali in un corpus italiano: I - CAB},
author = {Magnini,Bernardo and Cappelli,Amedeo and Pianta,Emanuele and Speranza,Manuela and Bartalesi Lenzi,V and Sprugnoli,Rachele and Romano,Lorenza and Girardi,Christian and Negri,Matteo},
booktitle = {Proc.of SILFI 2006},
year = {2006}
}
@inproceedings {magnini2006cab,
title = {I - CAB: the Italian Content Annotation Bank.},
author = {Magnini,Bernardo and Pianta,Emanuele and Girardi,Christian and Negri,Matteo and Romano,Lorenza and Speranza,Manuela and Lenzi,Valentina Bartalesi and Sprugnoli,Rachele},
booktitle = {LREC},
pages = {963--968},
year = {2006},
organization = {Citeseer}
}
👥 作者
🏢 關於Musixmatch AI
我們在musixmatch進行機器學習和人工智能研究。
在Twitter Github上關注我們。