umberto-commoncrawl-cased-v1開源意大利語語言模型 - 助力意大利語文本處理應用

首頁

Umberto Commoncrawl Cased V1

由Musixmatch開發

基於Roberta架構的意大利語語言模型，採用SentencePiece分詞和全詞掩碼技術訓練

大型語言模型

Transformers

其他#意大利語NLP #全詞掩碼技術 #SentencePiece分詞

下載量 13.19k

發布時間 : 3/2/2022

模型概述

UmBERTo是基於Roberta架構、在大規模意大利語語料庫上訓練的語言模型，專注於意大利語自然語言處理任務。

模型特點

全詞掩碼技術

採用全詞掩碼(Whole Word Masking)技術，提升模型對完整語義單元的理解能力

SentencePiece分詞

使用SentencePiece分詞器，有效處理意大利語的特殊字符和詞彙

大規模訓練數據

基於OSCAR意大利語子語料庫訓練，包含70GB純文本數據和110億單詞

模型能力

命名實體識別

詞性標註

意大利語文本理解

使用案例

文本分析

命名實體識別

識別意大利語文本中的人名、地名、機構名等實體

在ICAB-EvalITA07數據集上F1值達87.565，WikiNER-ITA數據集上達92.531

詞性標註

為意大利語文本中的詞彙標註詞性

在UD_Italian-ISDT數據集上準確率達98.977%

🚀 UmBERTo Commoncrawl Cased

UmBERTo是一個基於Roberta的語言模型，在大型意大利語語料庫上進行訓練，並採用了兩種創新方法：SentencePiece和全詞掩碼（Whole Word Masking）。現在可在github.com/huggingface/transformers獲取。

Marco Lodola, Monument to Umberto Eco, Alessandria 2019

📦 安裝指南

此部分原文檔未提及具體安裝步驟，故跳過。

✨ 主要特性

基於Roberta架構，在大型意大利語語料庫上訓練。
採用SentencePiece和全詞掩碼（Whole Word Masking）兩種創新方法。

📚 詳細文檔

數據集

UmBERTo-Commoncrawl-Cased使用OSCAR的意大利語子語料庫作為語言模型的訓練集。我們使用了意大利語語料庫的去重版本，該版本包含70GB的純文本數據、2.1億個句子和110億個單詞。為了用於自然語言處理研究，這些句子在行級別進行了過濾和打亂。

預訓練模型

屬性	詳情
模型類型	`umberto-commoncrawl-cased-v1`
全詞掩碼（WWM）	是
是否區分大小寫	是
分詞器	SPM
詞彙表大小	32K
訓練步數	125k
下載鏈接	Link

該模型使用SentencePiece和全詞掩碼（Whole Word Masking）進行訓練。

下游任務

這些結果是關於umberto-commoncrawl-cased模型的。所有詳細信息可在Umberto官方頁面查看。

命名實體識別（NER）

數據集	F1值	精確率	召回率	準確率
ICAB-EvalITA07	87.565	86.596	88.556	98.690
WikiNER-ITA	92.531	92.509	92.553	99.136

詞性標註（POS）

數據集	F1值	精確率	召回率	準確率
UD_Italian-ISDT	98.870	98.861	98.879	98.977
UD_Italian-ParTUT	98.786	98.812	98.760	98.903

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")

encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0)  # Batch size 1
outputs = umberto(input_ids)
last_hidden_states = outputs[0]  # The last hidden-state is the first element of the output

高級用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="Musixmatch/umberto-commoncrawl-cased-v1",
    tokenizer="Musixmatch/umberto-commoncrawl-cased-v1"
)

result = fill_mask("Umberto Eco è <mask> un grande scrittore")
# {'sequence': '<s> Umberto Eco è considerato un grande scrittore</s>', 'score': 0.18599839508533478, 'token': 5032}
# {'sequence': '<s> Umberto Eco è stato un grande scrittore</s>', 'score': 0.17816807329654694, 'token': 471}
# {'sequence': '<s> Umberto Eco è sicuramente un grande scrittore</s>', 'score': 0.16565583646297455, 'token': 2654}
# {'sequence': '<s> Umberto Eco è indubbiamente un grande scrittore</s>', 'score': 0.0932890921831131, 'token': 17908}
# {'sequence': '<s> Umberto Eco è certamente un grande scrittore</s>', 'score': 0.054701317101716995, 'token': 5269}

📄 許可證

所有原始數據集都是公開可用的，或者是在所有者授權下發布的。這些數據集均在CC0或CCBY許可證下發布。

UD Italian-ISDT數據集 Github
UD Italian-ParTUT數據集 Github
I-CAB（意大利語內容標註庫），EvalITA 頁面
WIKINER 頁面，論文

@inproceedings {magnini2006annotazione,
    title = {Annotazione di contenuti concettuali in un corpus italiano: I - CAB},
    author = {Magnini,Bernardo and Cappelli,Amedeo and Pianta,Emanuele and Speranza,Manuela and Bartalesi Lenzi,V and Sprugnoli,Rachele and Romano,Lorenza and Girardi,Christian and Negri,Matteo},
    booktitle = {Proc.of SILFI 2006},
    year = {2006}
}
@inproceedings {magnini2006cab,
    title = {I - CAB: the Italian Content Annotation Bank.},
    author = {Magnini,Bernardo and Pianta,Emanuele and Girardi,Christian and Negri,Matteo and Romano,Lorenza and Speranza,Manuela and Lenzi,Valentina Bartalesi and Sprugnoli,Rachele},
    booktitle = {LREC},
    pages = {963--968},
    year = {2006},
    organization = {Citeseer}
}