U

Umberto Commoncrawl Cased V1

由Musixmatch開發
基於Roberta架構的意大利語語言模型,採用SentencePiece分詞和全詞掩碼技術訓練
下載量 13.19k
發布時間 : 3/2/2022

模型概述

UmBERTo是基於Roberta架構、在大規模意大利語語料庫上訓練的語言模型,專注於意大利語自然語言處理任務。

模型特點

全詞掩碼技術
採用全詞掩碼(Whole Word Masking)技術,提升模型對完整語義單元的理解能力
SentencePiece分詞
使用SentencePiece分詞器,有效處理意大利語的特殊字符和詞彙
大規模訓練數據
基於OSCAR意大利語子語料庫訓練,包含70GB純文本數據和110億單詞

模型能力

命名實體識別
詞性標註
意大利語文本理解

使用案例

文本分析
命名實體識別
識別意大利語文本中的人名、地名、機構名等實體
在ICAB-EvalITA07數據集上F1值達87.565,WikiNER-ITA數據集上達92.531
詞性標註
為意大利語文本中的詞彙標註詞性
在UD_Italian-ISDT數據集上準確率達98.977%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase