xlm-roberta-base-ft-udpos28-la開源模型 - 支持多語言，專用於拉丁語詞性標註

首頁

Xlm Roberta Base Ft Udpos28 La

由wietsedv開發

基於XLM-RoBERTa的多語言詞性標註模型，專門針對拉丁語優化，支持多種語言的詞性標註任務。

序列標註

Transformers

其他開源協議:Apache-2.0 #多語言詞性標註 #高準確率拉丁語處理 #通用依存關係分析

下載量 14

發布時間 : 3/2/2022

模型概述

該模型是基於XLM-RoBERTa架構的多語言詞性標註模型，經過通用依存關係數據集v2.8的訓練，特別針對拉丁語進行了優化。

模型特點

多語言支持

支持多種語言的詞性標註任務，包括拉丁語、英語、德語、法語等。

高準確率

在拉丁語詞性標註任務上達到92.9%的準確率，表現優異。

基於通用依存關係數據集

使用通用依存關係數據集v2.8進行訓練，確保模型在多種語言上的泛化能力。

模型能力

詞性標註

多語言文本處理

標記分類

使用案例

自然語言處理

拉丁語文本分析

對拉丁語文本進行詞性標註，幫助語言學家和研究者分析文本結構。

準確率高達92.9%

多語言文本處理

支持多種語言的詞性標註，適用於多語言文本處理任務。

在多種語言上表現良好

🚀 XLM - RoBERTa基礎通用依賴項v2.8詞性標註：拉丁語

本模型是論文《充分利用跨語言遷移：來自超100種語言詞性標註的證據》的一部分。查看Space以瞭解更多詳情。

🚀 快速開始

本模型可用於詞性標註和標記分類任務。以下是使用該模型的基本步驟。

✨ 主要特性

多語言支持：支持超過100種語言的詞性標註任務。
基於XLM - RoBERTa：利用XLM - RoBERTa的預訓練能力，在跨語言任務上表現出色。

📦 安裝指南

使用該模型前，你需要安裝transformers庫。可以使用以下命令進行安裝：

pip install transformers

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-la")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-la")

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於XLM - RoBERTa的詞性標註模型
訓練數據	通用依賴項v2.8（Universal Dependencies v2.8）

評估指標

以下是模型在不同語言測試集上的準確率：

語言	測試準確率
英語	81.5
荷蘭語	79.6
德語	78.2
意大利語	78.0
法語	78.1
西班牙語	79.8
俄語	89.8
瑞典語	86.0
挪威語	81.5
丹麥語	85.7
低地撒克遜語	56.6
阿卡德語	44.7
亞美尼亞語	86.4
威爾士語	65.1
古東斯拉夫語	79.8
阿爾巴尼亞語	74.9
斯洛文尼亞語	77.4
瓜拉尼語	35.8
庫爾德語（庫爾曼吉語）	77.7
土耳其語	76.9
芬蘭語	84.9
印尼語	82.0
烏克蘭語	87.8
波蘭語	88.0
葡萄牙語	82.3
哈薩克語	83.2
拉丁語	92.9
古法語	61.2
布里亞特語	64.7
卡波語	34.2
韓語	63.0
愛沙尼亞語	85.5
克羅地亞語	86.3
哥特語	36.5
瑞士德語	47.8
亞述語	15.5
北薩米語	41.4
尼日利亞皮欽語	41.9
拉脫維亞語	89.1
中文	44.3
他加祿語	73.7
班巴拉語	27.9
立陶宛語	88.3
加利西亞語	81.7
越南語	68.0
希臘語	74.9
加泰羅尼亞語	76.2
捷克語	86.3
埃爾齊亞語	50.8
博傑普爾語	52.5
泰語	61.6
馬拉地語	88.3
巴斯克語	79.0
斯洛伐克語	85.9
基切語	39.3
約魯巴語	29.9
瓦爾皮里語	40.9
泰米爾語	85.7
馬耳他語	32.8
古希臘語	70.5
冰島語	81.6
姆比亞瓜拉尼語	33.1
烏爾都語	61.3
羅馬尼亞語	83.1
波斯語	75.7
阿普里納語	43.5
日語	36.5
匈牙利語	74.5
印地語	67.0
古漢語	38.2
科米-彼爾米亞克語	52.2
法羅語	75.6
梵語	43.5
利沃尼亞語	66.1
阿拉伯語	81.3
沃洛夫語	39.1
保加利亞語	87.7
阿昆楚語	35.5
馬庫拉普語	28.8
坎格里語	49.8
布列塔尼語	59.8
泰盧固語	84.3
粵語	50.3
古教會斯拉夫語	55.7
卡累利阿語	73.0
上索布語	76.0
南黎凡特阿拉伯語	68.8
科米-茲梁語	46.3
愛爾蘭語	64.1
納伊尼語	44.9
蒙杜魯庫語	24.1
馬恩島語	39.3
斯科爾特薩米語	43.5
南非荷蘭語	74.8
古土耳其語	37.1
圖皮南巴語	45.2
白俄羅斯語	89.1
塞爾維亞語	87.2
莫克沙語	47.3
西亞美尼亞語	81.6
蘇格蘭蓋爾語	55.3
昆薩里語	43.2
希伯來語	89.6
維吾爾語	76.8
楚科奇語	36.3