nordic - roberta - wiki開源模型 - 支持瑞典語等北歐語言的掩碼填充任務

首頁

Nordic Roberta Wiki

由flax-community開發

基於瑞典語、丹麥語和挪威語維基百科訓練的北歐RoBERTa模型，適用於填充掩碼任務。

大型語言模型其他#北歐多語言模型 #維基百科訓練 #填充掩碼任務

下載量 13

發布時間 : 3/2/2022

模型概述

該模型是基於瑞典語、丹麥語和挪威語維基百科訓練的RoBERTa模型，主要用於填充掩碼任務，支持北歐多種語言處理。

模型特點

多語言支持

支持瑞典語、丹麥語和挪威語三種北歐語言。

基於維基百科訓練

訓練數據來源於瑞典語、丹麥語和挪威語的維基百科內容。

高性能

在丹麥語命名實體識別和情感分析任務中表現優異。

模型能力

填充掩碼

多語言文本處理

命名實體識別

情感分析

使用案例

自然語言處理

命名實體識別

用於識別文本中的命名實體，如人名、地名等。

在DaNE數據集上平均F1得分為85.75。

情感分析

用於分析文本的情感傾向。

在情感分析任務中平均得分為56.46。

🚀 北歐羅伯塔維基模型

本項目的北歐羅伯塔模型在瑞典語、丹麥語和挪威語的維基百科數據上進行訓練，可用於多種自然語言處理任務，為北歐語言的相關研究和應用提供了有力支持。

🚀 快速開始

該模型可直接通過Hugging Face的相關接口進行調用，你可以根據自身需求對其進行微調以適應特定任務。

✨ 主要特性

多語言支持：在瑞典語、丹麥語和挪威語的維基百科數據上進行訓練，能夠處理多種北歐語言。
廣泛應用：可用於命名實體識別、情感分析等自然語言處理任務。

📚 詳細文檔

模型描述

北歐羅伯塔模型在瑞典語、丹麥語和挪威語的維基百科數據上進行訓練，具備處理多種北歐語言的能力。

評估結果

丹麥語命名實體識別評估

在丹麥語命名實體識別任務上，對每個模型在DaNE數據集上進行3個輪次的微調，每個模型重複5次，並計算均值的95%置信區間。結果如下：

xlm - roberta - base : 88.01 ± 0.43
flax - community/nordic - roberta - wiki: 85.75 ± 0.69（本模型）
Maltehb/danish - bert - botxo: 85.38 ± 0.55
flax - community/roberta - base - danish: 80.14 ± 1.47
flax - community/roberta - base - scandinavian : 78.03 ± 3.02
Maltehb/-l - ctra - danish - electra - small - cased: 57.87 ± 3.19
NbAiLab/nb - bert - base : 30.24 ± 1.21
隨機初始化的RoBERTa模型: 19.79 ± 2.00

丹麥語情感分析評估

在測試集上的結果，每個模型訓練5次，“±”表示平均得分的95%置信區間：

Maltehb/danish - bert - botxo: 65.19 ± 0.53
NbAiLab/nb - bert - base : 63.80 ± 0.77
xlm - roberta - base : 63.55 ± 1.59
flax - community/nordic - roberta - wiki : 56.46 ± 1.77
flax - community/roberta - base - danish : 54.73 ± 8.96
flax - community/roberta - base - scandinavian : 44.28 ± 9.21
Maltehb/-l - ctra - danish - electra - small - cased : 47.78 ± 12.65
隨機初始化的RoBERTa模型: 36.96 ± 1.02
Maltehb/roberta - base - scandinavian : 33.65 ± 8.32

模型系列

本模型是在Huggingface Flax/Jax挑戰期間，使用Flax Jax在TPU上訓練的一系列模型的一部分。

📄 許可證

本項目採用CC - BY - 4.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫