roberta-large-1160k开源多语言大模型 - 支持瑞典语等四国语言文本处理

首页

Roberta Large 1160k

由 AI-Sweden-Models 开发

基于北欧语料库训练的多语言RoBERTa大模型，支持瑞典语、挪威语、丹麦语和英语

大型语言模型

Transformers

支持多种语言开源协议:MIT #北欧多语言理解 #高精度掩码预测 #大规模语料训练

下载量 1,159

发布时间 : 2/28/2024

模型简介

该模型是基于RoBERTa架构的大型语言模型，专门针对北欧语言优化，可直接用于掩码语言建模任务，更推荐在下游任务中微调使用

模型特点

北欧语言优化

专门针对瑞典语、挪威语和丹麦语进行训练优化

高性能硬件训练

使用8块Intel® Gaudi® 2 AI加速器训练

下游任务适配

推荐在下游任务中微调使用而非直接预测

模型能力

掩码语言建模

多语言文本理解

北欧语言处理

使用案例

地理知识问答

首都识别

识别北欧国家首都

能准确预测瑞典、挪威、丹麦等国家的首都

文本理解

北欧语言文本分析

处理瑞典语、挪威语和丹麦语文本

🚀 roberta-large-1160k

该模型可用于掩码语言建模任务，也可在下游任务中进行微调，为斯堪的纳维亚语系相关的自然语言处理提供支持。

🚀 快速开始

你可以使用这个原始模型进行掩码语言建模，但它主要用于在下游任务中进行微调。

✨ 主要特性

多语言支持：支持瑞典语、挪威语和丹麦语等斯堪的纳维亚语系语言。
微调能力：适用于在下游任务中进行微调。

💻 使用示例

基础用法

你可以直接使用这个模型与掩码语言建模管道进行交互：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='AI-Sweden-Models/roberta-large-1160k')
>>> unmasker("Huvudstaden i Sverige är <mask>.")
[{'score': 0.5841221213340759,
  'token': 1945,
  'token_str': ' Stockholm',
  'sequence': 'Huvudstaden i Sverige är Stockholm.'},
 {'score': 0.06775698810815811,
  'token': 5007,
  'token_str': ' Göteborg',
  'sequence': 'Huvudstaden i Sverige är Göteborg.'},
 {'score': 0.05057400465011597,
  'token': 5761,
  'token_str': ' Malmö',
  'sequence': 'Huvudstaden i Sverige är Malmö.'},
 {'score': 0.021936343982815742,
  'token': 21449,
  'token_str': ' Norrköping',
  'sequence': 'Huvudstaden i Sverige är Norrköping.'},
 {'score': 0.017798304557800293,
  'token': 5658,
  'token_str': ' Uppsala',
  'sequence': 'Huvudstaden i Sverige är Uppsala.'}]

>>> unmasker("Hovedstaden i Norge er <mask>.")
[{'score': 0.6792309284210205,
  'token': 5158,
  'token_str': ' Oslo',
  'sequence': 'Hovedstaden i Norge er Oslo.'},
 {'score': 0.09379775077104568,
  'token': 15456,
  'token_str': ' Trondheim',
  'sequence': 'Hovedstaden i Norge er Trondheim.'},
 {'score': 0.052535850554704666,
  'token': 11370,
  'token_str': ' Bergen',
  'sequence': 'Hovedstaden i Norge er Bergen.'},
 {'score': 0.03465486690402031,
  'token': 29407,
  'token_str': ' hovedstaden',
  'sequence': 'Hovedstaden i Norge er hovedstaden.'},
 {'score': 0.03017985075712204,
  'token': 33311,
  'token_str': ' Kristiansand',
  'sequence': 'Hovedstaden i Norge er Kristiansand.'}]

>>> unmasker("Danmarks hovedstad er <mask>.")
[{'score': 0.11624140292406082,
  'token': 4794,
  'token_str': ' København',
  'sequence': 'Danmarks hovedstad er København.'},
 {'score': 0.045051511377096176,
  'token': 7680,
  'token_str': ' død',
  'sequence': 'Danmarks hovedstad er død.'},
 {'score': 0.02936543896794319,
  'token': 10795,
  'token_str': ' lukket',
  'sequence': 'Danmarks hovedstad er lukket.'},
 {'score': 0.026030730456113815,
  'token': 13580,
  'token_str': ' Odense',
  'sequence': 'Danmarks hovedstad er Odense.'},
 {'score': 0.02130937948822975,
  'token': 16347,
  'token_str': ' Roskilde',
  'sequence': 'Danmarks hovedstad er Roskilde.'}]

高级用法

以下是如何在PyTorch中使用这个模型来获取给定文本的特征：

from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('AI-Sweden-Models/roberta-large-1160k')
model = RobertaModel.from_pretrained('AI-Sweden-Models/roberta-large-1160k')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

📦 训练数据

该模型的训练数据来自北欧语料库（Nordic Pile）的斯堪的纳维亚子集，包含瑞典语、挪威语和丹麦语，共有414,962,688个文本样本。

🔧 技术细节

训练框架：该模型使用 optimum-habana 框架进行训练。
硬件加速：利用8个英特尔® Gaudi® 2 AI加速器进行训练，由瑞典英特尔公司（Intel Sweden AB）管理。
初始化权重：使用来自 https://huggingface.co/FacebookAI/roberta-large 的权重进行初始化，分词器则是从头开始训练的。
检查点信息：该模型是一个检查点（1,160,000 / 1,350,790），最终训练轮数为5轮，当前处于第4.29轮。
批次大小：训练时使用的批次大小为1536。