roberta-large-1160kオープンソースマルチ言語大規模モデル - スウェーデン語など4か国語のテキスト処理に対応

ホーム

Roberta Large 1160k

AI-Sweden-Modelsによって開発

北欧コーパスで訓練された多言語RoBERTa大規模モデル、スウェーデン語、ノルウェー語、デンマーク語、英語をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #北欧多言語理解 #高精度マスク予測 #大規模コーパス訓練

ダウンロード数 1,159

リリース時間 : 2/28/2024

モデル概要

このモデルはRoBERTaアーキテクチャに基づく大規模言語モデルで、特に北欧言語向けに最適化されており、マスク言語モデリングタスクに直接使用可能、下流タスクでの微調整使用が推奨されます

モデル特徴

北欧言語最適化

スウェーデン語、ノルウェー語、デンマーク語向けに特別に訓練・最適化

高性能ハードウェア訓練

8基のIntel® Gaudi® 2 AIアクセラレーターを使用して訓練

下流タスク適応

直接予測ではなく下流タスクでの微調整使用を推奨

モデル能力

マスク言語モデリング

多言語テキスト理解

北欧言語処理

使用事例

地理知識QA

首都識別

北欧諸国の首都を識別

スウェーデン、ノルウェー、デンマークなどの国の首都を正確に予測可能

テキスト理解

北欧言語テキスト分析

スウェーデン語、ノルウェー語、デンマーク語テキストを処理

🚀 roberta-large-1160k

このモデルは、マスク言語モデリングに使用でき、下流タスクでのファインチューニングを主な目的としています。

🚀 クイックスタート

このモデルは、マスク言語モデリングのパイプラインで直接使用できます。また、与えられたテキストの特徴量を取得することもできます。

✨ 主な機能

マスク言語モデリングに使用可能
下流タスクでのファインチューニングに適している

💻 使用例

基本的な使用法

マスク言語モデリングのパイプラインでこのモデルを直接使用する方法です。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='AI-Sweden-Models/roberta-large-1160k')
>>> unmasker("Huvudstaden i Sverige är <mask>.")
[{'score': 0.5841221213340759,
  'token': 1945,
  'token_str': ' Stockholm',
  'sequence': 'Huvudstaden i Sverige är Stockholm.'},
 {'score': 0.06775698810815811,
  'token': 5007,
  'token_str': ' Göteborg',
  'sequence': 'Huvudstaden i Sverige är Göteborg.'},
 {'score': 0.05057400465011597,
  'token': 5761,
  'token_str': ' Malmö',
  'sequence': 'Huvudstaden i Sverige är Malmö.'},
 {'score': 0.021936343982815742,
  'token': 21449,
  'token_str': ' Norrköping',
  'sequence': 'Huvudstaden i Sverige är Norrköping.'},
 {'score': 0.017798304557800293,
  'token': 5658,
  'token_str': ' Uppsala',
  'sequence': 'Huvudstaden i Sverige är Uppsala.'}]

>>> unmasker("Hovedstaden i Norge er <mask>.")
[{'score': 0.6792309284210205,
  'token': 5158,
  'token_str': ' Oslo',
  'sequence': 'Hovedstaden i Norge er Oslo.'},
 {'score': 0.09379775077104568,
  'token': 15456,
  'token_str': ' Trondheim',
  'sequence': 'Hovedstaden i Norge er Trondheim.'},
 {'score': 0.052535850554704666,
  'token': 11370,
  'token_str': ' Bergen',
  'sequence': 'Hovedstaden i Norge er Bergen.'},
 {'score': 0.03465486690402031,
  'token': 29407,
  'token_str': ' hovedstaden',
  'sequence': 'Hovedstaden i Norge er hovedstaden.'},
 {'score': 0.03017985075712204,
  'token': 33311,
  'token_str': ' Kristiansand',
  'sequence': 'Hovedstaden i Norge er Kristiansand.'}]

>>> unmasker("Danmarks hovedstad er <mask>.")
[{'score': 0.11624140292406082,
  'token': 4794,
  'token_str': ' København',
  'sequence': 'Danmarks hovedstad er København.'},
 {'score': 0.045051511377096176,
  'token': 7680,
  'token_str': ' død',
  'sequence': 'Danmarks hovedstad er død.'},
 {'score': 0.02936543896794319,
  'token': 10795,
  'token_str': ' lukket',
  'sequence': 'Danmarks hovedstad er lukket.'},
 {'score': 0.026030730456113815,
  'token': 13580,
  'token_str': ' Odense',
  'sequence': 'Danmarks hovedstad er Odense.'},
 {'score': 0.02130937948822975,
  'token': 16347,
  'token_str': ' Roskilde',
  'sequence': 'Danmarks hovedstad er Roskilde.'}]

高度な使用法

与えられたテキストの特徴量を取得する方法です。

from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('AI-Sweden-Models/roberta-large-1160k')
model = RobertaModel.from_pretrained('AI-Sweden-Models/roberta-large-1160k')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

📦 インストール

原文書にインストール手順は記載されていないため、このセクションは省略されます。

📚 ドキュメント

訓練データ

Nordic Pileのスカンジナビアサブセット（スウェーデン語、ノルウェー語、デンマーク語）で、414,962,688個のテキストサンプルから構成されています。

訓練手順

このモデルは、optimum-habanaフレームワークを使用して訓練されました。Intel Sweden ABが管理する8台のIntel® Gaudi® 2 AIアクセラレータを利用しています。重みはhttps://huggingface.co/FacebookAI/roberta-large から初期化され、トークナイザーはゼロから訓練されています。このモデルはチェックポイント（1,160,000 / 1,350,790）です。最終ランは5エポックで、これはエポック4.29です。バッチサイズは1536です。