オープンソースnomic - xlm - 2048モデル - 2048シーケンス長のテキスト処理アプリケーションをサポート

ホーム

Nomic Xlm 2048

nomic-aiによって開発

XLM-Robertaベースモデルをファインチューニングしたバージョンで、RoPE（回転位置エンコーディング）を元の位置埋め込みに置き換え、2048シーケンス長をサポート

大規模言語モデル

Transformers

#多言語長文処理 #RoPE位置エンコーディング #2048コンテキスト長

ダウンロード数 440

リリース時間 : 11/16/2024

モデル概要

マスク言語モデリングやシーケンス分類タスクに適した多言語エンコーダーモデルで、GLUEおよびXTREME-Rベンチマークで優れた性能を発揮

モデル特徴

回転位置エンコーディング(RoPE)

RoPEを使用して元の絶対位置エンコーディングを置き換え、より長いシーケンス長をサポート

長シーケンスサポート

2048長のシーケンス処理をサポートし、元のXLM-Rの512長制限を上回る

多言語能力

複数の言語タスクで良好な性能を発揮し、特にXTREME-Rベンチマークで優れている

モデル能力

マスク言語モデリング

シーケンス分類

多言語テキスト理解

使用事例

自然言語処理

多言語テキスト分類

多言語テキストの分類タスク

XNLIなどのクロスランゲージ理解タスクで良好な性能

長文書処理

長いシーケンステキストタスクの処理

2048長のシーケンス処理をサポート

🚀 nomic-xlm-2048: XLM-Roberta Base with RoPE

nomic-xlm-2048は、学習済みの位置埋め込みをRoPEに置き換えた、微調整されたXLM-Roberta Baseモデルです。このモデルは、CC100上で10,000ステップの訓練を行っています。

nomic-xlm-2048は、GLUEとXTREME-Rにおいて、他の多言語エンコーダと競争力を持っています。

モデル	パラメータ	位置情報	シーケンス長	平均	CoLA	SST - 2	MRPC	STS - B	QQP	MNLI	QNLI	RTE
XLM - R - Base	279M	絶対位置	512	82.35	46.95	92.54	87.37	89.32	90.69	84.34	90.35	77.26
nomic - xlm - 2048	278M	RoPE	2048	81.63	44.69	91.97	87.50	88.48	90.38	83.59	89.38	76.54
mGTE - Base	306M	RoPE	8192	80.77	27.22	91.97	89.71	89.55	91.20	85.16	90.91	80.41

モデル	平均	XNLI	XCOPA	UDPOS	WikiANN	XQuAD	MLQA	TyDiQA - GoldP	Mewsli - X	LAReQA	Tatoeba
XLM - R - Base	62.31	74.49	51.8	74.33	60.99	72.96	61.45	54.31	42.45	63.49	66.79
nomic - xlm - 2048	62.70	73.57	61.71	74.92	60.96	71.13	59.61	43.46	45.27	67.49	70.82
mGTE - Base	64.63	73.58	63.62	73.52	60.72	74.71	63.88	49.68	44.58	71.90	70.07

🚀 クイックスタート

このセクションでは、nomic-xlm-2048モデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

from transformers import AutoModelForMaskedLM, AutoConfig, AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained('nomic-ai/nomic-xlm-2048') # `nomic-bert-2048` uses the standard BERT tokenizer

config = AutoConfig.from_pretrained('nomic-ai/nomic-xlm-2048', trust_remote_code=True) # the config needs to be passed in
model = AutoModelForMaskedLM.from_pretrained('nomic-ai/nomic-xlm-2048',config=config, trust_remote_code=True)

# To use this model directly for masked language modeling
classifier = pipeline('fill-mask', model=model, tokenizer=tokenizer,device="cpu")

print(classifier("I [MASK] to the store yesterday."))

高度な使用法

シーケンス分類タスクでモデルを微調整するには、以下のコードを使用できます。

from transformers import AutoConfig, AutoModelForSequenceClassification
model_path = "nomic-ai/nomic-xlm-2048"
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
# strict needs to be false here since we're initializing some new params
model = AutoModelForSequenceClassification.from_pretrained(model_path, config=config, trust_remote_code=True, strict=False)