Xglm 564M
XGLM-564M は多言語自己回帰言語モデルで、5.64億のパラメータを含み、30言語のバランスの取れたコーパスに基づいて訓練され、合計5000億のサブワードで構成されています。
ダウンロード数 11.13k
リリース時間 : 4/25/2025
モデル概要
XGLM-564M は30言語をサポートする多言語自己回帰言語モデルで、多言語テキスト生成や理解タスクに適しています。
モデル特徴
多言語サポート
30言語をサポートし、複数の語族や低リソース言語をカバーしています。
バランスの取れたコーパス
30言語のバランスの取れたコーパスに基づいて訓練され、合計5000億のサブワードで構成されています。
自己回帰モデル
自己回帰アーキテクチャを採用しており、テキスト生成タスクに適しています。
モデル能力
多言語テキスト生成
多言語テキスト理解
ゼロショット学習
使用事例
自然言語処理
多言語テキスト生成
複数の言語で一貫性のあるテキストを生成します。
ゼロショット学習
少数の例または例なしでタスクを学習します。
🚀 XGLM-564M
XGLM-564Mは、30種類の多様な言語のバランスの取れたコーパスでトレーニングされた多言語自己回帰型言語モデル(パラメータ数5億6400万)です。合計5000億のサブトークンが含まれています。このモデルは、Xi Victoria Lin*、Todor Mihaylov、Mikel Artetxe、Tianlu Wang、Shuohui Chen、Daniel Simig、Myle Ott、Naman Goyal、Shruti Bhosale、Jingfei Du、Ramakanth Pasunuru、Sam Shleifer、Punit Singh Koura、Vishrav Chaudhary、Brian O'Horo、Jeff Wang、Luke Zettlemoyer、Zornitsa Kozareva、Mona Diab、Veselin Stoyanov、Xian Li*(*同等の貢献)による論文 Few-shot Learning with Multilingual Language Models で紹介されました。元の実装は このリポジトリ で公開されています。
✨ 主な機能
- 30種類の多様な言語に対応した多言語言語モデル。
- バランスの取れたコーパスでトレーニングされている。
📚 ドキュメント
トレーニングデータ統計
XGLM-564Mのトレーニングデータ統計は以下の表に示されています。
ISO-639-1 | 語族 | 言語名 | トークン数 | 比率 | 低リソース言語アップサンプリング後の比率 |
---|---|---|---|---|---|
en | インド・ヨーロッパ語族 | 英語 | 803526736124 | 0.489906 | 0.3259 |
ru | インド・ヨーロッパ語族 | ロシア語 | 147791898098 | 0.0901079 | 0.0602 |
zh | 漢藏語族 | 中国語 | 132770494630 | 0.0809494 | 0.0483 |
de | インド・ヨーロッパ語族 | ドイツ語 | 89223707856 | 0.0543992 | 0.0363 |
es | インド・ヨーロッパ語族 | スペイン語 | 87303083105 | 0.0532282 | 0.0353 |
fr | インド・ヨーロッパ語族 | フランス語 | 77419639775 | 0.0472023 | 0.0313 |
ja | 日本語族 | 日本語 | 66054364513 | 0.040273 | 0.0269 |
it | インド・ヨーロッパ語族 | イタリア語 | 41930465338 | 0.0255648 | 0.0171 |
pt | インド・ヨーロッパ語族 | ポルトガル語 | 36586032444 | 0.0223063 | 0.0297 |
el | インド・ヨーロッパ語族 | 現代ギリシャ語 | 28762166159 | 0.0175361 | 0.0233 |
ko | 韓国語族 | 韓国語 | 20002244535 | 0.0121953 | 0.0811 |
fi | ウラル語族 | フィンランド語 | 16804309722 | 0.0102455 | 0.0681 |
id | オーストロネシア語族 | インドネシア語 | 15423541953 | 0.00940365 | 0.0125 |
tr | チュルク語族 | トルコ語 | 12413166065 | 0.00756824 | 0.0101 |
ar | アフリカ・アジア語族 | アラビア語 | 12248607345 | 0.00746791 | 0.0099 |
vi | オーストロアジア語族 | ベトナム語 | 11199121869 | 0.00682804 | 0.0091 |
th | 台・カダイ語族 | タイ語 | 10842172807 | 0.00661041 | 0.044 |
bg | インド・ヨーロッパ語族 | ブルガリア語 | 9703797869 | 0.00591635 | 0.0393 |
ca | インド・ヨーロッパ語族 | カタルーニャ語 | 7075834775 | 0.0043141 | 0.0287 |
hi | インド・ヨーロッパ語族 | ヒンディー語 | 3448390110 | 0.00210246 | 0.014 |
et | ウラル語族 | エストニア語 | 3286873851 | 0.00200399 | 0.0133 |
bn | インド・ヨーロッパ語族 | ベンガル語 | 1627447450 | 0.000992245 | 0.0066 |
ta | ドラヴィダ語族 | タミル語 | 1476973397 | 0.000900502 | 0.006 |
ur | インド・ヨーロッパ語族 | ウルドゥー語 | 1351891969 | 0.000824241 | 0.0055 |
sw | ニジェール・コンゴ語族 | スワヒリ語 | 907516139 | 0.000553307 | 0.0037 |
te | ドラヴィダ語族 | テルグ語 | 689316485 | 0.000420272 | 0.0028 |
eu | 孤立語 | バスク語 | 105304423 | 6.42035e-05 | 0.0043 |
my | 漢藏語族 | ビルマ語 | 101358331 | 6.17976e-05 | 0.003 |
ht | クレオール語 | ハイチ語 | 86584697 | 5.27902e-05 | 0.0035 |
qu | ケチュア語族 | ケチュア語 | 3236108 | 1.97304e-06 | 0.0001 |
モデルカード
モデルの使用目的については、XGLM-564M開発チームによって公開された モデルカード を参照してください。
💻 使用例
基本的な使用法
以下のコードスニペットは、英語、中国語、ヒンディー語の例を使用して、Plausible Alternativesの選択(COPA)タスクでモデルを評価する方法を示しています。
import torch
import torch.nn.functional as F
from transformers import XGLMTokenizer, XGLMForCausalLM
tokenizer = XGLMTokenizer.from_pretrained("facebook/xglm-564M")
model = XGLMForCausalLM.from_pretrained("facebook/xglm-564M")
data_samples = {
'en': [
{
"premise": "I wanted to conserve energy.",
"choice1": "I swept the floor in the unoccupied room.",
"choice2": "I shut off the light in the unoccupied room.",
"question": "effect",
"label": "1"
},
{
"premise": "The flame on the candle went out.",
"choice1": "I blew on the wick.",
"choice2": "I put a match to the wick.",
"question": "cause",
"label": "0"
}
],
'zh': [
{
"premise": "我想节约能源。",
"choice1": "我在空着的房间里扫了地板。",
"choice2": "我把空房间里的灯关了。",
"question": "effect",
"label": "1"
},
{
"premise": "蜡烛上的火焰熄灭了。",
"choice1": "我吹灭了灯芯。",
"choice2": "我把一根火柴放在灯芯上。",
"question": "cause",
"label": "0"
}
],
'hi': [
{
"premise": "M te vle konsève enèji.",
"choice1": "Mwen te fin baleye chanm lib la.",
"choice2": "Mwen te femen limyè nan chanm lib la.",
"question": "effect",
"label": "1"
},
{
"premise": "Flam bouji a te etenn.",
"choice1": "Mwen te soufle bouji a.",
"choice2": "Mwen te limen mèch bouji a.",
"question": "cause",
"label": "0"
}
]
}
def get_logprobs(prompt):
inputs = tokenizer(prompt, return_tensors="pt")
input_ids, output_ids = inputs["input_ids"], inputs["input_ids"][:, 1:]
outputs = model(**inputs, labels=input_ids)
logits = outputs.logits
logprobs = torch.gather(F.log_softmax(logits, dim=2), 2, output_ids.unsqueeze(2))
return logprobs
# Zero-shot evaluation for the Choice of Plausible Alternatives (COPA) task.
# A return value of 0 indicates that the first alternative is more plausible,
# while 1 indicates that the second alternative is more plausible.
def COPA_eval(prompt, alternative1, alternative2):
lprob1 = get_logprobs(prompt + "\n" + alternative1).sum()
lprob2 = get_logprobs(prompt + "\n" + alternative2).sum()
return 0 if lprob1 > lprob2 else 1
for lang in data_samples_long:
for idx, example in enumerate(data_samples_long[lang]):
predict = COPA_eval(example["premise"], example["choice1"], example["choice2"])
print(f'{lang}-{idx}', predict, example['label'])
# en-0 1 1
# en-1 0 0
# zh-0 1 1
# zh-1 0 0
# hi-0 1 1
# hi-1 0 0
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98