🚀 Smugri-tuned NLLB-1.3b, v0.01
このモデルは、29種類のフィンノ・ウゴル語族の言語に関する並列データを用いて、NLLB-1.3bをファインチューニングしたものです。一部の言語については、異なる方言やバリエーションの生成もサポートしています。詳細は以下を参照してください。
このモデルの学習は進行中であり、いくつかの既知の問題があり、全体的な品質はまだテストされていません。現時点では並列データのみを学習に使用しており、単言語データや合成データを追加した後に、より多くの方言をサポートする予定です。
🚀 クイックスタート
英語からヴェプス語(新書き言葉のヴェプス語方言/バリエーション)への翻訳のPythonでの使用例
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
tokenizer = AutoTokenizer.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
input_text = "<New written Veps> This is a short example sentence."
source_lang = "eng_Latn"
target_lang = "vep_Latn"
tokenizer.src_lang = source_lang
input_tokenized = tokenizer(input_text, return_tensors="pt")
output_raw = model.generate(**input_tokenized, forced_bos_token_id=tokenizer.convert_tokens_to_ids(target_lang))
output = tokenizer.decode(output_raw[0], skip_special_tokens=True)
print(output)
✨ 主な機能
サポートされる言語
est_Latn
(エストニア語), fin_Latn
(フィンランド語), fkv_Latn
(クェン語), izh_Latn
(イジョール語*), krl_Latn
(正統カレリア語*), liv_Latn
(リヴ語), lud_Latn
(ルディア語*), olo_Latn
(リヴヴィ・カレリア語*), vep_Latn
(ヴェプス語*), vot_Latn
(ヴォト語*), vro_Latn
(ヴォロ語)
sje_Latn
(ピテ・サーミ語), sju_Latn
(ウメ・サーミ語), sma_Latn
(南サーミ語), sme_Latn
(北サーミ語), smj_Latn
(ルーレ・サーミ語), smn_Latn
(イナリ・サーミ語), sms_Latn
(スコルト・サーミ語), sjd_Cyrl
(キルディン・サーミ語*)
kpv_Cyrl
(コミ・ジリア語), koi_Cyrl
(コミ・ペルミャク語), udm_Cyrl
(ウドムルト語)
mdf_Cyrl
(モクシャ語), myv_Cyrl
(エルジャ語)
mhr_Cyrl
(草原マリ語), mrj_Cyrl
(山岳マリ語)
hun_Latn
(ハンガリー語), kca_Cyrl
(ハンティ語*), mns_Cyrl
(マンシ語)
eng_Latn
(英語), lvs_Latn
(ラトビア語), rus_Cyrl
(ロシア語), nor_Latn
(ノルウェー語)
サポートされる方言
- イジョール語:
alal
(下ルガ), soik
(ソイッコラ)
- ヴォト語:
I
, J
, Ja
, K
, Kõ
, Ke
, Ko
, L
, Li
, Lu
, M
, P
, Po
, R
, Ra
, S
, U
, V
(説明: https://arhiiv.eki.ee/dict/vadja/lisad/v_lyhendid.pdf)
- 正統カレリア語:
Dyorzha
, Ilomantsi
, Keret
, Kestenga
, Kontokki
, Korbiselga
, Maslozero
, Myandyselga
, New written Tver
, New written karelian
, Oulanga
, Padany
, Panozero
, Poduzhemye
, Porosozero
, Reboly
, Rugozero
, Suistamo
, Suoyarvi
, Tikhtozero
, Tikhvin
, Tolmachi
, Tunguda
, Uhta
, Valdai
, Vesyegonsk
, Voknavolok
, Vychetaibola
, Yushkozero
- ルディア語:
Central Ludian (Munozero)
, Mikhailovskoye
, New written Ludian
, Northern Ludian (Kondopoga)
, Southern Ludian (Svjatozero)
, Miikul
(中央ルディア語)
- リヴヴィ・カレリア語:
Impilahti
, Kondushi
, Kotkozero
, Nekkula
, New written Livvic
, Rypushkalitsa
, Salmi
, Suoyarvi
, Syamozero
, Tulmozero
, Vedlozero
, Vidlitsa
- ヴェプス語:
Central Eastern Veps
, Central Western Veps
, New written Veps
, Northern Veps
, Southern Veps
- キルディン・サーミ語:
orth1
- ハンティ語:
kazym
(カジム), shuryshkary
(シュリシャカリ)
📄 ライセンス
このモデルは cc-by-4.0
ライセンスの下で提供されています。