🚀 Smugri調優的NLLB - 1.3b,v0.01
這是一個基於NLLB - 1.3b的微調模型,使用了29種芬蘭 - 烏戈爾語族語言的平行數據進行訓練。它支持為部分語言生成不同的方言/變體,更多信息如下。
關於所用數據和其他細節的信息:即將公佈。該模型仍在訓練中,目前已知存在一些問題,整體質量尚未經過測試。到目前為止,訓練僅使用了平行數據,在加入單語/合成數據後,將支持更多方言。
🚀 快速開始
Python使用示例
以下是一個從英語翻譯成維普斯語(新書面維普斯語方言/變體)的Python代碼示例:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
tokenizer = AutoTokenizer.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
input_text = "<New written Veps> This is a short example sentence."
source_lang = "eng_Latn"
target_lang = "vep_Latn"
tokenizer.src_lang = source_lang
input_tokenized = tokenizer(input_text, return_tensors="pt")
output_raw = model.generate(**input_tokenized, forced_bos_token_id=tokenizer.convert_tokens_to_ids(target_lang))
output = tokenizer.decode(output_raw[0], skip_special_tokens=True)
print(output)
✨ 主要特性
- 多語言支持:支持29種芬蘭 - 烏戈爾語族語言,包括愛沙尼亞語、芬蘭語、維普斯語等。
- 方言支持:為部分語言支持不同的方言/變體生成。
📚 詳細文檔
支持的語言
屬性 |
詳情 |
支持的語言 |
est_Latn (愛沙尼亞語), fin_Latn (芬蘭語), fkv_Latn (克文語), izh_Latn (伊若爾語*), krl_Latn (卡累利阿語*), liv_Latn (利沃尼亞語), lud_Latn (盧丁語*), olo_Latn (利維 - 卡累利阿語*), vep_Latn (維普斯語*), vot_Latn (沃提克語*), vro_Latn (沃羅語), sje_Latn (皮特薩米語), sju_Latn (於默薩米語), sma_Latn (南薩米語), sme_Latn (北薩米語), smj_Latn (盧勒薩米語), smn_Latn (伊納裡薩米語), sms_Latn (斯科爾特薩米語), sjd_Cyrl (基爾丁薩米語*), kpv_Cyrl (科米 - 茲梁語), koi_Cyrl (科米 - 彼爾米亞克語), udm_Cyrl (烏德穆爾特語), mdf_Cyrl (莫克沙語), myv_Cyrl (埃爾齊亞語), mhr_Cyrl (低地馬里語), mrj_Cyrl (高地馬里語), hun_Latn (匈牙利語), kca_Cyrl (漢特語*), mns_Cyrl (曼西語), eng_Latn (英語), lvs_Latn (拉脫維亞語), rus_Cyrl (俄語), nor_Latn (挪威語) |
支持的方言
- 伊若爾語:
alal
(下盧加方言), soik
(索伊科拉方言)
- 沃提克語:
I
, J
, Ja
, K
, Kõ
, Ke
, Ko
, L
, Li
, Lu
, M
, P
, Po
, R
, Ra
, S
, U
, V
(解釋:https://arhiiv.eki.ee/dict/vadja/lisad/v_lyhendid.pdf)
- 卡累利阿語:
Dyorzha
, Ilomantsi
, Keret
, Kestenga
, Kontokki
, Korbiselga
, Maslozero
, Myandyselga
, New written Tver
, New written karelian
, Oulanga
, Padany
, Panozero
, Poduzhemye
, Porosozero
, Reboly
, Rugozero
, Suistamo
, Suoyarvi
, Tikhtozero
, Tikhvin
, Tolmachi
, Tunguda
, Uhta
, Valdai
, Vesyegonsk
, Voknavolok
, Vychetaibola
, Yushkozero
- 盧丁語:
Central Ludian (Munozero)
(中部盧丁語(穆諾澤羅湖)), Mikhailovskoye
, New written Ludian
, Northern Ludian (Kondopoga)
(北部盧丁語(孔多波加)), Southern Ludian (Svjatozero)
(南部盧丁語(斯維亞託澤羅湖)), Miikul
(中部盧丁語)
- 利維 - 卡累利阿語:
Impilahti
, Kondushi
, Kotkozero
, Nekkula
, New written Livvic
, Rypushkalitsa
, Salmi
, Suoyarvi
, Syamozero
, Tulmozero
, Vedlozero
, Vidlitsa
- 維普斯語:
Central Eastern Veps
(中東部維普斯語), Central Western Veps
(中西部維普斯語), New written Veps
(新書面維普斯語), Northern Veps
(北部維普斯語), Southern Veps
(南部維普斯語)
- 基爾丁薩米語:
orth1
- 漢特語:
kazym
(卡濟姆方言), shuryshkary
(舒裡什卡里方言)
📄 許可證
本項目採用CC - BY - 4.0許可證。