🚀 Smugri调优的NLLB - 1.3b,v0.01
这是一个基于NLLB - 1.3b的微调模型,使用了29种芬兰 - 乌戈尔语族语言的平行数据进行训练。它支持为部分语言生成不同的方言/变体,更多信息如下。
关于所用数据和其他细节的信息:即将公布。该模型仍在训练中,目前已知存在一些问题,整体质量尚未经过测试。到目前为止,训练仅使用了平行数据,在加入单语/合成数据后,将支持更多方言。
🚀 快速开始
Python使用示例
以下是一个从英语翻译成维普斯语(新书面维普斯语方言/变体)的Python代码示例:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
tokenizer = AutoTokenizer.from_pretrained("tartuNLP/nllb1.3-smugri4-v0.01")
input_text = "<New written Veps> This is a short example sentence."
source_lang = "eng_Latn"
target_lang = "vep_Latn"
tokenizer.src_lang = source_lang
input_tokenized = tokenizer(input_text, return_tensors="pt")
output_raw = model.generate(**input_tokenized, forced_bos_token_id=tokenizer.convert_tokens_to_ids(target_lang))
output = tokenizer.decode(output_raw[0], skip_special_tokens=True)
print(output)
✨ 主要特性
- 多语言支持:支持29种芬兰 - 乌戈尔语族语言,包括爱沙尼亚语、芬兰语、维普斯语等。
- 方言支持:为部分语言支持不同的方言/变体生成。
📚 详细文档
支持的语言
属性 |
详情 |
支持的语言 |
est_Latn (爱沙尼亚语), fin_Latn (芬兰语), fkv_Latn (克文语), izh_Latn (伊若尔语*), krl_Latn (卡累利阿语*), liv_Latn (利沃尼亚语), lud_Latn (卢丁语*), olo_Latn (利维 - 卡累利阿语*), vep_Latn (维普斯语*), vot_Latn (沃提克语*), vro_Latn (沃罗语), sje_Latn (皮特萨米语), sju_Latn (于默萨米语), sma_Latn (南萨米语), sme_Latn (北萨米语), smj_Latn (卢勒萨米语), smn_Latn (伊纳里萨米语), sms_Latn (斯科尔特萨米语), sjd_Cyrl (基尔丁萨米语*), kpv_Cyrl (科米 - 兹梁语), koi_Cyrl (科米 - 彼尔米亚克语), udm_Cyrl (乌德穆尔特语), mdf_Cyrl (莫克沙语), myv_Cyrl (埃尔齐亚语), mhr_Cyrl (低地马里语), mrj_Cyrl (高地马里语), hun_Latn (匈牙利语), kca_Cyrl (汉特语*), mns_Cyrl (曼西语), eng_Latn (英语), lvs_Latn (拉脱维亚语), rus_Cyrl (俄语), nor_Latn (挪威语) |
支持的方言
- 伊若尔语:
alal
(下卢加方言), soik
(索伊科拉方言)
- 沃提克语:
I
, J
, Ja
, K
, Kõ
, Ke
, Ko
, L
, Li
, Lu
, M
, P
, Po
, R
, Ra
, S
, U
, V
(解释:https://arhiiv.eki.ee/dict/vadja/lisad/v_lyhendid.pdf)
- 卡累利阿语:
Dyorzha
, Ilomantsi
, Keret
, Kestenga
, Kontokki
, Korbiselga
, Maslozero
, Myandyselga
, New written Tver
, New written karelian
, Oulanga
, Padany
, Panozero
, Poduzhemye
, Porosozero
, Reboly
, Rugozero
, Suistamo
, Suoyarvi
, Tikhtozero
, Tikhvin
, Tolmachi
, Tunguda
, Uhta
, Valdai
, Vesyegonsk
, Voknavolok
, Vychetaibola
, Yushkozero
- 卢丁语:
Central Ludian (Munozero)
(中部卢丁语(穆诺泽罗湖)), Mikhailovskoye
, New written Ludian
, Northern Ludian (Kondopoga)
(北部卢丁语(孔多波加)), Southern Ludian (Svjatozero)
(南部卢丁语(斯维亚托泽罗湖)), Miikul
(中部卢丁语)
- 利维 - 卡累利阿语:
Impilahti
, Kondushi
, Kotkozero
, Nekkula
, New written Livvic
, Rypushkalitsa
, Salmi
, Suoyarvi
, Syamozero
, Tulmozero
, Vedlozero
, Vidlitsa
- 维普斯语:
Central Eastern Veps
(中东部维普斯语), Central Western Veps
(中西部维普斯语), New written Veps
(新书面维普斯语), Northern Veps
(北部维普斯语), Southern Veps
(南部维普斯语)
- 基尔丁萨米语:
orth1
- 汉特语:
kazym
(卡济姆方言), shuryshkary
(舒里什卡里方言)
📄 许可证
本项目采用CC - BY - 4.0许可证。