mbart-large-51-myv-mul-v1開源翻譯模型 - 支持11種語言翻譯成埃爾齊亞語

首頁

Mbart Large 51 Myv Mul V1

由slone開發

這是一個將11種語言翻譯成埃爾齊亞語的神經機器翻譯模型，基於mbart-large-50架構改進而來。

機器翻譯

Transformers

支持多種語言#多語言到埃爾齊亞語翻譯 #低資源語言支持 #基於MBART微調

下載量 19

發布時間 : 9/15/2022

模型概述

該模型專門用於將俄語、芬蘭語、德語、西班牙語、英語、印地語、中文、土耳其語、烏克蘭語、法語和阿拉伯語翻譯成埃爾齊亞語（西裡爾字母）。它是埃爾齊亞語的第一個神經機器翻譯系統。

模型特點

多語言支持

支持11種語言到埃爾齊亞語的翻譯

專門優化

針對埃爾齊亞語添加了額外的語言標記和19K個BPE標記

兩階段訓練

先微調俄語到埃爾齊亞語翻譯，再擴展到其他語言

模型能力

文本翻譯

多語言互譯

使用案例

語言服務

埃爾齊亞語內容創作

幫助非埃爾齊亞語使用者創建埃爾齊亞語內容

實現11種語言到埃爾齊亞語的準確翻譯

文化保護

促進埃爾齊亞語的數字化保存和使用

為少數語言提供現代機器翻譯支持

🚀 埃爾齊亞語翻譯模型

本模型可將文本從 11 種其他語言（ru,fi,de,es,en,hi,zh,tr,uk,fr,ar）翻譯成埃爾齊亞語（myv，西裡爾字母書寫）。查看其演示！

該模型在論文The first neural machine translation system for the Erzya language中有所描述。

✨ 主要特性

多語言支持：支持 11 種語言到埃爾齊亞語的翻譯。
模型基礎：基於 facebook/mbart-large-50，但更新了詞彙表和檢查點：
- 為埃爾齊亞語添加了額外的語言標記 myv_XX 和 19K 個新的 BPE 標記。
- 經過微調，實現從埃爾齊亞語先翻譯成俄語，再翻譯成其他 11 種語言。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 Hugging Face 上該模型的相關依賴安裝說明。

💻 使用示例

基礎用法

from transformers import MBartForConditionalGeneration, MBart50Tokenizer


def fix_tokenizer(tokenizer):
    """ Add a new language token to the tokenizer vocabulary (this should be done each time after its initialization) """
    old_len = len(tokenizer) - int('myv_XX' in tokenizer.added_tokens_encoder)
    tokenizer.lang_code_to_id['myv_XX'] = old_len-1
    tokenizer.id_to_lang_code[old_len-1] = 'myv_XX'
    tokenizer.fairseq_tokens_to_ids["<mask>"] = len(tokenizer.sp_model) + len(tokenizer.lang_code_to_id) + tokenizer.fairseq_offset

    tokenizer.fairseq_tokens_to_ids.update(tokenizer.lang_code_to_id)
    tokenizer.fairseq_ids_to_tokens = {v: k for k, v in tokenizer.fairseq_tokens_to_ids.items()}
    if 'myv_XX' not in tokenizer._additional_special_tokens:
        tokenizer._additional_special_tokens.append('myv_XX')
    tokenizer.added_tokens_encoder = {}


def translate(text, model, tokenizer, src='ru_RU', trg='myv_XX', max_length='auto', num_beams=3, repetition_penalty=5.0, train_mode=False, n_out=None, **kwargs):
    tokenizer.src_lang = src
    encoded = tokenizer(text, return_tensors="pt", truncation=True, max_length=1024)
    if max_length == 'auto':
        max_length = int(32 + 1.5 * encoded.input_ids.shape[1])
    if train_mode:
        model.train()
    else:
        model.eval()
    generated_tokens = model.generate(
        **encoded.to(model.device),
        forced_bos_token_id=tokenizer.lang_code_to_id[trg], 
        max_length=max_length, 
        num_beams=num_beams,
        repetition_penalty=repetition_penalty,
        num_return_sequences=n_out or 1,
        **kwargs
    )
    out = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
    if isinstance(text, str) and n_out is None:
        return out[0]
    return out
    

mname = 'slone/mbart-large-51-myv-mul-v1'
model = MBartForConditionalGeneration.from_pretrained(mname)
tokenizer = MBart50Tokenizer.from_pretrained(mname)
fix_tokenizer(tokenizer)


print(translate('Шумбрат, киска!', model, tokenizer, src='myv_XX', trg='ru_RU'))
# Привет, собака!   # действительно, "киска" с эрзянского переводится именно так
print(translate('Шумбрат, киска!', model, tokenizer, src='myv_XX', trg='en_XX'))
# Hi, dog!

📚 詳細文檔

該模型使用的數據集包括：

📄 許可證

本模型採用 CC BY-SA 4.0 許可證。

屬性	詳情
支持語言	俄語（ru）、芬蘭語（fi）、德語（de）、西班牙語（es）、英語（en）、印地語（hi）、中文（zh）、土耳其語（tr）、烏克蘭語（uk）、法語（fr）、阿拉伯語（ar）到埃爾齊亞語（myv）
模型類型	基於 facebook/mbart-large-50 微調的翻譯模型
訓練數據	slone/myv_ru_2022、yhavinga/ccmatrix
許可證	CC BY-SA 4.0