kazRush-ru-kk開源翻譯模型 - 免費實現俄語到哈薩克語精準翻譯

首頁

Kazrush Ru Kk

由deepvk開發

kazRush-ru-kk 是一個基於T5配置的俄語到哈薩克語的翻譯模型，在多個開源平行數據集上訓練而成。

機器翻譯

Transformers

其他開源協議:Apache-2.0 #俄哈翻譯 #T5架構 #多數據集訓練

下載量 332

發布時間 : 11/7/2024

模型概述

該模型專門用於將俄語文本翻譯成哈薩克語，基於T5架構，經過大規模平行數據訓練，性能優於部分NLLB模型。

模型特點

高性能翻譯

在BLEU和chrF指標上優於多個NLLB模型版本

多源數據訓練

整合了OPUS Corpora、kazparc、wmt19和TIL等多個高質量平行數據集

嚴格數據過濾

使用多種技術手段確保訓練數據質量，包括去重、語言檢測和句子對齊評分

模型能力

俄語到哈薩克語翻譯

文本生成

使用案例

語言翻譯

日常用語翻譯

將日常俄語對話翻譯成哈薩克語

示例：'Помогите мне удивить девушку' → 'Қызды таң қалдыруға көмектесіңіз'

專業術語翻譯

處理包含專業術語的文本翻譯

示例：地理保護產品名稱的準確翻譯

🚀 kazRush-ru-kk

kazRush-ru-kk 是一個用於將俄語翻譯成哈薩克語的翻譯模型。該模型基於 T5 配置，使用隨機初始化的權重，在可用的開源平行數據上進行訓練。

🚀 快速開始

使用該模型需要安裝 sentencepiece 庫。安裝必要的依賴項後，可以使用以下代碼運行模型：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

device = 'cuda'
model = AutoModelForSeq2SeqLM.from_pretrained('deepvk/kazRush-ru-kk').to(device)
tokenizer = AutoTokenizer.from_pretrained('deepvk/kazRush-ru-kk')

@torch.inference_mode
def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt').to(device)
    hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    return tokenizer.decode(hypotheses[0], skip_special_tokens=True)

print(generate("Как Кока-Кола может помочь автомобилисту?"))

你還可以通過 pipeline 包裝器訪問該模型：

>>> from transformers import pipeline

>>> pipe = pipeline(model="deepvk/kazRush-ru-kk")
>>> pipe("Мама мыла раму")
[{'translation_text': 'Анам жақтауды сабындады'}]

✨ 主要特性

基於 T5 配置，使用隨機初始化的權重進行訓練。
可將俄語翻譯成哈薩克語。

📦 安裝指南

使用該模型需要安裝 sentencepiece 庫。安裝必要的依賴項後，即可使用模型。

💻 使用示例

基礎用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

device = 'cuda'
model = AutoModelForSeq2SeqLM.from_pretrained('deepvk/kazRush-ru-kk').to(device)
tokenizer = AutoTokenizer.from_pretrained('deepvk/kazRush-ru-kk')

@torch.inference_mode
def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt').to(device)
    hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    return tokenizer.decode(hypotheses[0], skip_special_tokens=True)

print(generate("Как Кока-Кола может помочь автомобилисту?"))

高級用法

>>> from transformers import pipeline

>>> pipe = pipeline(model="deepvk/kazRush-ru-kk")
>>> pipe("Мама мыла раму")
[{'translation_text': 'Анам жақтауды сабындады'}]

📚 詳細文檔

數據與訓練

該模型在以下數據（俄語 - 哈薩克語語言對）上進行訓練：

數據集	語言對數量
OPUS Corpora	718K
kazparc	2,150K
wmt19 dataset	5,063K
TIL dataset	4,403K

數據預處理包括：

去重
從文本中去除垃圾符號、特殊標籤、多個空格等
去除非俄語或哈薩克語的文本（語言檢測通過 facebook/fasttext-language-identification 進行）
去除對齊分數較低的語言對（比較通過 sentence-transformers/LaBSE 進行）
使用 opusfilter 工具過濾數據

模型在 2 個 NVIDIA A100 80 Gb GPU 上訓練了 56 小時。

評估

將當前模型與另一個開源翻譯模型 NLLB 進行比較。由於 nllb-moe-54b 模型規模過大，因此排除該版本，將我們的模型與 NLLB 的其他版本進行比較。

在 FLORES+ 評估基準的 devtest 部分計算了 BLEU、chrF 和 COMET 指標，FLORES+ 是最新的多語言機器翻譯評估基準。

BLEU 和 chrF 的計算遵循 sacreBLEU 的標準實現，COMET 使用 COMET 倉庫中描述的默認模型進行計算。

模型	規模	BLEU	chrF	COMET
nllb-200-distilled-600M	600M	13.8	48.2	86.8
nllb-200-1.3B	1.3B	14.8	50.1	88.1
nllb-200-distilled-1.3B	1.3B	15.2	50.2	88.4
nllb-200-3.3B	3.3B	15.6	50.7	88.9
本模型	197M	16.2	51.8	88.3

📄 許可證

本模型使用的許可證為 apache - 2.0。

📚 引用

@misc{deepvk2024kazRushrukk,
    title={kazRush-ru-kk: translation model from Russian to Kazakh},
    author={Lebedeva, Anna and  Sokolov, Andrey},
    url={https://huggingface.co/deepvk/kazRush-ru-kk},
    publisher={Hugging Face},
    year={2024},
}