kazRush-ru-kkオープンソース翻訳モデル - 無料でロシア語からカザフ語への高精度な翻訳を実現

ホーム

Kazrush Ru Kk

deepvkによって開発

kazRush-ru-kkは、T5構成に基づくロシア語からカザフ語への翻訳モデルで、複数のオープンソースの平行データセットで訓練されています。

機械翻訳

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語とカザフ語の翻訳 #T5アーキテクチャ #複数データセットによる訓練

ダウンロード数 332

リリース時間 : 11/7/2024

モデル概要

このモデルは、ロシア語のテキストをカザフ語に翻訳するために特別に設計されており、T5アーキテクチャに基づき、大規模な平行データで訓練され、一部のNLLBモデルよりも性能が優れています。

モデル特徴

高性能翻訳

BLEUとchrF指標で、複数のNLLBモデルバージョンよりも優れています。

多源データによる訓練

OPUS Corpora、kazparc、wmt19、TILなどの複数の高品質平行データセットを統合しています。

厳格なデータフィルタリング

重複排除、言語検出、文のアライメント評価など、さまざまな技術手段を使用して訓練データの品質を確保しています。

モデル能力

ロシア語からカザフ語への翻訳

テキスト生成

使用事例

言語翻訳

日常用語の翻訳

日常のロシア語会話をカザフ語に翻訳します。

例：'Помогите мне удивить девушку' → 'Қызды таң қалдыруға көмектесіңіз'

専門用語の翻訳

専門用語を含むテキストの翻訳を処理します。

例：地理保護製品の名称の正確な翻訳

🚀 kazRush-ru-kk

kazRush-ru-kkは、ロシア語からカザフ語への翻訳を行うための翻訳モデルです。このモデルは、利用可能なオープンソースの並列データを使用し、T5構成に基づいてランダムに初期化された重みで学習されました。

🚀 クイックスタート

必要な依存関係のインストール

モデルを使用するには、sentencepieceライブラリをインストールする必要があります。必要な依存関係をインストールした後、以下のコードでモデルを実行できます。

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

device = 'cuda'
model = AutoModelForSeq2SeqLM.from_pretrained('deepvk/kazRush-ru-kk').to(device)
tokenizer = AutoTokenizer.from_pretrained('deepvk/kazRush-ru-kk')

@torch.inference_mode
def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt').to(device)
    hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    return tokenizer.decode(hypotheses[0], skip_special_tokens=True)

print(generate("Как Кока-Кола может помочь автомобилисту?"))

Pipelineを使用したアクセス

pipeline ラッパーを介してモデルにアクセスすることもできます。

>>> from transformers import pipeline

>>> pipe = pipeline(model="deepvk/kazRush-ru-kk")
>>> pipe("Мама мыла раму")
[{'translation_text': 'Анам жақтауды сабындады'}]

✨ 主な機能

このモデルは、ロシア語からカザフ語への高精度な翻訳を提供します。T5構成に基づいて学習されており、広範なデータセットを使用して訓練されています。

📦 インストール

モデルを使用するには、sentencepieceライブラリをインストールする必要があります。

💻 使用例

基本的な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

device = 'cuda'
model = AutoModelForSeq2SeqLM.from_pretrained('deepvk/kazRush-ru-kk').to(device)
tokenizer = AutoTokenizer.from_pretrained('deepvk/kazRush-ru-kk')

@torch.inference_mode
def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt').to(device)
    hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    return tokenizer.decode(hypotheses[0], skip_special_tokens=True)

print(generate("Как Кока-Кола может помочь автомобилисту?"))

高度な使用法

>>> from transformers import pipeline

>>> pipe = pipeline(model="deepvk/kazRush-ru-kk")
>>> pipe("Мама мыла раму")
[{'translation_text': 'Анам жақтауды сабындады'}]

📚 ドキュメント

データと学習

このモデルは、以下のデータ（ロシア語 - カザフ語のペア）で学習されました。

データセット	ペアの数
OPUS Corpora	718K
kazparc	2,150K
wmt19 dataset	5,063K
TIL dataset	4,403K

データの前処理には以下の手順が含まれています。

重複排除
テキストからゴミ記号、特殊タグ、複数の空白などを削除
ロシア語またはカザフ語でないテキストを削除（言語検出はfacebook/fasttext-language-identificationを使用）
アライメントスコアが低いペアを削除（比較はsentence-transformers/LaBSEを使用）
opusfilterツールを使用してデータをフィルタリング

モデルは、2つのNVIDIA A100 80 Gb GPUで56時間学習されました。

評価

現在のモデルは、別のオープンソースの翻訳モデルであるNLLBと比較されました。nllb-moe-54bはサイズのため除外し、NLLBのすべてのバージョンと比較しました。評価指標であるBLEU、chrF、COMETは、多言語機械翻訳の最新の評価ベンチマークであるFLORES+ evaluation benchmarkのdevtest部分で計算されました。 BLEUとchrFの計算は、sacreBLEUの標準実装に従い、COMETはCOMET repositoryに記載されているデフォルトモデルを使用して計算されました。

モデル	サイズ	BLEU	chrF	COMET
nllb-200-distilled-600M	600M	13.8	48.2	86.8
nllb-200-1.3B	1.3B	14.8	50.1	88.1
nllb-200-distilled-1.3B	1.3B	15.2	50.2	88.4
nllb-200-3.3B	3.3B	15.6	50.7	88.9
このモデル	197M	16.2	51.8	88.3

具体的な使用例

>>> print(generate("Каждый охотник желает знать, где сидит фазан."))
Әрбір аңшы ғибадатхананың қайда отырғанын білгісі келеді.

>>> print(generate("Местным продуктом-специалитетом с защищённым географическим наименованием по происхождению считается люнебургский степной барашек."))
Шығу тегі бойынша қорғалған географиялық атауы бар жергілікті мамандандырылған өнім болып люнебургтік дала қошқар болып саналады.

>>> print(generate("Помогите мне удивить девушку"))
Қызды таң қалдыруға көмектесіңіз

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📖 引用

@misc{deepvk2024kazRushrukk,
    title={kazRush-ru-kk: translation model from Russian to Kazakh},
    author={Lebedeva, Anna and  Sokolov, Andrey},
    url={https://huggingface.co/deepvk/kazRush-ru-kk},
    publisher={Hugging Face},
    year={2024},
}