t5-en-vi-baseオープンソース英語ベトナム語翻訳モデル - 無料でテキストからテキストへの正確な変換を実現

ホーム

T5 En Vi Base

NlpHUSTによって開発

英語とベトナム語の翻訳向けテキスト間変換Transformer事前学習モデル、T5アーキテクチャに基づき最適化

機械翻訳 #英越機械翻訳 #T5事前学習モデル #高BLEUスコア

ダウンロード数 51

リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャに基づく英語とベトナム語の双方向翻訳モデルで、T5フレームワークを使用した事前学習と微調整を行い、英語とベトナム語間の高品質な機械翻訳タスクに特化しています。

モデル特徴

高性能翻訳

IWSLT'15テストセットで32.38 BLEU値（大文字小文字区別）を達成し、従来のニューラル機械翻訳モデルを上回る性能

事前学習+微調整アーキテクチャ

教師なし事前学習と教師あり微調整の2段階トレーニングをサポートし、モデルの汎化能力を向上

エンドツーエンドテキスト変換

T5の統一テキスト間フレームワークを採用し、翻訳タスクの処理フローを簡素化

モデル能力

英語からベトナム語への翻訳

ベトナム語から英語への翻訳

長文翻訳

ドメイン適応翻訳

使用事例

教育

教材翻訳

英語教材を自動的にベトナム語版に翻訳

専門用語の正確性と文脈の一貫性を保持

国際交流

言語間コミュニケーション

ビジネス会議やソーシャルダイアログをリアルタイム翻訳

文化的に特有な表現を適切に処理できることを示す出力例

🚀 T5-EN-VI-BASE: 英語とベトナム語翻訳のためのテキスト-to-テキスト転移Transformerの事前学習

このプロジェクトは、英語とベトナム語の翻訳に特化したT5モデルを事前学習することを目的としています。

🚀 クイックスタート

このモデルを使用するには、以下のコード例を参考にしてください。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

✨ 主な機能

英語とベトナム語の翻訳タスクに特化した事前学習済みモデルを提供します。
複数のモデル構成での実験結果を提供し、性能を比較できます。

📚 ドキュメント

データセット

IWSLT'15 English-Vietnamese データセットが Stanford NLP group から使用されています。

すべての実験で、コーパスはトレーニングセット、開発セット、テストセットに分割されています。

データセット	文数	ダウンロード
トレーニング	133,317	GitHub 経由、または `data/train-en-vi.tgz` にあります
開発	1,553	GitHub 経由、または `data/dev-2012-en-vi.tgz` にあります
テスト	1,268	GitHub 経由、または `data/test-2013-en-vi.tgz` にあります

結果

テストセットでの結果は以下の通りです。

モデル	BLEU (ビームサーチ)
Luong & Manning (2015)	23.30
アテンション付きシーケンス-to-シーケンスモデル	26.10
ニューラルフレーズベースの機械翻訳 Huang et. al. (2017)	27.69
ニューラルフレーズベースの機械翻訳 + LM Huang et. al. (2017)	28.07
t5-en-vi-small (事前学習、トレーニングデータなし)	28.46 (大文字小文字区別あり) / 29.23 (大文字小文字区別なし)
t5-en-vi-small (トレーニングデータでファインチューニング)	32.38 (大文字小文字区別あり) / 33.19 (大文字小文字区別なし)
t5-en-vi-base (事前学習、トレーニングデータなし)	29.66 (大文字小文字区別あり) / 30.37 (大文字小文字区別なし)

💻 使用例

基本的な使用法

import torch

from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
if torch.cuda.is_available():       
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())

    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

model = T5ForConditionalGeneration.from_pretrained("NlpHUST/t5-en-vi-small")
tokenizer = T5Tokenizer.from_pretrained("NlpHUST/t5-en-vi-small")
model.to(device)

src = "In school , we spent a lot of time studying the history of Kim Il-Sung , but we never learned much about the outside world , except that America , South Korea , Japan are the enemies ."
tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
model.eval()
summary_ids = model.generate(
                    tokenized_text,
                    max_length=128, 
                    num_beams=5,
                    repetition_penalty=2.5, 
                    length_penalty=1.0, 
                    early_stopping=True
                )
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(output)

出力例

Ở trường, chúng tôi dành nhiều thời gian để nghiên cứu về lịch sử Kim Il-Sung, nhưng chúng tôi chưa bao giờ học được nhiều về thế giới bên ngoài, ngoại trừ Mỹ, Hàn Quốc, Nhật Bản là kẻ thù.