🚀 legal_t5_small_trans_de_esモデル
このモデルは、ドイツ語の法的テキストをスペイン語に翻訳するためのものです。最初はthisリポジトリで公開されました。このモデルは、jrc - acquis、europarl、dcepの3つの平行コーパスで学習されています。
🚀 クイックスタート
このモデルは、ドイツ語の法的テキストをスペイン語に翻訳するために使用できます。以下に、PyTorchでこのモデルを使用して翻訳する方法を示します。
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_es"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_es", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "7. betont, dass die Kommission und die Mitgliedstaaten die Rolle der Frauen in der Sozialwirtschaft aufgrund der hohen Frauenerwerbstätigkeit in dem Sektor und der Bedeutung der Dienstleistungen, die er für die Förderung der Vereinbarkeit von Beruf und Privatleben bietet, aufwerten, unterstützen und verstärken müssen;"
pipeline([de_text], max_length=512)
✨ 主な機能
- ドイツ語の法的テキストをスペイン語に翻訳することができます。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略します。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_es"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_es", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "7. betont, dass die Kommission und die Mitgliedstaaten die Rolle der Frauen in der Sozialwirtschaft aufgrund der hohen Frauenerwerbstätigkeit in dem Sektor und der Bedeutung der Dienstleistungen, die er für die Förderung der Vereinbarkeit von Beruf und Privatleben bietet, aufwerten, unterstützen und verstärken müssen;"
pipeline([de_text], max_length=512)
高度な使用法
このREADMEには高度な使用法に関するコード例が記載されていないため、このサブセクションは省略します。
📚 ドキュメント
モデルの説明
legal_t5_small_trans_de_esは、t5 - small
モデルをベースにしており、大規模な平行テキストコーパスで学習されています。これはより小さなモデルで、dmodel = 512
、dff = 2,048
、8ヘッドのアテンションを使用し、エンコーダとデコーダそれぞれに6層しかないことで、t5のベースラインモデルを縮小しています。このバリアントには約6000万個のパラメータがあります。
想定される用途と制限
このモデルは、ドイツ語の法的テキストをスペイン語に翻訳するために使用できます。
学習データ
legal_t5_small_trans_de_esモデルは、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、および[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)のデータセット(500万の平行テキストから構成される)で学習されています。
学習手順
このモデルは、単一のTPU Pod V3 - 8で合計250Kステップ、シーケンス長512(バッチサイズ4096)で学習されました。合計で約2.2億個のパラメータがあり、エンコーダ - デコーダアーキテクチャを使用して学習されました。使用されるオプティマイザは、事前学習用の逆平方根学習率スケジュールを持つAdaFactorです。
前処理
平行コーパス(すべての可能な言語ペア)からの8800万行のテキストで学習されたユニグラムモデルを使用して語彙(バイトペアエンコーディング付き)を取得し、このモデルで使用しています。
事前学習
このREADMEには事前学習に関する詳細な説明が記載されていないため、このサブセクションは省略します。
評価結果
このモデルを翻訳テストデータセットで使用すると、以下の結果が得られます。
モデル |
BLEUスコア |
legal_t5_small_trans_de_es |
47.24 |
BibTeXエントリと引用情報
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)