🚀 legal_t5_small_trans_es_en_small_finetunedモデル
このモデルは、スペイン語の法的テキストを英語に翻訳するためのものです。最初はthisリポジトリで公開されました。このモデルは、まず教師なしタスクですべての翻訳データを事前学習し、その後、jrc - acquis、europarl、dcepの3つの並列コーパスで学習されました。
✨ 主な機能
モデルの説明
legal_t5_small_trans_es_en_small_finetunedは、まず教師なしタスクでトレーニングセットのすべてのデータを事前学習します。教師なしタスクは「マスク言語モデリング」でした。このモデルはt5 - small
モデルに基づいており、大規模な並列テキストコーパスで学習されています。これはより小さなモデルで、dmodel = 512
、dff = 2,048
、8ヘッドのアテンション、エンコーダとデコーダそれぞれに6層のみを使用することで、t5のベースラインモデルを縮小しています。このバリアントには約6000万のパラメータがあります。
想定される用途と制限
このモデルは、スペイン語の法的テキストを英語に翻訳するために使用できます。
📦 インストール
このセクションでは、元のREADMEにインストール手順が記載されていないため、省略されます。
💻 使用例
基本的な使用法
以下は、このモデルを使用して、PyTorchでスペイン語の法的テキストを英語に翻訳する方法です。
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_es_en_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_es_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
es_text = "de Jonas Sjöstedt (GUE/NGL)"
pipeline([es_text], max_length=512)
📚 ドキュメント
学習データ
legal_t5_small_trans_es_en_small_finetunedモデル(対応する言語ペアのみを含む教師ありタスクと、すべての言語ペアのデータが利用可能な教師なしタスク)は、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、および[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)のデータセット(900万の並列テキストから構成される)で学習されました。
学習手順
このモデルは、シングルTPU Pod V3 - 8で合計250Kステップ、シーケンス長512(バッチサイズ4096)で学習されました。合計で約2億2000万のパラメータを持ち、エンコーダ - デコーダアーキテクチャを使用して学習されました。最適化アルゴリズムには、事前学習に逆平方根学習率スケジュールを持つAdaFactorが使用されました。
前処理
並列コーパス(すべての可能な言語ペア)の8800万行のテキストで学習されたユニグラムモデルを使用して、語彙(バイトペアエンコーディング付き)を取得し、このモデルで使用します。
事前学習
事前学習データは、42の言語ペアすべてのデータを結合したものです。モデルのタスクは、文のランダムにマスクされた部分を予測することでした。
評価結果
このモデルを翻訳テストデータセットに使用すると、以下の結果が得られます。
モデル |
BLEUスコア |
legal_t5_small_trans_es_en_small_finetuned |
54.481 |
BibTeXエントリと引用情報
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)
🔧 技術詳細
このセクションでは、元のREADMEに十分な技術詳細が記載されていないため、省略されます。
📄 ライセンス
このセクションでは、元のREADMEにライセンス情報が記載されていないため、省略されます。