🚀 legal_t5_small_trans_fr_en モデル
このモデルは、フランス語の法的テキストを英語に翻訳するためのものです。初めて このリポジトリ で公開されました。このモデルは、jrc - acquis、europarl、dcep の3つの平行コーパスを使用して学習されています。
✨ 主な機能
このモデルは、法的テキストのフランス語から英語への翻訳に特化しています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_fr_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_fr_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
fr_text = "quels montants ont été attribués et quelles sommes ont été effectivement utilisées dans chaque État membre? 4."
pipeline([fr_text], max_length=512)
📚 ドキュメント
モデルの説明
legal_t5_small_trans_fr_en は t5 - small
モデルをベースにしており、大規模な平行テキストコーパスで学習されています。これはより小さなモデルで、dmodel = 512
、dff = 2,048
、8ヘッドのアテンションを使用し、エンコーダとデコーダそれぞれに6層しかないことで、t5のベースラインモデルを縮小しています。このバリアントには約6000万個のパラメータがあります。
想定される用途と制限
このモデルは、法的テキストのフランス語から英語への翻訳に使用できます。
学習データ
legal_t5_small_trans_fr_en モデルは、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) のデータセットを使用して学習されており、これらのデータセットには500万の平行テキストが含まれています。
学習手順
このモデルは、シングルTPU Pod V3 - 8上で合計250Kステップ学習され、シーケンス長は512(バッチサイズ4096)です。合計で約2億2000万個のパラメータがあり、エンコーダ - デコーダアーキテクチャを使用して学習されています。使用されるオプティマイザは、事前学習用の逆平方根学習率スケジュールを持つAdaFactorです。
前処理
平行コーパス(すべての可能な言語ペア)の8800万行のテキストで学習されたユニグラムモデルを使用して語彙を取得し(バイトペアエンコーディングを使用)、このモデルで使用されます。
評価結果
このモデルを翻訳テストデータセットに使用した場合、以下の結果が得られます。
モデル |
BLEUスコア |
legal_t5_small_trans_fr_en |
51.44 |
BibTeXエントリと引用情報
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)
属性 |
詳情 |
モデルタイプ |
legal_t5_small_trans_fr_en は t5 - small モデルをベースにした翻訳モデルです。 |
学習データ |
このモデルは、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) のデータセットを使用して学習されました。 |