🚀 legal_t5_small_trans_cs_de_small_finetunedモデル
このモデルは、チェコ語の法的テキストをドイツ語に翻訳するためのものです。最初は、このリポジトリで公開されました。このモデルは、まず教師なしタスクを用いてすべての翻訳データで事前学習され、その後、jrc - acquis、europarl、dcepの3つの並列コーパスで学習されました。
✨ 主な機能
このモデルは、チェコ語からドイツ語への法的テキストの翻訳に特化しています。事前学習では「マスク言語モデリング」という教師なしタスクを用い、t5 - small
モデルをベースに大規模な並列テキストコーパスで学習されています。小規模なモデルで、dmodel = 512
、dff = 2,048
、8ヘッドのアテンション、エンコーダとデコーダそれぞれ6層を使用してベースラインモデルを縮小しており、約6000万のパラメータを持っています。
📦 インストール
このモデルの使用には、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_de_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_de", do_lower_case=False,
skip_special_tokens=True),
device=0
)
cs_text = "Vzhledem k tomu, že tento právní předpis bude přímo použitelný v členských státech a zavede mnoho povinností pro ty, na něž se vztahuje, je žádoucí, aby se jim poskytlo více času na přizpůsobení se těmto novým pravidlům."
pipeline([cs_text], max_length=512)
📚 ドキュメント
モデルの説明
legal_t5_small_trans_cs_de_small_finetunedは、まず教師なしタスクでトレーニングセットのすべてのデータを用いて事前学習されます。教師なしタスクは「マスク言語モデリング」でした。このモデルはt5 - small
モデルをベースにしており、大規模な並列テキストコーパスで学習されています。
想定される用途と制限
このモデルは、チェコ語の法的テキストをドイツ語に翻訳するために使用できます。
トレーニングデータ
legal_t5_small_trans_cs_de_small_finetunedモデルは、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)のデータセットを用いて学習されました。これらのデータセットは合計で約500万の並列テキストを含んでいます。
トレーニング手順
このモデルは、単一のTPU Pod V3 - 8上で合計250Kステップ、シーケンス長512(バッチサイズ4096)で学習されました。総計で約2.2億のパラメータを持ち、エンコーダ - デコーダアーキテクチャを使用して学習されました。事前学習には、逆平方根学習率スケジュールを持つAdaFactorオプティマイザが使用されました。
前処理
並列コーパス(すべての可能な言語ペア)の8800万行のテキストで学習されたユニグラムモデルを用いて語彙(バイトペアエンコーディング付き)を取得し、このモデルで使用されます。
事前学習
事前学習データは、42の言語ペアすべてのデータを組み合わせたものです。モデルのタスクは、ランダムにマスクされた文の部分を予測することでした。
評価結果
このモデルを翻訳テストデータセットで使用した場合、以下の結果を達成します。
テスト結果 :
モデル |
BLEUスコア |
legal_t5_small_trans_cs_de_small_finetuned |
44.175 |
BibTeXエントリと引用情報
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)