🚀 legal_t5_small_trans_cs_en_small_finetunedモデル
このモデルは、法的なテキストをチェコ語から英語に翻訳するためのものです。最初はthis repositoryで公開されました。このモデルは、まず全ての翻訳データを使って教師なしタスクで事前学習され、その後、jrc - acquis、europarl、dcepの3つの平行コーパスで学習されました。
✨ 主な機能
legal_t5_small_trans_cs_en_small_finetunedモデルは、トレーニングセットの全データを使って、「マスク言語モデリング」という教師なしタスクで事前学習されています。このモデルはt5 - small
モデルをベースにしており、大規模な平行テキストコーパスで学習されています。これはより小さなモデルで、dmodel = 512
、dff = 2,048
、8ヘッドのアテンション、エンコーダとデコーダそれぞれ6層を使用することで、t5のベースラインモデルを縮小しています。このバリエーションには約6000万のパラメータがあります。
🚀 クイックスタート
このモデルは、法的なテキストをチェコ語から英語に翻訳するために使用できます。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_en_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
cs_text = "4) Seznam užívaných výrobků s obsahem PFOS: Kvůli značnému poklesu výroby PFOS po roce 2000 představují největší zdroj emisí patrně dřívější využití, která však nadále reálně existují."
pipeline([cs_text], max_length=512)
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの学習データ
legal_t5_small_trans_cs_en_small_finetunedモデルは、[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL、[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)のデータセット(合計500万の平行テキスト)を使って学習されました。
学習手順
このモデルは、単一のTPU Pod V3 - 8上で、シーケンス長512(バッチサイズ4096)で合計250Kステップ学習されました。総計で約2億2000万のパラメータがあり、エンコーダ - デコーダアーキテクチャを使用して学習されました。最適化アルゴリズムには、事前学習に逆平方根学習率スケジュールを持つAdaFactorが使用されました。
前処理
平行コーパス(すべての可能な言語ペア)からの8800万行のテキストを使って学習されたユニグラムモデルを使って語彙(バイトペアエンコーディング付き)を取得し、このモデルで使用されます。
事前学習
事前学習データは、42の言語ペアすべてからの結合データでした。モデルのタスクは、ランダムにマスクされた文の部分を予測することでした。
評価結果
このモデルを翻訳テストデータセットで使用すると、以下の結果が得られます。
モデル |
BLEUスコア |
legal_t5_small_trans_cs_en_small_finetuned |
56.936 |
BibTeXエントリと引用情報
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)