🚀 legal_t5_small_trans_es_en_small_finetuned模型
該模型用於將法律文本從西班牙語翻譯成英語。它首次發佈於 此倉庫。此模型先在所有翻譯數據上針對一些無監督任務進行預訓練,然後在來自jrc - acquis、europarl和dcep的三個平行語料庫上進行訓練。
✨ 主要特性
- 專為西班牙語到英語的法律文本翻譯設計。
- 基於
t5 - small
模型,在大規模平行文本語料庫上訓練。
- 是一個較小的模型,通過使用
dmodel = 512
、dff = 2,048
、8頭注意力機制,且編碼器和解碼器各只有6層,縮小了t5基線模型的規模,約有6000萬個參數。
📦 安裝指南
文檔中未提及具體安裝步驟,可參考transformers
庫的安裝方式,使用以下命令安裝:
pip install transformers
💻 使用示例
基礎用法
以下是如何在PyTorch中使用該模型將法律文本從西班牙語翻譯成英語的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_es_en_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_es_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
es_text = "de Jonas Sjöstedt (GUE/NGL)"
pipeline([es_text], max_length=512)
📚 詳細文檔
模型描述
legal_t5_small_trans_es_en_small_finetuned最初在訓練集的所有數據上針對無監督任務進行預訓練,該無監督任務是“掩碼語言建模”。它基於t5 - small
模型,在大規模平行文本語料庫上進行訓練。
預期用途和限制
該模型可用於將法律文本從西班牙語翻譯成英語。
訓練數據
legal_t5_small_trans_es_en_small_finetuned模型(包括僅涉及相應語言對的監督任務,以及所有語言對數據都可用的無監督任務)在[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL和[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)數據集上進行訓練,這些數據集包含900萬條平行文本。
訓練過程
- 該模型在單個TPU Pod V3 - 8上總共訓練了250K步,使用序列長度512(批量大小4096)。
- 它總共有約2.2億個參數,採用編碼器 - 解碼器架構進行訓練。
- 預訓練使用的優化器是AdaFactor,採用逆平方根學習率調度。
預處理
使用從平行語料庫(所有可能的語言對)的8800萬行文本訓練的一元模型來獲取詞彙表(使用字節對編碼),並將其用於該模型。
預訓練
預訓練數據是所有42種語言對的組合數據。模型的任務是預測句子中隨機掩碼的部分。
評估結果
當該模型用於翻譯測試數據集時,取得了以下結果:
模型 |
BLEU分數 |
legal_t5_small_trans_es_en_small_finetuned |
54.481 |
BibTeX引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 創建 | [領英](https://www.linkedin.com/in/prof - ahmed - elnaggar/)
🔧 技術細節
該模型基於t5 - small
架構,通過調整參數如dmodel = 512
、dff = 2,048
、8頭注意力機制以及編碼器和解碼器各6層,縮小了模型規模。在訓練過程中,先進行無監督的掩碼語言建模預訓練,再在特定的平行語料庫上進行監督訓練,使用AdaFactor優化器和逆平方根學習率調度,以實現從西班牙語到英語的法律文本翻譯。