🚀 legal_t5_small_multitask_sv_it模型
該模型用於將瑞典語法律文本翻譯成意大利語。它首次發佈於 此倉庫。該模型在來自 JRC-ACQUIS、EUROPARL 和 DCEP 的 42 種語言對的三個平行語料庫上進行並行訓練,同時還進行了無監督任務,即模型在掩碼語言模型中執行預測任務。
🚀 快速開始
該模型可用於將瑞典語法律文本翻譯成意大利語。以下是在 PyTorch 中使用該模型進行翻譯的示例代碼:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_multitask_sv_it"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_multitask_sv_it", do_lower_case=False,
skip_special_tokens=True),
device=0
)
sv_text = "De nationella tillsynsmyndigheterna får använda"
pipeline([sv_text], max_length=512)
✨ 主要特性
- 無需預訓練,通過將無監督任務與所有翻譯任務相結合,實現多任務學習場景。
- 在三個平行語料庫上進行並行訓練,涵蓋 42 種語言對。
📦 安裝指南
文檔未提及安裝步驟,可參考 transformers
庫的官方安裝指南進行安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_multitask_sv_it"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_multitask_sv_it", do_lower_case=False,
skip_special_tokens=True),
device=0
)
sv_text = "De nationella tillsynsmyndigheterna får använda"
pipeline([sv_text], max_length=512)
📚 詳細文檔
模型描述
legal_t5_small_multitask_sv_it 模型不涉及預訓練,而是將無監督任務與所有翻譯任務相結合,以實現多任務學習場景。
預期用途和限制
該模型可用於將瑞典語法律文本翻譯成意大利語。
訓練數據
legal_t5_small_multitask_sv_it 模型(監督任務僅涉及相應的語言對,無監督任務則可使用所有語言對的數據)在 JRC-ACQUIS、EUROPARL 和 DCEP 數據集上進行訓練,這些數據集包含 800 萬條平行文本。
訓練過程
該模型在單個 TPU Pod V3-8 上總共訓練了 250K 步,使用序列長度為 512(批量大小為 4096)。它總共有約 2.2 億個參數,並使用編碼器 - 解碼器架構進行訓練。使用的優化器是 AdaFactor,學習率採用逆平方根調度。
預處理
使用來自平行語料庫(所有可能的語言對)的 8800 萬行文本訓練了一個 unigram 模型,以獲取詞彙表(使用字節對編碼),該詞彙表用於此模型。
評估結果
當使用該模型進行翻譯測試數據集時,取得了以下結果:
模型 |
BLEU 分數 |
legal_t5_small_multitask_sv_it |
44.242 |
🔧 技術細節
- 模型在三個平行語料庫上進行並行訓練,同時進行無監督任務,以實現多任務學習。
- 不涉及預訓練,通過結合無監督任務和翻譯任務實現多任務學習。
- 使用 unigram 模型進行預處理,獲取詞彙表。
- 在單個 TPU Pod V3-8 上進行訓練,使用 AdaFactor 優化器和逆平方根學習率調度。
📄 許可證
文檔未提及許可證信息。
BibTeX 引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 創建 | LinkedIn