🚀 TowerInstruct-13B-v0.1 模型卡片
TowerInstruct-13B-v0.1 是一款專為處理多種翻譯相關任務而設計的語言模型。它基於 TowerBase 進行微調,在多種語言處理上表現出色,能應對從句子到段落的翻譯、自動後編輯等多種任務。
📚 詳細文檔
模型描述
TowerInstruct-13B 是在 TowerBlocks 監督微調數據集上對 TowerBase 進行微調得到的語言模型。TowerInstruct-13B-v0.1 是該系列的首個模型。
此模型經過訓練,可處理多項與翻譯相關的任務,例如通用機器翻譯(如句子和段落/文檔級別的翻譯、術語感知翻譯、上下文感知翻譯)、自動後編輯、命名實體識別、語法錯誤糾正以及釋義生成等。
我們將在即將發佈的技術報告中公佈更多細節。目前,你可以在此查看該模型取得的結果。
屬性 |
詳情 |
開發者 |
Unbabel、里斯本大學高等技術學院、巴黎薩克雷大學中央理工 - 高等電力學院 |
模型類型 |
一個擁有 130 億參數的模型,在與翻譯相關任務的公開可用合成數據集、對話數據集和代碼指令的混合數據集上進行了微調。 |
支持語言 (NLP) |
英語、葡萄牙語、西班牙語、法語、德語、荷蘭語、意大利語、韓語、中文、俄語 |
許可證 |
CC - BY - NC - 4.0,Llama 2 遵循 LLAMA 2 社區許可證,版權所有 © Meta Platforms, Inc. 保留所有權利。 |
微調基礎模型 |
TowerBase |
預期用途與侷限性
該模型最初在經過過濾和預處理的監督微調數據集(TowerBlocks - v0.2)上進行了微調,該數據集包含多種不同的數據源:
- 翻譯(句子和段落級別)
- 自動後編輯
- 機器翻譯評估
- 上下文感知翻譯
- 術語感知翻譯
- 多參考翻譯
- 命名實體識別
- 釋義生成
- 合成聊天數據
- 代碼指令
你可以在此找到該數據集及其所有數據源。
以下是如何使用 🤗 Transformers 中的 pipeline()
函數運行該模型的示例:
💻 使用示例
基礎用法
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="Unbabel/TowerInstruct-13B-v0.1", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "Translate the following text from Portuguese into English.\nPortuguese: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.\nEnglish:"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=False)
print(outputs[0]["generated_text"])
適用範圍外的使用
該模型不能保證對其支持的 10 種語言以外的語言有效。儘管我們在對話數據和代碼指令上對模型進行了訓練,但它並非旨在用作對話式聊天機器人或代碼助手。
我們目前正在努力提高文檔級翻譯的質量和一致性。此模型不適合用作文檔級翻譯工具。
偏差、風險和侷限性
TowerInstruct - v0.1 尚未與人類偏好對齊,因此該模型可能會生成有問題的輸出(例如幻覺內容、有害內容或虛假陳述)。
提示格式
TowerInstruct - v0.1 使用 ChatML 提示模板進行訓練,且沒有任何系統提示。以下是一個示例:
<|im_start|>user
{用戶提示}<|im_end|>
<|im_start|>assistant
{模型響應}<|im_end|>
<|im_start|>user
[...]
監督任務
所有監督任務的提示可以在 TowerBlocks - v0.2 中找到。我們為每個任務使用了多個提示模板。雖然不同的提示可能會產生不同的輸出,但下游性能的差異應該非常小。
🔧 技術細節
訓練數據
TowerBlocks - v0.2 的鏈接。
訓練超參數
訓練期間使用了以下超參數:
- 總訓練批次大小:256
- 學習率:7e - 06
- 學習率調度器類型:餘弦
- 學習率調度器熱身步數:500
- 權重衰減:0.01
- 優化器:Adam,β=(0.9, 0.999),ε = 1e - 08
- 訓練輪數:4
- 最大序列長度:2048
📄 許可證
本模型採用 CC - BY - NC - 4.0 許可證,Llama 2 遵循 LLAMA 2 社區許可證,版權所有 © Meta Platforms, Inc. 保留所有權利。
📖 引用
@misc{tower_llm_2024,
title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks},
author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins},
year={2024},
eprint={2402.17733},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
