🚀 TowerInstruct-13B-v0.1 模型卡片
TowerInstruct-13B-v0.1 是一款专为处理多种翻译相关任务而设计的语言模型。它基于 TowerBase 进行微调,在多种语言处理上表现出色,能应对从句子到段落的翻译、自动后编辑等多种任务。
📚 详细文档
模型描述
TowerInstruct-13B 是在 TowerBlocks 监督微调数据集上对 TowerBase 进行微调得到的语言模型。TowerInstruct-13B-v0.1 是该系列的首个模型。
此模型经过训练,可处理多项与翻译相关的任务,例如通用机器翻译(如句子和段落/文档级别的翻译、术语感知翻译、上下文感知翻译)、自动后编辑、命名实体识别、语法错误纠正以及释义生成等。
我们将在即将发布的技术报告中公布更多细节。目前,你可以在此查看该模型取得的结果。
属性 |
详情 |
开发者 |
Unbabel、里斯本大学高等技术学院、巴黎萨克雷大学中央理工 - 高等电力学院 |
模型类型 |
一个拥有 130 亿参数的模型,在与翻译相关任务的公开可用合成数据集、对话数据集和代码指令的混合数据集上进行了微调。 |
支持语言 (NLP) |
英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文、俄语 |
许可证 |
CC - BY - NC - 4.0,Llama 2 遵循 LLAMA 2 社区许可证,版权所有 © Meta Platforms, Inc. 保留所有权利。 |
微调基础模型 |
TowerBase |
预期用途与局限性
该模型最初在经过过滤和预处理的监督微调数据集(TowerBlocks - v0.2)上进行了微调,该数据集包含多种不同的数据源:
- 翻译(句子和段落级别)
- 自动后编辑
- 机器翻译评估
- 上下文感知翻译
- 术语感知翻译
- 多参考翻译
- 命名实体识别
- 释义生成
- 合成聊天数据
- 代码指令
你可以在此找到该数据集及其所有数据源。
以下是如何使用 🤗 Transformers 中的 pipeline()
函数运行该模型的示例:
💻 使用示例
基础用法
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="Unbabel/TowerInstruct-13B-v0.1", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "Translate the following text from Portuguese into English.\nPortuguese: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.\nEnglish:"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=False)
print(outputs[0]["generated_text"])
适用范围外的使用
该模型不能保证对其支持的 10 种语言以外的语言有效。尽管我们在对话数据和代码指令上对模型进行了训练,但它并非旨在用作对话式聊天机器人或代码助手。
我们目前正在努力提高文档级翻译的质量和一致性。此模型不适合用作文档级翻译工具。
偏差、风险和局限性
TowerInstruct - v0.1 尚未与人类偏好对齐,因此该模型可能会生成有问题的输出(例如幻觉内容、有害内容或虚假陈述)。
提示格式
TowerInstruct - v0.1 使用 ChatML 提示模板进行训练,且没有任何系统提示。以下是一个示例:
<|im_start|>user
{用户提示}<|im_end|>
<|im_start|>assistant
{模型响应}<|im_end|>
<|im_start|>user
[...]
监督任务
所有监督任务的提示可以在 TowerBlocks - v0.2 中找到。我们为每个任务使用了多个提示模板。虽然不同的提示可能会产生不同的输出,但下游性能的差异应该非常小。
🔧 技术细节
训练数据
TowerBlocks - v0.2 的链接。
训练超参数
训练期间使用了以下超参数:
- 总训练批次大小:256
- 学习率:7e - 06
- 学习率调度器类型:余弦
- 学习率调度器热身步数:500
- 权重衰减:0.01
- 优化器:Adam,β=(0.9, 0.999),ε = 1e - 08
- 训练轮数:4
- 最大序列长度:2048
📄 许可证
本模型采用 CC - BY - NC - 4.0 许可证,Llama 2 遵循 LLAMA 2 社区许可证,版权所有 © Meta Platforms, Inc. 保留所有权利。
📖 引用
@misc{tower_llm_2024,
title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks},
author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins},
year={2024},
eprint={2402.17733},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
